R语言对我们大多数人来说,还是一种“耳熟不能详”的神秘高人,只是听说它的各种好处,比如它能轻易处理超大样本的数据,而且对电脑配置的要求不高,听说有人曾经用Excel处理过20000行的大表格,搞得电脑欲仙欲死,但用R语言完全没问题;更好的是,它还免费,不需要辛辛苦苦找破解版;Geek们更在意的是,它是开源的,所以全球用户都可以对它的功能进行检验、改进,而且它有辣么多用户,任何一个bug都会得到迅速报告并修正。
不过这都不是重点,最终拉我入坑的,是它能做出很多高质量的美腻又直观的数据图。
一、R语言制图
比如用于检验正态性的QQ图:
炫丽的散点图:
信息丰富的热图:
再也不怕代码复杂了,为了玩出漂亮的图,发高大上的文章,我豁出去了~
不过,一口不能吃个胖子,今天这篇文章还不能让你学会做这些图,不过已经上路了~我们先探索一些简单的统计运算,做点朴素的图来展示自己的数据吧。
二、安装并认识RStudio
先下载并安装R和RStudio
打开RStudio,用Ctrl+Shift+N新建文件,得到如下窗口:
如果你安装出来的界面排版跟我不一样,请参考英文自己对上号,也可以在“Tools→GlobalOptions→PaneLayout”里设置成和我一样的。
各区的功能,按照我的肤浅的理解:编辑区就是我们的战略指挥中心,在这里输入命令;工作区是军械库,可以看到我们都有哪些武器装备(包括数据库、在编辑区输入命令后生成的各种变量等);控制台则一来是后方监控,我们哪条命令运行成功,哪条失败,出了什么问题,都可以在这里看到,二来,运算结果也在这里显示;展示区,其实这个区功能比较杂,但我们暂时只用到展示统计图的Plots选项卡,所以就先这么称呼吧。
三、Ready:导入数据向量赋值
我就用我伪造的一组数据来演示吧,假设我们有一个对照组和两种药物的治疗组,检测组织切片的显微镜下A细胞计数,这个数据在Excel里是这样的:
第一排是组名,全英文,不要有空格,底下是数据。
在RStudio的工作区有个ImportDataset,点击之后选择FromExcel,然后可能会提示你安装一个导入数据的工具包,选Yes,然后等它自动安装。装好后,在接下来的弹窗里,点Browse导入你的Excel文件,然后你有可能发现你的数据都变成了什么鬼……此时,需要把每一列下的double下拉框点开,全都改成Numeric。确保下面的FirstRowasNames选上,其他的随意啦~
细心的小伙伴可能发现,左下角Name里的Cell_Count,比原文件名CellCount多了一个下划线。这是系统自动改的,为了符合R语言的语法。像TNF-a这样含有分隔符的,也会变成下划线。如果不涉及这些特殊符号,一般不会有变化,但还是要留一下,因为一会儿要用到Name里的名字,而不是Excel的文件名。
这时候你看到工作区多了个数据表的选项卡,工作区也补给了弹药,Data。
现在要把弹药装填上膛:把每组数据变成向量,并赋值成为变量。可以理解成给每组数据穿上R语言能识别的外衣(向量),然后起个名字(变量)。
在编辑区输入简单的三行代码,格式:随便起一个名称=c(刚才导入Excel时出现的那个Name$数据表中相应的组名),注意各种符号都要用英文半角状态。“c(blabla)”这串就是向量,前面起的那个名称就是变量。每输完一行都用Ctrl+Enter运行一下。
最后看到工作区多了个Values,其中的num表示这组向量的类型是数值,[1:16]表示这是第1~第16个数值。
要是现在就觉得输代码太麻烦了,不要怕,其实你输入前半个括号时,后半个就自动给你补齐了,不会出错的;而且输入前几个字母的时候会有弹窗提示,直接选中按Enter就好了:
一切准备就绪。
四、课程目录
1.R语言语法基础
2.T检验和Wilcoxon检验
3.方差分析
4.相关性与线性回归
5.Logistic回归
6.生存分析是门大学问,要从小做起
7.用R语言做临床基线表
8.Cox回归操作:从单因素到多因素一气呵成