R的历史
R的历史
R语言来自S语言,是S语言的一个变种。S语言由Rick Becker, John Chambers等人在贝尔实验室开发, 著名的C语言、Unix系统也是贝尔实验室开发的。
S语言第一个版本开发于1976-1980,基于Fortran; 于1980年移植到Unix, 并对外发布源代码。 1984年出版的“棕皮书” (R. A. Becker and Chambers 1984) 总结了1984年为止的版本, 并开始发布授权的源代码。 这个版本叫做旧S。与我们现在用的S语言有较大差别。
1989–1988对S进行了较大更新, 变成了我们现在使用的S语言,称为第二版。 1988年出版的“蓝皮书” (Richard A. Becker, Chambers, and Wilks 1988) 做了总结。
1992年出版的“白皮书” (J. M. Chambers and Hastie 1992) 描述了在S语言中实现的统计建模功能, 增强了面向对象的特性。软件称为第三版,这是我们现在用的多数版本。
1998年出版的“绿皮书” (John M. Chambers 2008) 描述了第四版S语言,主要是编程功能的深层次改进。 现行的S系统并没有都采用第四版,S-PLUS的第5版才采用了S语言第四版。
S语言商业版本为S-PLUS, 1988年发布,现在为Tibco Software拥有。 命运多舛,多次易主。现在已经基本被R语言取代。
R是一个自由软件,GPL授权, 最初由新西兰Auckland 大学的Ross Ihaka 和 Robert Gentleman于1997年发布, R实现了与S语言基本相同的功能和统计功能。 现在由R核心团队开发,但全世界的用户都可以贡献软件包。 R的网站: http://www.r-project.org/
1.1.2 R的特点
1.1.2.1 R语言一般特点
自由软件,免费、开放源代码,支持各个主要计算机系统;
完整的程序设计语言,基于函数和对象,可以自定义函数,调入C、C++、Fortran编译的代码;
具有完善的数据类型,如向量、矩阵、因子、数据集、一般对象等,支持缺失值,代码像伪代码一样简洁、可读;
强调交互式数据分析,支持复杂算法描述,图形功能强;
实现了经典的、现代的统计方法,如参数和非参数假设检验、线性回归、广义线性回归、非线性回归、可加模型、树回归、混合模型、方差分析、判别、聚类、时间序列分析等。
统计科研工作者广泛使用R进行计算和发表算法。R有上万扩展包(截止2021年7月在R扩展包主要分发网站CRAN上有一万七千多个)。
1.1.2.2 R语言和R软件的技术特点
函数编程(functional programming)。R语言虽然不是严格的functional programming语言,但可以遵照其原则编程,得到可验证的可靠程序。
支持对象类和类方法。基于对象的程序设计。
是动态类型语言,解释执行,运行速度较慢。
数据框是基本的观测数据类型,类似于数据库的表。
开源软件(Open source software)。可深入探查,开发者和用户交互。
可以用作C和C++、FORTRAN语言编写的算法库的接口。
主要数值算法采用已广泛测试和采纳的算法实现,如排序、随机数生成、线性代数(LAPACK软件包)。
1.1.2.3 推荐参考书
Hadley Wickham and Garrett Grolemund(2017) “R for Data Science”,https://r4ds.had.co.nz/, O’Reilly, 讲基本的数据整理、汇总。
Hadley Wickham(2019) “Advanced R,” 2nd ed., https://adv-r.hadley.nz/, Chapman & Hall/CRC The R Series,高级R编程,属于对R高级编程技术的讲解。
Hadley Wickham(2016) ggplot2 Elegant Graphics for Data Analysis, 2nd ed., https://ggplot2-book.org/, Springer,优雅易用的R作图功能。
Susan Holmes, Wolfgang Huber(2020) Modern Statistics for Modern Biology, https://www.huber.embl.de/msmb/index.html, R的统计功能在生物学中的应用
1.1.2.4 其它参考书
R网站上的初学者手册“An Introduction to R”和其它技术手册。
John M. Chambers(2008), “Software for Data Analysis-Programming with R,” Springer.
Venables, W. N. & Ripley, B. D.(2002) “Modern Applied Statistics with S,” Springer
R.L. Kabacoff(2012)《R语言实战》,人民邮电出版社。
薛毅、陈立萍(2007)《统计建模与R软件》,清华大学出版社。
汤银才(2008),《R语言与统计分析》,高等教育出版社。
李东风(2006)《统计软件教程》,人民邮电出版社。
1.2 R的下载与安装
1.2.1 R的下载
以MS Windows操作系统为例。R的主网站在https://www.r-project.org/。 从CRAN的镜像网站下载软件,其中一个镜像如http://mirror.bjtu.edu.cn/cran/。 选“Download R for Windows-base-Download R 4.1.0 for windows” (4.1.0是版本号,应下载网站上给出的最新版本)链接进行下载。 在“Download R for Windows”链接的页面, 除了base为R的安装程序, 还有contrib为R附加的扩展软件包下载链接(一般不需要从这里下载), 以及Rtools链接, 是在R中调用C、C++和Fortran程序代码时需要用的编译工具。
RStudio(https://www.rstudio.com/)是功能更强的一个R图形界面, 在安装好R的官方版本后安装RStudio可以更方便地使用R。
1.2.2 R软件安装
下载官方的R软件后按提示安装。 安装后获得一个桌面快捷方式,如“R x64 4.1.0”(这是64位版本)。
安装官方的R软件后, 可以安装RStudio。 平时使用可以使用RStudio, 其界面更方便, 对R Markdown格式(.Rmd)文件支持更好。
如果使用RStudio, 每个分析项目需要单独建立一个“项目”(project), 每个项目也有一个工作文件夹。
1.2.3 辅助软件
R可以把一段程序写在一个以.r或.R为扩展名的文本文件中, 如“date.r”, 称为一个_源程序_文件, 然后在R命令行用
source(“date.r”)
运行源程序。 这样的文件可以用记事本生成和编辑。
在MS Windows操作系统中建议使用notepad++软件, 这是MS Windows下记事本程序的增强型软件。 安装后,在MS Windows资源管理器中右键弹出菜单会有“edit with notepadpp”选项。 notepad++可以方便地在不同的中文编码之间转换。
RStudio则是一个集成环境, 可以在RStudio内进行源程序文件编辑和运行。
1.3 R扩展软件包的安装与管理
1.3.1 安装
R有一万多个扩展软件包,提供了各种各样的功能。 以安装sos包为例。sos包用来搜索某些函数的帮助文档。 在RStudio中调用用“Tools”菜单的“Install Packages”, 输入或者在列表中选中sos就可以安装该扩展包。
如果不用RStudio, 在R图形界面选菜单“程序包-安装程序包”, 在弹出的“CRAN mirror”选择窗口中选择一个中国的镜像如“China (Beijing 2)”, 然后在弹出的“Packages”选择窗口中选择要安装的扩展软件包名称, 即可完成下载和安装。
还可以用如下程序指定镜像网站(例子中是位于清华大学的镜像网站)并安装指定的扩展包:
options(repos=c(CRAN=“https://mirror.tuna.tsinghua.edu.cn/CRAN/”))
install.packages(“sos”)
还可以选择扩展包的安装路径, 如果权限允许, 可以选择安装在R软件的主目录内或者用户自己的私有目录位置。 由于用户的对子目录的读写权限问题, 有时不允许一般用户安装扩展包到R的主目录中。 用.libPaths()查看允许的扩展包安装位置, 在install.packages()中用lib=指定安装位置:
print(.libPaths())
[1] “D:/R/R-4.1.0/library”
install.packages(“sos”, lib=.libPaths()[1])
1.3.2 Github和BioConductor的扩展包
还有一些扩展包没有在CRAN系统提供, 而是放在了Github网站。 对于这样的包, 安装方法举例如下:
if(!require(devtools)) install.packages(‘devtools’)
devtools::install_github(“kjhealy/socviz”)
其中kjhealy是Github网站的某个作者的名称, socviz是该作者名下的一个R扩展包。
还有一些包需要从Bioconductor网站安装,可利用镜像网站。 利用清华大学镜像的示例如下:
options(repos=c(CRAN=“https://mirror.tuna.tsinghua.edu.cn/CRAN/”))
if (!requireNamespace(“BiocManager”, quietly = TRUE)){
install.packages(“BiocManager”)
BiocManager::install()
}
options(BioC_mirror=“https://mirrors.tuna.tsinghua.edu.cn/bioconductor”)
BiocManager::install(c(“Biostrings”))
随后安装Bioconductor的其它包, 也应该先设置repos和Bioc_mirror选项。
1.3.3 更新扩展包
在RStudio中用“Tools–Check for Package Updates”菜单, 可以显示有新版本的扩展包, 并选择进行更新。
或者在命令行用如下命令更新本地安装的所有有新版本的CRAN扩展包:
options(repos=c(CRAN=“http://mirror.tuna.tsinghua.edu.cn/CRAN/”))
update.packages(checkBuilt=TRUE, ask=FALSE)
RStudio在运行时会载入某些包, 如rlang, 这使得RStudio无法更新这些包, 需要在R的命令行程序(就是基本R软件)中更新。
1.3.4 迁移扩展包
在每一次R软件更新后, 需要重新安装原来的软件包, 这个过程很麻烦。 如果仅仅是小的版本更新, 比如从3.5.1变成3.5.2, 或者从3.4.2变成3.5.0, 可以在安装新版本后, 临时将新版本的library子目录更名为library0, 将老版本的library子目录剪切为新版本的library子目录, 然后将library0中所有内容复制并覆盖进入library子目录, 删除library0即可。 然后在基本R中(不要用RStudio)运行如下命令以更新有新版本的包:
options(repos=c(CRAN=“http://mirror.tuna.tsinghua.edu.cn/CRAN/”))
update.packages(checkBuilt=TRUE, ask=FALSE)
如果版本改变比较大, 可以用如下方法批量地重新安装原有的软件包。 首先,在更新R软件前,在原来的R中运行:
packages <- .packages(TRUE)
dump(“packages”, file=“packages-20180704.R”)
这样可以获得要安装的软件包的列表。 在更新R软件后, 运行如下程序:
options(repos=c(CRAN=“http://mirror.tuna.tsinghua.edu.cn/CRAN/”))
source(“packages-20180704.R”)
install.packages(packages)
安装时如果提问是否安装需要编译的源代码包, 最好选择否, 因为安装源代码包速度很慢还有可能失败。
1.3.5 项目私有扩展包目录
在使用了R一段较长时间以后, 会安装了许多扩展包, 这些扩展包在某个时期是有用的, 但是一旦某个任务完成了就不再有用。 但是, 用户自己无法判断哪些包已经不需要。
R的renv扩展包支持每个项目保存私有的扩展包目录, 这样, 不同的项目使用不同的扩展包集合, 不至于引发版本冲突, 也不必总是为公用的R扩展包目录增加许多仅是短暂使用的扩展包。 用renv管理项目私有扩展包目录, 也有利于将项目迁移到其它电脑中, 并且保证每次使用的扩展包版本号不变, 避免多个项目共用的扩展包升级造成兼容性问题。
那些不需要安装许多扩展包的项目仍可以不启用renv, 使用公用的R扩展包目录。
在生成新的RStudio项目时, 可以点击选中“Use renv with this project”复选框; 对已有的RStdio项目, 如果要启用renv, 可以选菜单“Tools – Project Options – Environment”, 选中“Use renv with this project”复选框。
启用了renv的项目, 在安装新的扩展包时, 将安装在项目目录中, 而不再修改R的公用的扩展包目录。 这也有助于将项目迁移到其它计算机上。