Bootstrap

1-R语言概述

1.认识R语言

1.1 选择R语言的依据

  • 免费的软件
  • 编程方便,语言灵活,图形功能强大
  • 优秀的内在帮助系统
  • 高质量、广泛的统计分析、数据挖掘平台
  • 国际上R语言已然是专业数据分析领域的标准
    请添加图片描述
    请添加图片描述

1.2 R的来源

​ R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索统计分析作图的解释型语言。最初S语言的实现版本主要是S-PLUS。

​ S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。
请添加图片描述

1.3 R的优缺点

描述:

  • 与起源于贝尔实验室的S语言类似,R也是一种为统计计算和绘图而生的语言和环境,它是一套开源的数据分析解决方案,由一个庞大且活跃的全球性研究型社区维护。但是,世面上也有许多其他流行的统计和制图软件,如Miscrosoft Excel、SAS、IBM SPSS、Stata以及Minitab。为何还要选择R?
  • R有着非常多值得推荐的特性
  • 多数商业统计软件价格不菲,而R是免费的!
  • R语言由一个庞大且活跃全球性研究型社区维护
  • R语言具备可扩展能力且拥有丰富的功能选项,帮助开发人员构建自己的工具及方法,从而顺利实现数据分析。
  • R可运行与多种平台之上,包括Windows、Unix和Mac OS X。这基本上意味着它可以运行于你所能拥有的任何计算机上。

优点:

  1. 开源;
  2. 庞大且活跃的社区维护;
  3. 可扩展能力强,灵活度高;
  4. 多平台运行,Windows、Linux和Mac OS X;
  5. 已然是专业数据分析领域的标准工具。

缺点:

  1. 解释性语言,速度略慢
  2. 所有计算都是在内存中进行的;
  3. 标准相对不统一

1.4 R环境安装

​ R 语言的开发环境本身具备了图形开发环境,这与其他很多工程语言是不同的,所以开发环境最好安装在为桌面个人计算机设计的操作系统上(如 Windows, macOS 或 Ubuntu 桌面版 等)。

首先,我们需要下载 R 语言环境的安装包:

Windows

  • 官方地址:https://cloud.r-project.org/bin/windows/base/
  • USTC 镜像:https://mirrors.ustc.edu.cn/CRAN/bin/windows/base/
  • TUNA 镜像:https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/windows/base/

Linux

  • 官方地址:https://cloud.r-project.org/bin/linux/
  • USTC 镜像:https://mirrors.ustc.edu.cn/CRAN/bin/linux/
  • TUNA 镜像:https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/linux/

macOS

  • 官方地址:https://cloud.r-project.org/bin/macosx/
  • USTC 镜像:https://mirrors.ustc.edu.cn/CRAN/bin/macosx/
  • TUNA 镜像:https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/macosx/

以上的版本有可能是过时的,如果你需要最新版本,可以访问:

  • 清华大学源: https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/
  • 官网:https://cloud.r-project.org/bin/

window中安装

Windows 安装很简单,下载安装包后,双击下载的安装包,开始安装向导:

请添加图片描述
请添加图片描述
请添加图片描述

**注意:**这里使用的操作系统是 64 位的,但现在仍有少数的计算机使用的是 32 位的操作系统,如果你的操作系统是 32 位的,请在此步骤选择"32-bit 用户安装"选项。(不同的版本有可能不一样)

请添加图片描述

1.5 R的图形用户界面

在R安装完后的GUI窗口里,有菜单栏、工具栏和R的控制台。

请添加图片描述

2.R的编译环境

2.1 Rstudio的IDE编辑器

​ R自身带的编辑器很不好用,因此可以寻找很多的替代方案,比如可以选择Emacs和Vim来替代。这里推荐Rstudio,它是专门用于R语言环境的IDE。

​ Rstudio可以从其官网http://www.rstudio.com/上免费下载安装。

请添加图片描述

2.2 获取R的帮助

​ R提供了大量的帮助功能,学会如何使用这些帮助文档可以在很大程度上助力你的编程工作。通过命令窗口输入代码查看帮助。

函数功能
help.start()打开帮助文档
help(“plot”)或者?plot查看函数plot的帮助(引号可以省略)
help.search(“plot”)或者??plot以plot为关键词搜索本地帮助文档
example(“plot”)函数plot的使用示例(引号可以省略)
RSiteSearch(“plot”)以plot为关键词搜索在线文档个邮件列表存档
apropos(“plot”,mode=“function”)列出名称中含有plot的所有可用函数
data()列出当前以加载包中所含的所有可用示例数据集
vignette()列出当前已经安装包中所有可能的vignette文档
vignette(“plot”)为主题plot显示指定的vignette文档

​ 在RStudio中,资源管理窗口的Help子窗口则可以直接通过函数的输入查看相关的帮助文档。

请添加图片描述

2.3 R的工作空间

  • 工作空间(workspace)就是当前R的工作环境,它储存着所有用户定义的对象(向量、矩阵、函数、数据框、列表)。
  • 在一个R会话结束时,你可以将当前工作空间保存到一个镜像中,并在下次启动R时自动载入它。
  • 当前的工作目录(working directory)是R用来读取文件和保存结果的默认目录。
  • 我们可以使用函数**getwd( )来查看当前的工作目录,或使用函数setwd( )**设定当前的工作目录。
  • 如果需要读入一个不在当前工作目录下的文件,则需要在调用语句中写明完整的路径。

在RStudio中的环境管理窗口中可以直观看到R的工作空间中储存的对象。

请添加图片描述

R的部分工作空间管理函数。

函数功能
getwd**()**显示当前的工作目录。
setwd(“new_path”)修改当前的工作目录为new_path。
ls()列出当前工作空间中的对象。
rm(objectList)移除(删除)一个或多个对象。
rm(list = ls())移除当前工作空间的所有对象,即清除R工作空间中的内存变量。
help(options)显示可用选项的说明。
options()显示或设置当前选项。
history(n)显示最近使用过的n个命令(默认值为25)。
savehistory(“myfile”)保存命令历史到文件myfile中(默认值为.Rhistory)。
loadhistory(“myfile”)载入一个命令历史文件(默认值为.Rhistory)。
save.image(“myfile”)保存工作空间到文件myfile中(默认值为.RData)。
save(objectlist,file=“myfile”)保存指定对象到一个文件中。
load(“myfile”)读取一个工作空间到当前会话中(默认值为.RData)。
q()退出R,并将会询问是否保存工作空间。

3.使用R包

3.1R包概述

  • 包是R函数、数据、预编译代码以一种定义完善的格式组成的集合。
  • 计算机上存储包的目录称为(library)。
  • 函数.**libPaths()**能够显示库所在的位置。
  • 函数**library()**则可以显示库中有哪些包。
  • R自带了一系列默认包(包括base、datasets、utils、grDevices、graphics、stats以及methods),它们提供了种类繁多的默认函数和数据集。其他包可通过下载来进行安装。

3.2 包的安装

  • 第一次安装一个包,使用命令install.packages(“package_name”,“dir”)即可。
  • dir:包安装的路径。默认情况下是安装在…\library 文件夹中的。可以通过本参数来进行修改,来选择安装的文件夹。
  • 一个包仅需要安装一次。但和其他软件类似,包经常被其作者更新。使用命令update.packages()可以更新已经安装的包。
  • 要查看已安装包的描述,可以使用installed.packages()命令,这将列出安装的包,以及它们的版本号、依赖关系等信息。

3.3 查看包的相关信息

  • 查看包帮助:library(help=“package_name”)
  • 主要内容包括:例如:包名、作者、版本、更新时间、功能描述、开源协议、存储位置、主要的函数
  • 查看当前环境哪些包加载:find.package()
  • 加载包:library(package_name) 或者 require(package_name)
  • 移除包出内存:detach(package:package_name)
  • 把包的数据加载到内存中:attach(iris)
  • 列出所有安装的包:library()

3.4 包的使用

  • 包的安装是指从某个CRAN镜像站点下载它并将其放入库中的过程,。要在R会话中使用它,还需要使用library()命令载入这个包。
  • 载入一个包之后,就可以使用一系列新的函数和数据集了。

3.5 常用R包

常用R包可划分为:

  • 空间数据分析类
  • 机器学习与统计学习类
  • 多元统计类
  • 药物动力学数据分析类
  • 计量经济类
  • 金融分析类
  • 并行计算类
  • 数据库访问类

​ 机器学习与统计学习类别就包含有实现分类、聚类、关联规则、时间序列分析等功能的R包,通过加载不同的R包就能够实现相应的数据挖掘功能.

功能函数及加载包
分类与预测nnet函数需要加载BP神经网络nnet包; randomForest函数需要加载随机森林randomForest包; svm函数需要加载e1071包; tree函数需要加载CRAT决策树tree包等
聚类分析hclust函数、kmeans()函数在stats包中
关联规则apriori函数需要加载arules包
omForest函数需要加载随机森林randomForest包; svm函数需要加载e1071包; tree函数需要加载CRAT决策树tree包等
聚类分析hclust函数、kmeans()函数在stats包中
关联规则apriori函数需要加载arules包
时间序列arima函数需要加载forecast、tseries包
;