R读取数据
方法一: 窗口输入
c()为用来创建,矩阵为二维数组,可以通过函数matrix()来创建,而多维数组使用array()函数来创建。
mean()和sd()分别计算变量均值和标准差的函数。
方法二: 使用read.table(file,head=,sep=“deliniter”)
其中,file是一个带分割符的文本文件,如.txt和.csv文件;head的取值为TRUE或FALSE,head=TRUE时做读取数据的第一行为变量名;sep用来指定分割符。
另外,.csv文件也可使用函数read.csv()函数来读取。对于excel文件,R无法直接读取。
R做回归分析
R中建立线性回归方程使用的是lm()函数,其中默认回归方程是包含截距项的,如果是lm(y~x-1),则不包含截距项。summary()函数用于显示lm2.1中的详细内容。如下图所示。
Intercept表示截距,即回归常数项
β
0
\beta _{0}
β0,Estimatel列是回归系数的估计值,即
β
0
^
\hat{\beta _{0}}
β0^,
β
1
^
\hat{\beta _{1}}
β1^. t值为12.525,取显著水平
α
\alpha
α=0.05,自由度为13,查t分布表得到临界值为2.160,可知拒绝原假设,认为y对x的一元线性回归效果显著。
通过上面函数可以得到方差分析表,结果如下图所示。
ANOVA表示Analysis of Variance,即方差分析。有结果可以看出,回归平方和SSR=841.77,残差平方和SSE=69.75。另外,根据F=156.89,P=1.248e-08可以知道,回归方程是显著。
方法method可选pearson,kendall以及spearman,默认为pearson,此处需要计算的是pearson相关系数。
另外,检验相关系数显著性的代码为:
其中,alternative可选为two.sides、less和greater,分别代表双侧检验、左侧检验和右侧检验,其默认值为two.sides。
从上面结果可以看出,相关系数检验的备择假设为真实的相关系数不等于0,由此可知该检验并非检验变量间相关程度的强弱,而是检验相关系数是否为0。P值近似为零,故拒绝原假设,即y与x的简单相关系数显著不为0。
将残差复制给变量e,并保留小数点后5位。
绘制后得到的残差图如下所示。
从图上可以看得出来,残差是围绕e=0随机波动的,从而可以判定模型的基本假定是满足的。
ZRE为标准化残差,残差标准误
σ
^
\hat{\sigma}
σ^=2.232,计算如下。
而计算学生化残差的函数为rstandard().
confint()为计算回归系数置信度为95%的置信区间的函数。由输出结果知道,
β
0
\beta _{0}
β0和
β
1
\beta _{1}
β1的置信度为95%的区间为(7.219,13.346)和(4.071,5.768)。
我们取新的值3.5用于预测,此处必须以数据框的形式存储新的点。ypred计算预测值及预测区间,yconf计算预测值及置信区间。
点估计值:
y
^
0
\hat{y}_{0}
y^0=27.496
单个新值:(22.324,32.667)
平均值
E
(
y
0
)
E(y_{0})
E(y0):(26.190,28.801)