Bootstrap

多元统计分析因子分析何晓群版课后作业

一、实验目的

因子分析模型是主成分分析的推广。它也是利用降维的思想,从研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。将数据整理,找出变量间的相关性,通过因子分析从而对数据进行分析。

、实验内容

1,区域公用事业的发展是地区综合发展的重要组成部分,是促进社会发展的重要因素。因此,分析评价全国 31 个省、直辖市、自治区在城市公共交通、市政、设施等各方面的建设,把握各地区公用事业的整体发展水平具有重要意义。下面应用因子分析模型,选取反映城市公用事业建设的 12 个指标作为原始变量,对全国各地区公用事业的整体发展水平做分析评价这 12 个指标分别为 X1:城区面积(平方公里);X2:建成区面积(平方公里);X3:人均公园绿地面积(平方米);X4:城市建设用地面积(平方公里);X5:年末实有道路长度(公里);X6:年末实有道路面积(万平方米);X7:城市排水管道长度(公里);X8:城市道路照明灯(千盏);X9:年末公共交通车辆运营数(辆);X10:运营线路总长度(公里);X11:每万人拥有公共交通车辆(标台);X12:出租汽车数量(辆)。原始数据来源于 2017 年《中国统计年鉴》。参见表1。

表1 2016年区域公共事业指标数据

地区

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

x11

x12

北京                

16410

1419.7

16.01

1463.8

8086

14316

16901

300.6

27892

20392

24.31

68484

天津                

2583.3

1007.9

10.59

961.7

7888

14466

20951

353.1

13655

17932

18.09

31940

河北                

6613.4

2056.5

14.31

1944.9

14418

33252

17954

753.1

21479

26077

13.68

53034

山西                

2893.3

1157.6

11.86

1129

7671

16705

8169

543.3

8895

13813

9.42

30690

内蒙古              

4871.7

1241.6

19.77

1146.9

9728

20808

12971

756.6

8000

16495

10.26

45499

辽宁                

15148.1

2798.2

11.33

2718.2

16394

29277

18275

1282.6

22950

26222

12.91

80743

吉林                

5111.5

1425.8

13.37

1379.5

10669

17084

8445

527.9

11670

13267

10.26

56413

黑龙江              

2735.6

1810.2

11.91

1821.8

12750

19667

10722

646

16939

20256

13.58

64158

上海                

6340.5

998.8

7.83

1913.3

5129

10582

19508

559.1

20718

24787

12.7

47271

江苏                

15277.6

4299.3

14.79

4367.4

44999

79733

72823

3510.4

41131

62726

16.57

53376

浙江                

11311.8

2673.3

13.17

2573.4

21215

41286

40550

1526.3

32551

70040

16.27

37781

安徽                

6100.4

2001.7

14.02

1959.7

14154

33100

26388

1015

14605

14785

11.95

39199

福建                

4440.9

1469.2

13.08

1365.6

8656

17657

14329

723.3

16238

23563

15.26

21727

江西                

2369.3

1371

14.16

1279.3

8977

18936

13326

686.7

8136

14311

8.86

13712

山东                

22424.2

4795.5

17.91

4540

40685

83011

56796

1869.8

47419

82149

15.88

61314

河南                

4822.8

2544.3

10.43

2424.6

13140

31621

21376

897.5

22955

20840

10.88

46598

湖北                

8334.2

2248.9

10.99

2111.8

18622

33293

23922

746.9

20915

18826

12.76

36415

湖南                

4373.1

1625.6

10.57

1511.1

12292

22477

13846

697.2

19363

17779

15.13

26173

广东                

17086.3

5808.1

17.87

5266.6

38930

71204

56323

2596.8

63670

102707

14.2

68504

广西                

5752

1333.8

11.77

1292.6

8585

18555

11480

677.3

9093

13143

9.77

17337

海南                

1428.2

321

12.02

302.1

2503

5195

4192

173.7

3080

5866

11.35

6683

重庆                

7438.5

1350.7

16.86

1179.6

8498

17776

15553

569.6

12810

14565

10.7

21100

四川                

7872.7

2615.6

12.47

2468.5

14835

31352

26486

1189.1

23583

24910

12.9

33394

贵州                

3104.8

844.6

14.98

776.9

4022

8208

6060

473.6

6565

8656

11.36

19021

云南                

3127.7

1131.3

11.33

1027.2

5995

14768

13133

514.8

11166

20821

13.17

19130

西藏                

449.8

145.2

7.84

186.8

1134

1986

1422

60.2

580

1035

6.2

1882

陕西                

2334.8

1127.4

12.3

1096.3

6783

15265

8678

653.9

12696

10542

16.01

24458

甘肃                

1580.1

870.4

13.94

806

4668

9933

5802

306.9

5233

6429

9.16

23395

青海                

688.2

197.4

10.78

176

1019

2059

1744

122.1

2248

3039

14.49

8344

宁夏                

2119.2

441.8

18.3

384.1

2214

6578

1626

258.3

3357

5019

13.47

12504

新疆                

3034.9

1199.4

12.22

1187

7791

13673

6864

631.5

9250

8429

15.24

32284

三、实验过程

第 1 步:读人数据,进行 KMO 检验和 Bartlett 检验。结果显示该例的数据非常适合做因子分析。

ex6.3<-read.table(file.choose(),head=TRUE,fileEncoding="utf8")##找到文件6.3赋值给ex6.3

dat63<-ex6.3[,-1]##不要数据的第一列赋值给dat63

rownames(dat63)<-ex6.3[,1]##提取ex6.3中的第一列

dat63<-scale(dat63,center=TRUE,scale=TRUE)##将数据标准化

library(psych)##调用这个psych这个函数

psych::KMO(r=dat63)##对dat63进行KMO检验

cortest.bartlett(cor(dat63))##进行Bartlett 检验

##得出下面这些数据

$chisq##卡方分布

[1] 2453.293

$p.value##p值

[1] 0

$df##自由度

[1] 66

第2 步:选择因子个数。方差解释表和碎石图(见图 2)显示,前三个公共因子总的方差贡献率为 90.8%,基本提取了样本所包含的信息;随着公共因子个数大于 3,碎石图中曲线的变化趋势明显趋于平稳,因此确定选择三个公共因子。

###方差解释

fit63_var<-psych::principal(dat63,nfactors=3,rotate='varimax',covar=TRUE)##求出方差

lam63<-fit63_var$values###特征值

cumlam63<-cumsum(lam63)/sum(lam63)##求出比列

VE63<-data.frame(lam63,lam63/sum(lam63),cumlam63)##求出累计贡献率

colnames(VE63)<-c("特征值","比例","累计比例")##行名为这些

Z<-round(VE63,3)##保留三位小数

Write.csv(z)

表 2

特征值

比例

累计比例

1

8.98

0.748

0.748

2

1.049

0.087

0.836

3

0.866

0.072

0.908

4

0.551

0.046

0.954

5

0.215

0.018

0.972

6

0.155

0.013

0.985

7

0.075

0.006

0.991

8

0.056

0.005

0.996

9

0.032

0.003

0.998

10

0.011

0.001

0.999

11

0.006

0

1

12

0.004

0

1

##碎石图

 

图1 碎石图

第 3 步:因子载荷和因子得分。为便于解释公共因子的实际意义,旋转载荷矩阵表中给出了进行方差最大化正交旋转后的因子载荷。可以看出,第一个公共因子 F 1主要由 X2建成区面积、X4城市建设用地面积、X5年末实有道路长度、X6年末实有道路面积、X7城市排水管道长度、X8城市道路照明灯、X9年末公共交通车辆运营数、X10运营线路总长度决定,而且各指标对 F1的贡献基本相当。X2,X4是反映城市基础建设的指标,X5,X6,X7,X8是反映城市市政设施建设的指标,X9,X10是反映公共交通建设的指标。因此,F1是相对综合的因子,基本反映了城市公共建设的整体水平。第二个公共因子 F2主要由每万人拥有公共交通车辆决定,主要反映公共交通的建设水平,拥有的公共交通车辆越多,公民的出行越便利。第三个公共因子 F3主要由人均公园绿地面积决定,主要反映城市基础建设的情况。

##因子载荷

load63<-as.matrix.data.frame(fit63_var$loadings)##将其转化为矩阵

rownames(load63)<-colnames(dat63)##确定列名

x<-round(load63,3)##输出表格

write.csv(x,"2.csv")

表3

V1

V2

V3

x1

0.743

0.5

0.239

x2

0.948

0.21

0.153

x3

0.204

0.096

0.972

x4

0.957

0.24

0.083

x5

0.952

0.178

0.168

x6

0.951

0.15

0.196

x7

0.93

0.217

0.113

x8

0.933

0.093

0.135

x9

0.876

0.413

0.097

x10

0.889

0.248

0.176

x11

0.093

0.922

0.07

x12

0.541

0.592

0.059

c<-round(fit63_var$scores,3)

write.csv(c,"3.csv")

表4

RC1

RC2

RC3

北京

-1.203

3.851

0.924

天津

-0.651

1.192

-0.926

河北

0.057

0.389

0.301

山西

-0.214

-0.878

-0.347

内蒙古

-0.524

-0.613

2.443

辽宁

0.556

0.962

-0.856

吉林

-0.261

-0.178

0.075

黑龙江

-0.151

0.586

-0.621

上海

-0.005

0.493

-2.013

江苏

2.655

-0.033

0.034

浙江

0.959

0.556

-0.189

安徽

0.232

-0.406

0.254

福建

-0.363

0.282

0.022

江西

-0.117

-1.481

0.515

山东

2.18

0.644

1.31

河南

0.581

-0.407

-1.154

湖北

0.429

-0.059

-0.827

湖南

-0.127

0.346

-0.925

广东

2.744

0.154

0.984

广西

-0.081

-0.997

-0.312

海南

-0.875

-0.701

-0.104

重庆

-0.388

-0.693

1.495

四川

0.543

-0.205

-0.368

贵州

-0.756

-0.582

0.854

云南

-0.381

-0.182

-0.532

西藏

-0.486

-1.854

-1.532

陕西

-0.65

0.504

-0.247

甘肃

-0.601

-1.034

0.467

青海

-1.147

0.095

-0.568

宁夏

-1.32

-0.229

2.121

新疆

-0.638

0.477

-0.276

##图2

plot(fit63_var$scores,pch="o",xlab="第一因子",ylab="第二因子")##横轴为第一因子,纵轴为第二因子

abline(h=1,lty=1)

abline(v=0,lty=1)

text(fit63_var$scores,ex6.3[,1],adj=-0.05)##显示名字

为更加直观地分析各地区公用事业建设的水平,以 F1因子得分为x轴,F2因子得分为y轴画散点图,如图 2 所示。

 

图2 因子的散点图

四、实验结果

由散点图可知,除北京在因子 F2 上的得分较大外,其他地区在 F2上的得分相差不是特别大,说明北京的公共交通极其便利,在其他地区中上海的公共交通最便利,西藏的公共交通建设最差,很明显,西藏地区的公共交通建设主要受地理因素的影响。在较为综合的因子F1上,得分最高的是广东,说明广东省公用事业的综合发展水平较高,基础设施建设比较全面,但公共交通建设有待进一步加强。F1的得分较高的地区还有江苏、山东、浙江、河南,其中江苏和浙江地区的经济发展水平也较高,说明这些地区的发展相对比较全面,人民的生活质量可以较好地得到保障。另外,F1的得分较低的地区有宁夏、青海、海南、贵州、陕西、新疆。一方面这些地区的经济发展水平相对较低;另一方面这些地区所处的环境相对较差,可能会对公用事业建设产生较大影响。因此,全国各地区若要全面协调发展,国家应加大对西部地区的投资和帮扶力度,促进西部地区的发展。

1.研究目的:

为研究新疆各地、州、市、县总产肉量。我们从《新疆统计年鉴2013》上收集到各地区的总产肉量数据来进行因子分析。具体数据如下:

2.多元变量的选择与数据:

:牛(吨)   :马(吨)   :骆驼(吨)  :猪(吨)山羊(吨) :绵羊(吨) :禽肉(吨)  :兔肉(吨)

表5

地区

x1

x2

x3

x4

x5

x6

x7

乌鲁木齐

18613

2084

323

18133

4409

13630

7352

克拉玛依市

504

15

1700

9040

192

562

535

吐鲁番市

3750

50

4300

1725

1454

12785

1210

哈密市

5491

73

66

5223

2402

11956

2244

昌吉市

19362

1068

22

42043

2767

15901

19372

阜康市

10560

478

38

15347

2363

10118

14925

伊宁市

4985

580

0

3676

179

2466

1690

奎屯市

60

24

500

4090

16

142

294

塔城市

5283

1050

400

1396

692

6131

1520

乌苏市

8340

1890

88

13088

3215

9197

1542

阿勒泰市

9645

962

96

504

454

5126

442

博乐市

1938

157

3

3955

216

3002

1177

库尔勒市

2366

2

300

6059

571

4461

6440

阿克苏市

10530

224

4

14264

1858

8805

17036

阿图什市

6210

285

5

580

1324

5396

2000

喀什市

6549

222

6

3600

111

14437

2074

和田市

2548

7899

7

1537

63

5148

4816

三、实验过程

第 1 步:读人数据,进行 KMO 检验和 Bartlett 检验。结果显示该例的数据非常适合做因子分析。

ex6.32<-read.table(file.choose(),head=TRUE,fileEncoding="utf8")##找到文件6.32赋值给ex6.32

dat632<-ex6.32[,-1]##不要数据的第一列赋值给dat632

rownames(dat632)<-ex6.32[,1]##提取ex6.32中的第一列

dat632<-scale(dat632,center=TRUE,scale=TRUE)##将数据标准化

library(psych)##调用这个psych这个函数

psych::KMO(r=dat632)##对dat632进行KMO检验

Kaiser-Meyer-Olkin factor adequacy

Call: psych::KMO(r = dat632)

Overall MSA =  0.76

MSA for each item =

x1   x2   x3   x4   x5   x6   x7

0.76 0.50 0.36 0.78 0.84 0.78 0.78

cortest.bartlett(cor(dat632))##进行Bartlett 检验

##得出下面这些数据

$chisq

[1] 390.463

$p.value

[1] 8.699204e-70

$df

[1] 21

第2 步:选择因子个数。方差解释表和碎石图(见图 3)显示,前三个公共因子总的方差贡献率为 82.8%,基本提取了样本所包含的信息;随着公共因子个数大于 3,碎石图中曲线的变化趋势明显趋于平稳,因此确定选择三个公共因子。

###方差解释

fit632_var<-psych::principal(dat632,nfactors=3,rotate='varimax',covar=TRUE)##求出方差

lam632<-fit632_var$values###特征值

cumlam632<-cumsum(lam632)/sum(lam632)##求出比列

VE632<-data.frame(lam632,lam632/sum(lam632),cumlam632)##求出累计贡献率

colnames(VE632)<-c("特征值","比例","累计比例")

z<-round(VE632,3)

write.csv(z,"1.csv")

表6

特征值

比例

累计比例

1

3.663

0.523

0.523

2

1.245

0.178

0.701

3

0.890

0.127

0.828

4

0.574

0.082

0.910

5

0.324

0.046

0.957

6

0.174

0.025

0.982

7

0.129

0.018

1.000

plot(lam632,type="o",xlab="因子序号",ylab="特征值")

 

图3

第 3 步:因子载荷和因子得分。为便于解释公共因子的实际意义,旋转载荷矩阵表中给出了进行方差最大化正交旋转后的因子载荷。可以看出,第一个公共因子 F 1主要由 X1牛、X4猪、X5山羊、X6绵羊决定,而且各指标对 F1的贡献基本相当。说明这些是新疆主要肉产品;第二个公共因子 F2主要由骆驼决定,主要反映该地区主要是沙漠,骆驼在这边易生存。第三个公共因子 F3主要由马决定,主要反映该地区易于饲养马匹情况。

##因子载荷

load632<-as.matrix.data.frame(fit632_var$loadings)##转化为矩阵

rownames(load632)<-colnames(dat632)##确定列名

x<-round(load632,3)

write.csv(x,"2.csv")

表7

V1

V2

V3

x1

0.918

-0.187

0.041

x2

0.003

-0.120

0.981

x3

-0.060

0.918

-0.137

x4

0.846

-0.269

-0.119

x5

0.861

0.097

0.040

x6

0.841

0.280

0.075

x7

0.760

-0.387

-0.066

c<-round(fit632_var$scores,3)

write.csv(c,"3.csv")

表8

RC1

RC2

RC3

乌鲁木齐

1.738

0.387

0.779

克拉玛依市

-0.930

0.496

-0.731

吐鲁番市

0.205

3.512

-0.211

哈密市

0.219

0.338

-0.217

昌吉市

2.397

-0.853

-0.321

阜康市

0.913

-0.593

-0.400

伊宁市

-0.827

-0.628

-0.303

奎屯市

-1.206

-0.348

-0.673

塔城市

-0.529

0.050

0.104

乌苏市

0.505

0.182

0.612

阿勒泰市

-0.511

-0.267

0.075

博乐市

-0.935

-0.539

-0.518

库尔勒市

-0.547

-0.443

-0.661

阿克苏市

0.773

-0.863

-0.618

阿图什市

-0.438

-0.240

-0.270

喀什市

-0.092

0.176

-0.165

和田市

-0.735

-0.369

3.519

plot(fit632_var$scores,pch="o",xlab="第一因子",ylab="第二因子")##横轴为第一因子,纵轴为第二因子

abline(h=1,lty=1)

abline(v=0,lty=1)

text(fit632_var$scores,ex6.32[,1],adj=-0.05)

为更加直观地分析各地区公用事业建设的水平,以 F1因子得分为x轴,F2因子得分为y轴画散点图,如图 4所示。

 

图4

四、实验结果

由散点图可知,除吐鲁番市在因子 F2上的得分较大外,其他地区在 F2上的得分相差不是特别大,说明吐鲁番的养殖牲畜方面是有一些优势的,而在其他地区不适合养殖牲畜。在较为综合的因子F1上,得分最高的是昌吉,说明昌吉在养殖各方面都很突出。F1的得分较高的乌鲁木齐,哈密市,乌苏市,阿克苏市,阜康市。另外,F1的得分较低的地区有克拉玛依市,塔城市,喀什市,奎屯市,伊宁市,阿勒泰市,和田市,阿图什市,库儿勒市,博乐市。一方面这些地区地广人稀,在这边的人特别少,因此养殖业不是特别的发达;因此,政府要鼓励人们养殖发家致富,这些地方不适合种植农作物,适合养殖牲畜,政府也要出台相应的政策来对以下家庭进行扶持。

、实验内容

按现行统计报表制度,农村居民可支配收入主要由四部分构成,即工资性收人、经营净收人、财产净收入、转移净收入。表 9 列出了 2018 年全国 31 个省、直辖市、自治区农村居民人均可支配收入的数据(数据来源于 2019 年《中国统计年鉴》),试进行对应分析,揭示全国农村居民人均可支配收入的特征以及各省、直辖市、自治区与各收入类型间的关系。

表9

地区

工资性收入

经验净收入

财产净收入

转移净收入

北京

19826.71

2021.743

1876.849

2764.994

天津

13568.08

5334.594

921.5624

3240.988

河北

7454.096

4611.55

298.7112

1666.532

山西

5735.751

3075.233

192.9316

2746.096

内蒙古

2896.641

7180.689

520.3909

3204.841

辽宁

5644.759

6263.842

334.4825

2413.244

吉林

3521.494

7756.244

256.5462

2213.891

黑龙江

3009.1

7053.345

679.0009

3062.208

上海

19503.49

1753.214

1003.204

8114.821

江苏

10221.62

6016.581

767.5393

3839.327

浙江

16898.37

6676.973

784.0952

2942.934

安徽

5057.992

5411.485

256.0305

3270.515

福建

8214.715

6705.625

322.4504

2578.398

江西

6120.982

5271.867

235.4591

2831.583

山东

6550.045

7193.601

428.9783

2124.372

河南

5335.616

4790.713

221.3923

3483.023

湖北

4886.791

6270.848

185.9417

3634.24

湖南

5769.335

4785.686

179.3366

3358.152

广东

8510.675

4432.666

448.9283

3775.468

广西

3691.364

5393.41

241.3528

3108.641

海南

5611.359

5806.061

253.6796

2317.777

重庆

4847.78

4812.921

334.7712

3785.752

四川

4311.011

5117.185

379.4569

3523.724

贵州

4276.231

3226.708

126.2265

2086.94

云南

3259.859

5599.01

187.2304

1721.815

西藏

3037.154

5888.91

427.1768

2096.577

陕西

4620.79

3507.959

196.5996

2887.487

甘肃

2534.719

3823.725

211.5428

2234.144

青海

3047.252

3904.631

463.1075

2978.351

宁夏

4547.847

4638.489

362.7769

2158.53

新疆

2945.188

6623.889

235.1426

2170.281

三、实验过程

rm(list=ls())

ex7.2<-read.table(file.choose(),head=TRUE,fileEncoding="utf8")##读取数据

dat72<-ex7.2[,-1]##不要数据的第一列

rownames(dat72)<-ex7.2[,1]##确定列名

library(FactoMineR)##调用函数

fit_ca<-FactoMineR::CA(dat72,graph=FALSE)

##方差解释

fit_ca$eig

##行主成分轮廓坐标

FF<-fit_ca$row$coord

##列主成分轮廓坐标

GG<-fit_ca$col$coord

##散点图

plot(FF[,1],FF[,2],xlab="轮廓1",ylab="轮廓2",xlin=c(-0.8,0.8),ylin=c(-0.3,0.3))

text(FF[,1],FF[,2],rownames(dat72),adj=1.3)

points(GG[,1]GG[,2],PCH=15)

text(GG[,1],GG[,2],colnames(dat72),adj=-0.2,col="red",cex=1.5)

 

图5

四、实验结果

从散点图不难看出,我国经济发达地区,如浙江、江苏、天津、福建等,农村居民的收入来源主要以工资性收入和财产净收入为主;青海、重庆、四川等地区多以转移净收入为主要收入来源;西蔽、新疆、云南、吉林等地区以经营净收入为主。从我国目前的经济发展状况来看,大部分农民仍是以工资性收入和家庭经营性收入为主要的收入来源。在经济发达地区,农民外出打工较多,因此以工资性收入为主;在经济不发达地区,大部分农民还是以农业生产为主,因此以家庭经营性收人为主。随着我国社会经济不断发展,这种格局必然会发生一定的变化,转移性收人和财产性收入也会有所表现。
   综上所述,对应分析方法较好地揭示了指标与指标、样品与样品、指标与样品之间的内在联系。因此,这种方法能够以较小的代价从原始数据中提取较多的信息。

;