《统计学》第四版课后答案 贾俊平、何晓群、金勇进编著的

Python010

《统计学》第四版课后答案 贾俊平、何晓群、金勇进编著的,第1张

3.1 为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C一般;D.较差;E.差。调查结果如下:

B E C C A D C B A E

D A C B C D E C E E

A D B C C A E D C B

B A C D E A B D D C

C B C E D B C C B C

D A C B C D E C E B

B E C C A D C B A E

B A C E E A B D D C

A D B C C A E D C B

C B C E D B C C B C

要求:

(1)指出上面的数据属于什么类型。

顺序数据

(2)用Excel制作一张频数分布表。

用数据分析——直方图制作:

接收 频率

E 16

D 17

C 32

B 21

A 14

(3)绘制一张条形图,反映评价等级的分布。

用数据分析——直方图制作:

(4)绘制评价等级的帕累托图。

逆序排序后,制作累计频数分布表:

接收 频数 频率(%) 累计频率(%)

C 32 32 32

B 21 21 53

D 17 17 70

E 16 16 86

A 14 14 100

3.2 某行业管理局所属40个企业2002年的产品销售收入数据如下:

152 124 129 116 100 103 92 95 127 104

105 119 114 115 87 103 118 142 135 125

117 108 105 110 107 137 120 136 117 108

97 88 123 115 119 138 112 146 113 126

要求:

(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。

1、确定组数:

,取k=6

2、确定组距:

组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取10

3、分组频数表

销售收入 频数 频率% 累计频数 累计频率%

80.00 - 89.00 2 5.0 2 5.0

90.00 - 99.00 3 7.5 5 12.5

100.00 - 109.00 9 22.5 14 35.0

110.00 - 119.00 12 30.0 26 65.0

120.00 - 129.00 7 17.5 33 82.5

130.00 - 139.00 4 10.0 37 92.5

140.00 - 149.00 2 5.0 39 97.5

150.00+ 1 2.5 40 100.0

总和 40 100.0    

(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。

频数 频率% 累计频数 累计频率%

先进企业 10 25.0 10 25.0

良好企业 12 30.0 22 55.0

一般企业 9 22.5 31 77.5

落后企业 9 22.5 40 100.0

总和 40 100.0    

3.3 某百货公司连续40天的商品销售额如下:

单位:万元

41 25 29 47 38 34 30 38 43 40

46 36 45 37 37 36 45 43 33 44

35 28 46 34 30 37 44 26 38 44

42 36 37 37 49 39 42 32 36 35

要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。

1、确定组数:

,取k=6

2、确定组距:

组距=( 最大值 - 最小值)÷ 组数=(49-25)÷6=4,取5

3、分组频数表

销售收入(万元) 频数 频率% 累计频数 累计频率%

<= 25 1 2.5 1 2.5

26 - 30 5 12.5 6 15.0

31 - 35 6 15.0 12 30.0

36 - 40 14 35.0 26 65.0

41 - 45 10 25.0 36 90.0

46+ 4 10.0 40 100.0

总和 40 100.0    

3.4 利用下面的数据构建茎叶图和箱线图。

57 29 29 36 31

23 47 23 28 28

35 51 39 18 46

18 26 50 29 33

21 46 41 52 28

21 43 19 42 20

data Stem-and-Leaf Plo

FrequencyStem & Leaf

3.001 . 88

5.002 . 01133

7.002 . 6888999

2.003 . 13

3.003 . 569

3.004 . 123

3.004 . 667

3.005 . 012

1.005 . 7

Stem width:10

Each leaf: 1 case(s)

3.6一种袋装食品用生产线自动装填,每袋重量大约为50g,但由于某些原因,每袋重量不会恰好是50g。下面是随机抽取的100袋食品,测得的重量数据如下:

单位:g

57 46 49 54 55 58 49 61 51 49

51 60 52 54 51 55 60 56 47 47

53 51 48 53 50 52 40 45 57 53

52 51 46 48 47 53 47 53 44 47

50 52 53 47 45 48 54 52 48 46

49 52 59 53 50 43 53 46 57 49

49 44 57 52 42 49 43 47 46 48

51 59 45 45 46 52 55 47 49 50

54 47 48 44 57 47 53 58 52 48

55 53 57 49 56 56 57 53 41 48

要求:

(1)构建这些数据的频数分布表。

(2)绘制频数分布的直方图。

(3)说明数据分布的特征。

解:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。

1、确定组数:

,取k=6或7

2、确定组距:

组距=( 最大值 - 最小值)÷ 组数=(61-40)÷6=3.5,取3或者4、5

组距=( 最大值 - 最小值)÷ 组数=(61-40)÷7=3,

3、分组频数表

组距3,上限为小于

频数 百分比 累计频数 累积百分比

有效 40.00 - 42.00 3 3.0 3 3.0

43.00 - 45.00 9 9.0 12 12.0

46.00 - 48.00 24 24.0 36 36.0

49.00 - 51.00 19 19.0 55 55.0

52.00 - 54.00 24 24.0 79 79.0

55.00 - 57.00 14 14.0 93 93.0

58.00+ 7 7.0 100 100.0

合计 100 100.0  

直方图:

组距4,上限为小于等于

频数 百分比 累计频数 累积百分比

有效 <= 40.00 1 1.0 1 1.0

41.00 - 44.00 7 7.0 8 8.0

45.00 - 48.00 28 28.0 36 36.0

49.00 - 52.00 28 28.0 64 64.0

53.00 - 56.00 22 22.0 86 86.0

57.00 - 60.00 13 13.0 99 99.0

61.00+ 1 1.0 100 100.0

合计 100 100.0  

直方图:

组距5,上限为小于等于

频数 百分比 累计频数 累积百分比

有效 <= 45.00 12 12.0 12.0 12.0

46.00 - 50.00 37 37.0 49.0 49.0

51.00 - 55.00 34 34.0 83.0 83.0

56.00 - 60.00 16 16.0 99.0 99.0

61.00+ 1 1.0 100.0 100.0

合计 100 100.0    

直方图:

分布特征:左偏钟型。

3.8 下面是北方某城市1——2月份各天气温的记录数据:

-3 2 -4 -7 -11 -1 7 8 9 -6

14 -18 -15 -9 -6 -1 0 5 -4 -9

6 -8 -12 -16 -19 -15 -22 -25 -24 -19

-8 -6 -15 -11 -12 -19 -25 -24 -18 -17

-14 -22 -13 -9 -6 0 -1 5 -4 -9

-3 2 -4 -4 -16 -1 7 5 -6 -5

要求:

(1)指出上面的数据属于什么类型。

数值型数据

(2)对上面的数据进行适当的分组。

1、确定组数:

,取k=7

2、确定组距:

组距=( 最大值 - 最小值)÷ 组数=(14-(-25))÷7=5.57,取5

3、分组频数表

温度 频数 频率% 累计频数 累计频率%

-25 - -21 6 10.0 6 10.0

-20 - -16 8 13.3 14 23.3

-15 - -11 9 15.0 23 38.3

-10 - -6 12 20.0 35 58.3

-5 - -1 12 20.0 47 78.3

0 - 4 4 6.7 51 85.0

5 - 9 8 13.3 59 98.3

10+ 1 1.7 60 100.0

合计 60 100.0    

(3)绘制直方图,说明该城市气温分布的特点。

3.11 对于下面的数据绘制散点图。

x 2 3 4 1 8 7

y 25 25 20 30 16 18

解:

3.12 甲乙两个班各有40名学生,期末统计学考试成绩的分布如下:

考试成绩 人数

甲班 乙班

及格

不及格 3

6

18

9

4 6

15

9

8

2

要求:

(1)根据上面的数据,画出两个班考试成绩的对比条形图和环形图。

(2)比较两个班考试成绩分布的特点。

甲班成绩中的人数较多,高分和低分人数比乙班多,乙班学习成绩较甲班好,高分较多,而低分较少。

(3)画出雷达图,比较两个班考试成绩的分布是否相似。

分布不相似。

3.14 已知1995—2004年我国的国内生产总值数据如下(按当年价格计算):

单位:亿元

年份 国内生产总值

第一产业 第二产业 第三产业

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004 58478.1

67884.6

74462.6

78345.2

82067.5

89468.1

97314.8

105172.3

117390.2

136875.9 11993

13844.2

14211.2

14552.4

14471.96

14628.2

15411.8

16117.3

16928.1

20768.07 28538

33613

37223

38619

40558

44935

48750

52980

61274

72387 17947

20428

23029

25174

27038

29905

33153

36075

39188

43721

要求:

(1)用Excel绘制国内生产总值的线图。

(2)绘制第一、二、三产业国内生产总值的线图。

(3)根据2004年的国内生产总值及其构成数据绘制饼图。

第四章 统计数据的概括性描述

4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:

24710101012121415

要求:

(1)计算汽车销售量的众数、中位数和平均数。

(2)根据定义公式计算四分位数。

(3)计算销售量的标准差。

(4)说明汽车销售量分布的特征。

解:

Statistics

汽车销售数量

N Valid 10

Missing 0

Mean 9.60

Median 10.00

Mode 10

Std. Deviation 4.169

Percentiles 25 6.25

50 10.00

75 12.50

4.2 随机抽取25个网络用户,他们的年龄数据如下:

单位:周岁

19 15 29 25 24

23 21 38 22 18

30 20 19 19 16

23 27 22 34 24

41 20 31 17 23

要求;

(1)计算众数、中位数:

1、排序形成单变量分值的频数分布和累计频数分布:

网络用户的年龄

Frequency Percent Cumulative Frequency Cumulative Percent

Valid 15 1 4.0 1 4.0

16 1 4.0 2 8.0

17 1 4.0 3 12.0

18 1 4.0 4 16.0

19 3 12.0 7 28.0

20 2 8.0 9 36.0

21 1 4.0 10 40.0

22 2 8.0 12 48.0

23 3 12.0 15 60.0

24 2 8.0 17 68.0

25 1 4.0 18 72.0

27 1 4.0 19 76.0

29 1 4.0 20 80.0

30 1 4.0 21 84.0

31 1 4.0 22 88.0

34 1 4.0 23 92.0

38 1 4.0 24 96.0

41 1 4.0 25 100.0

Total 25 100.0    

从频数看出,众数Mo有两个:19、23;从累计频数看,中位数Me=23。

(2)根据定义公式计算四分位数。

Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0.75×2=26.5。

(3)计算平均数和标准差;

Mean=24.00;Std. Deviation=6.652

(4)计算偏态系数和峰态系数:

Skewness=1.080;Kurtosis=0.773

(5)对网民年龄的分布特征进行综合分析:

分布,均值=24、标准差=6.652、呈右偏分布。如需看清楚分布形态,需要进行分组。

为分组情况下的直方图:

为分组情况下的概率密度曲线:

分组:

1、确定组数:

,取k=6

2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(41-15)÷6=4.3,取5

3、分组频数表

网络用户的年龄 (Binned)

Frequency Percent Cumulative Frequency Cumulative Percent

Valid <= 15 1 4.0 1 4.0

16 - 20 8 32.0 9 36.0

21 - 25 9 36.0 18 72.0

26 - 30 3 12.0 21 84.0

31 - 35 2 8.0 23 92.0

36 - 40 1 4.0 24 96.0

41+ 1 4.0 25 100.0

Total 25 100.0    

分组后的均值与方差:

Mean 23.3000

Std. Deviation 7.02377

Variance 49.333

Skewness 1.163

Kurtosis 1.302

分组后的直方图:

4.3 某银行为缩短顾客到银行办理业务等待的时间。准备采用两种排队方式进行试验:一种是所有颐客都进入一个等待队列:另—种是顾客在三千业务窗口处列队3排等待。为比较哪种排队方式使顾客等待的时间更短.两种排队方式各随机抽取9名顾客。得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟。第二种排队方式的等待时间(单位:分钟)如下:

5.56.66.76.87.17.37.4 7.87.8

要求:

(1)画出第二种排队方式等待时间的茎叶图。

第二种排队方式的等待时间(单位:分钟) Stem-and-Leaf Plot

FrequencyStem & Leaf

1.00 Extremes(=<5.5)

3.006 . 678

3.007 . 134

2.007 . 88

Stem width: 1.00

Each leaf: 1 case(s)

(2)计算第二种排队时间的平均数和标准差。

Mean 7

Std. Deviation 0.714143

Variance 0.51

(3)比较两种排队方式等待时间的离散程度。

第二种排队方式的离散程度小。

(4)如果让你选择一种排队方式,你会选择哪—种?试说明理由。

选择第二种,均值小,离散程度小。

4.4 某百货公司6月份各天的销售额数据如下:

单位:万元

257 276 297 252 238 310 240 236 265 278

271 292 261 281 301 274 267 280 291 258

272 284 268 303 273 263 322 249 269 295

要求:

(1)计算该百货公司日销售额的平均数和中位数。

(2)按定义公式计算四分位数。

(3)计算日销售额的标准差。

解:

Statistics

百货公司每天的销售额(万元)

N Valid 30

Missing 0

Mean 274.1000

Median 272.5000

Std. Deviation 21.17472

Percentiles 25 260.2500

50 272.5000

75 291.2500

4.5 甲乙两个企业生产三种产品的单位成本和总成本资料如下:

产品 单位成本 总成本(元)

名称 (元) 甲企业 乙企业

A

B

C 15

20

30 2 100

3 000

1 500 3 255

1 500

1 500

要求:比较两个企业的总平均成本,哪个高,并分析其原因。

产品名称 单位成本(元) 甲企业 乙企业

总成本(元) 产品数 总成本(元) 产品数

A 15 2100 140 3255 217

B 20 3000 150 1500 75

C 30 1500 50 1500 50

平均成本(元) 19.41176471 18.28947368

调和平均数计算,得到甲的平均成本为19.41;乙的平均成本为18.29。甲的中间成本的产品多,乙的低成本的产品多。

4.6 在某地区抽取120家企业,按利润额进行分组,结果如下:

按利润额分组(万元) 企业数(个)

200~300

300~400

400~500

500~600

600以上 19

30

42

18

11

合计 120

要求:

(1)计算120家企业利润额的平均数和标准差。

(2)计算分布的偏态系数和峰态系数。

解:

Statistics

企业利润组中值Mi(万元)

N Valid 120

Missing 0

Mean 426.6667

Std. Deviation 116.48445

Skewness 0.208

Std. Error of Skewness 0.221

Kurtosis -0.625

Std. Error of Kurtosis 0.438

4.7 为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名7~17岁的少年儿童作为样本,另一位调查人员则抽取了1 000名7~17岁的少年儿童作为样本。请回答下面的问题,并解释其原因。

(1)两位调查人员所得到的样本的平均身高是否相同?如果不同,哪组样本的平均身高较大?

(2)两位调查人员所得到的样本的标准差是否相同?如果不同,哪组样本的标准差较大?

(3)两位调查人员得到这l 100名少年儿童身高的最高者或最低者的机会是否相同?如果不同,哪位调查研究人员的机会较大?

解:(1)不一定相同,无法判断哪一个更高,但可以判断,样本量大的更接近于总体平均身高。

(2)不一定相同,样本量少的标准差大的可能性大。

(3)机会不相同,样本量大的得到最高者和最低者的身高的机会大。

4.8 一项关于大学生体重状况的研究发现.男生的平均体重为60kg,标准差为5kg;女生的平均体重为50kg,标准差为5kg。请回答下面的问题:

(1)是男生的体重差异大还是女生的体重差异大?为什么?

女生,因为标准差一样,而均值男生大,所以,离散系数是男生的小,离散程度是男生的小。

(2)以磅为单位(1ks=2.2lb),求体重的平均数和标准差。

都是各乘以2.21,男生的平均体重为60kg×2.21=132.6磅,标准差为5kg×2.21=11.05磅;女生的平均体重为50kg×2.21=110.5磅,标准差为5kg×2.21=11.05磅。

(3)粗略地估计一下,男生中有百分之几的人体重在55kg一65kg之间?

计算标准分数:

Z1= = =-1;Z2= = =1,根据经验规则,男生大约有68%的人体重在55kg一65kg之间。

(4)粗略地估计一下,女生中有百分之几的人体重在40kg~60kg之间?

计算标准分数:

Z1= = =-2;Z2= = =2,根据经验规则,女生大约有95%的人体重在40kg一60kg之间。

4.9 一家公司在招收职员时,首先要通过两项能力测试。在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该应试者哪一项测试更为理想?

解:应用标准分数来考虑问题,该应试者标准分数高的测试理想。

ZA= = =1;ZB= = =0.5

因此,A项测试结果理想。

4.10 一条产品生产线平均每天的产量为3 700件,标准差为50件。如果某一天的产量低于或高于平均产量,并落人士2个标准差的范围之外,就认为该生产线“失去控制”。下面是一周各天的产量,该生产线哪几天失去了控制?

时间 周一 周二 周三 周四 周五 周六 周日

产量(件) 3 8503 6703 6903 7203 6103 5903 700

时间 周一 周二 周三 周四 周五 周六 周日

产量(件) 3850 3670 3690 3720 3610 3590 3700

日平均产量 3700

日产量标准差 50

标准分数Z 3 -0.6 -0.2 0.4 -1.8 -2.2 0

标准分数界限 -2 -2 -2 -2 -2 -2 -2

2 2 2 2 2 2 2

周六超出界限,失去控制。

第四章练习题答案

4.1 (1)众数:M0=10中位数:中位数位置=n+1/2=5.5,Me=10;平均数:

(2)QL位置=n/4=2.5, QL=4+7/2=5.5;QU位置=3n/4=7.5,QU=12

(3)

(4)由于平均数小于中位数和众数,所以汽车销售量为左偏分布。

4.2 (1)从表中数据可以看出,年龄出现频数最多的是19和23,故有个众数,即M0=19和M0=23。

将原始数据排序后,计算中位数的位置为:中位数位置= n+1/2=13,第13个位置上的数值为23,所以中位数为Me=23

(2)QL位置=n/4=6.25, QL==19;QU位置=3n/4=18.75,QU=26.5

(3)平均数 600/25=24,标准差

(4)偏态系数SK=1.08,峰态系数K=0.77

(5)分析:从众数、中位数和平均数来看,网民年龄在23-24岁的人数占多数。由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏,由于偏态系数大于1,所以,偏斜程度很大。由于峰态系数为正值,所以为尖峰分布。

4.3 (1)茎叶图如下:

茎 叶 频数

5

6

7 5

6 7 8

1 3 4 8 8 1

3

5

(2) 63/9=7,

(3)由于两种排队方式的平均数不同,所以用离散系数进行比较。

第一种排队方式:v1=1.97/7.2=0.274v2=0.714/7=0.102.由于v1>v2,表明第一种排队方式的离散程度大于第二种排队方式。

(4)选方法二,因为第二种排队方式的平均等待时间较短,且离散程度小于第一种排队方式。

4.4 (1) 8223/30=274.1

中位数位置=n+1/2=15.5,Me=272+273/2=272.5

(2)QL位置=n/4=7.5, QL==(258+261)/2=259.5;QU位置=3n/4=22.5,QU=(284+291)/2=287.5

(3)

4.5 (1)甲企业的平均成本=总成本/总产量=

乙企业的平均成本=总成本/总产量=

原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。

4.6 (1)(计算过程中的表略), 51200/120=426.67

SK=0.203 K=-0.688

4.7 (1)两位调查人员所得到的平均身高应该差不多相同,因为均值的大小基本上不受样本大小的影响。

(2)两位调查人员所得到身高的标准差应该差不多相同,因为标准差的大小基本上不受样本大小的影响。

(3)具有较大样本的调查人员有更大的机会取得最高或最低者,因为样本越大,变化的范围就可能越大。

4.8 (1)要比较男女学生体重的离散程度应该采用离散系数。女生体重的离散系数为v女=5/50=0.1,男生体重的离散系数为v男=5/60=0.08,所以女生的体重差异大。

(2)男生: 60×2.2=132(磅),s=5×2.2=11(磅)

女生: 50×2.2=110(磅),s=5×2.2=11(磅)

(3)假定体重为对称分布,根据经验法则,在平均数加减1个标准差范围内的数据个数大约为68%。因此,男生中大约有68%的人体重在55kg-65kg之间。

(4)假定体重为对称分布,根据经验法则,在平均数加减2个标准差范围内的数据个数大约为95%。因此,男生中大约有95%的人体重在40kg-60kg之间。

4.9 通过计算标准分数来判断:

该测试者在A项测试中比平均分数高出1个标准差,而在B项测试中只高出平均分数0.5个标准差,由于A项测试的标准分数高于B项测试,所以,A项测试比较理想。

4.10 通过标准分数来判断,各天的标准分数如下表:

日期 周一周二 周三 周四 周五 周六 周日

标准分数Z 3 -0.6 -0.2 0.4-1.8 -2.2 0

周一和周六两天失去了控制。

4.11

(1)应该采用离散系数,因为它消除了不同组数据水平高低的影响。

(2)成年组身高的离散系数:

幼儿组身高的离散系数:

由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。

4.12

(1)应该从平均数和标准差两个方面进行评价。在对各种方法的离散程度进行比较时,应该采用离散系数。

(2)下表给出了各种方法的主要描述统计量。

方法A 方法B 方法C

平均 165.6

中位数 165

众数 164

标准差 2.13

极差 8

最小值 162

最大值 170 平均 128.73

中位数 129

众数 128

标准差 1.75

极差 7

最小值 125

最大值 132 平均 125.53

中位数 126

众数 126

标准差 2.77

极差 12

最小值 116

最大值 128

从三种方法的集中趋势来看,方法A的平均产量最高,中位数和众数也都高于其他两种方法。从离散程度来看,三种方法的离散系数分别为: , , 。方法A的离散程度最小,因此,应选择方法A。

4.13

(1)用方差或标准差来评价投资的风险。

(2)从直方图可以看出,商业类股票收益率的离散程度较小,说明投资风险也就较小。

(3)从投资风险角度看,应该选择风险较小的商业类股票。当然,选择哪类股票还与投资者的主观判断有很大关系。

第五章练习题答案

5.1 (1)平均分数是范围在0-100之间的连续变量,Ω=[0,100]

(2)已经遇到的绿灯次数是从0开始的任意自然数,Ω=N

(3)之前生产的产品中可能无次品也可能有任意多个次品,Ω=[10,11,12,13…….]

5.2 设订日报的集合为A,订晚报的集合为B,至少订一种报的集合为A∪B,同时订两种报的集合为A∩B。

P(A∩B)=P(A)+ P(B)-P(A∪B)=0.5+0.65-0.85=0.3

5.3 P(A∪B)=1/3,P(A∩ )=1/9, P(B)= P(A∪B)- P(A∩ )=2/9

5.4 P(AB)= P(B)P(A∣B)=1/3*1/6=1/18

P( ∪ )=P( )=1- P(AB)=17/18

P( )=1- P(B)=2/3

P( )=P( )+ P( )- P( ∪ )=7/18

P( ∣ )= P( )/P( )=7/12

5.5 设甲发芽为事件A,乙发芽为事件B。

(1)由于是两批种子,所以两个事件相互独立,所以有:P(AB)= P(B)P(B)=0.56

(2)P(A∪B)=P(A)+P(B)-P(A∩B)=0.94

(3)P(A )+ P(B )= P(A)P( )+P(B)P( )=0.38

5.6 设合格为事件A,合格品中一级品为事件B

P(AB)= P(A)P(B∣A)=0.96*0.75=0.72

5.7 设前5000小时未坏为事件A,后5000小时未坏为事件B。

P(A)=1/3,P(AB)=1/2, P(B∣A)= P(AB)/ P(A)=2/3

5.8 设职工文化程度小学为事件A,职工文化程度初中为事件B,职工文化程度高中为事件C,职工年龄25岁以下为事件D。

P(A)=0.1 P(B)=0.5, P(C)=0.4

P(D∣A)=0.2, P(D∣B)=0.5, P(D∣C)=0.7

P(A∣D)=

同理P(B∣D)=5/11, P(C∣D)=28/55

5.9 设次品为D,由贝叶斯公式有:

P(A∣D)= =0.249

同理P(B∣D)=0.112

5.10 由二项式分布可得:P(x=0)=0.25, P(x=1)=0.5, P(x=2)=0.25

5.11 (1) P(x=100)=0.001, P(x=10)=0.01, P(x=1)=0.2, P(x=0)=0.789

(2)E(X)=100*0.001+10*0.01+1*0.2=0.4

5.13 答对至少四道题包含两种情况,对四道错一道,对五道。

C54 C65 =1/64

5.14 由泊松分布的性质有:

P(X=1)= ,P(X=2)= ,可得 =2

P(X=4)=2/3e

5.15

所以,当k= -1和k= 时P(x=k)最大。

5.16 (1)P( >2)= P(x>2)+ P(x<-2)= (0.5)+1- (2.5)=0.6977

由于N(3,4)关于均值3对称,所以P(x>3)=0.5

5.17 P(120<x<200)=P(

5.18 (1)

(2)

第七章 练习题参考答案

7.1 (1)已知 =5,n=40, =25, =0.05, =1.96

样本均值的抽样标准差 = =

(2)估计误差(也称为边际误差)E= =1.96*0.79=1.55

7.2(1)已知 =15,n=49, =120, =0.05, =1.96

(2)样本均值的抽样标准差 = = 2.14

估计误差E= =1.96* 4.2

(3)由于总体标准差已知,所以总体均值 的95%的置信区间为:

=120 1.96*2.14=120 4.2,即(115.8,124.2)

7.3(1)已知 =85414,n=100, =104560, =0.05, =1.96

由于总体标准差已知,所以总体均值 的95%的置信区间为:

=104560 1.96* 104560 16741.144即(87818.856,121301.144)

7.4(1)已知n=100, =81,s=12, =0.1, =1.645

由于n=100为大样本,所以总体均值 的90%的置信区间为:

=81 1.645* 81 1.974,即(79.026,82.974)

(2)已知 =0.05, =1.96

由于n=100为大样本,所以总体均值 的95%的置信区间为:

=81 1.96* 81 2.352,即(78.648,83.352)

(3)已知 =0.01, =2.58

由于n=100为大样本,所以总体均值 的99%的置信区间为:

=81 2.58* 81 3.096,即(77.94,84.096)

7.5(1)已知 =3.5,n=60, =25, =0.05, =1.96

由于总体标准差已知,所以总体均值 的95%的置信区间为:

=25 1.96* 25 0.89,即(24.11,25.89)

(2)已知n=75, =119.6,s=23.89, =0.02, =2.33

由于n=75为大样本,所以总体均值 的98%的置信区间为:

=119.6 2.33* 119.6 6.43,即(113.17,126.03)

(3)已知 =3.419,s=0.974,n=32, =0.1, =1.645

由于n=32为大样本,所以总体均值 的90%的置信区间为:

=3.419 1.645* 3.419 0.283,即(3.136,3.702)

7.6(1)已知:总体服从正态分布, =500,n=15, =8900, =0.05, =1.96

由于总体服从正态分布,所以总体均值 的95%的置信区间为:

=8900 1.96* 8900 253.03,即(8646.97,9153.03)

(2)已知:总体不服从正态分布, =500,n=35, =8900, =0.05, =1.96

虽然总体不服从正态分布,但由于n=35为大样本,所以总体均值 的95%的置信区间为:

=8900 1.96* 8900 165.65,即(8734.35,9065.65)

(3)已知:总体不服从正态分布, 未知, n=35, =8900,s=500, =0.1, =1.645

虽然总体不服从正态分布,但由于n=35为大样本,所以总体均值 的90%的置信区间为:

=8900 1.645* 8900 139.03,即(8760.97,9039.03)

(4)已知:总体不服从正态分布, 未知, n=35, =8900,s=500, =0.01, =2.58

虽然总体不服从正态分布,但由于n=35为大样本,所以总体均值 的99%的置信区间为:

=8900 2.58* 8900 218.05,即(8681.95,9118.05)

7.7 已知:n=36,当 =0.1,0.05,0.01时,相应的 =1.645, =1.96, =2.58

根据样本数据计算得: =3.32,s=1.61

由于n=36为大样本,所以平均上网时间的90%置信区间为:

=3.32 1.645* 3.32 0.44,即(2.88,3.76)

平均上网时间的95%置信区间为:

=3.32 1.96* 3.32 0.53,即(2.79,3.85)

平均上网时间的99%置信区间为:

=3.32 2.58* 3.32 0.69,即(2.63,4.01)

7.8 已知:总体服从正态分布,但 未知,n=8为小样本, =0.05, =2.365

根据样本数据计算得: =10,s=3.46

总体均值 的95%的置信区间为:

=10 2.365* 10 2.89,即(7.11,12.89)

7.9 已知:总体服从正态分布,但 未知,n=16为小样本, =0.05, =2.131

根据样本数据计算得: =9.375,s=4.113

从家里到单位平均距离的95%的置信区间为:

=9.375 2.131* 9.375 2.191,即(7.18,11.57)

7.10 (1)已知:n=36, =149.5, =0.05, =1.96

由于n=36为大样本,所以零件平均长度的95%的置信区间为:

=149.5 1.96* 149.5 0.63,即(148.87,150.13)

(2)在上面的估计中,使用了统计中的中心极限定理。该定理表明:从均值为 、方差为 的总体中,抽取了容量为n的随机样本,当n充分大时(通常要求 ),样本均值的抽样分布近似服从均值为 ,方差为 的正态分布。

7.12 (1)已知:总体服从正态分布,但 未知,n=25为小样本, =0.01, =2.797

根据样本数据计算得: =16.128,s=0.871

总体均值 的99%的置信区间为:

=16.128 2.797* 16.128 0.487,即(15.64,16.62)

7.13 已知:总体服从正态分布,但 未知,n=18为小样本, =0.1, =1.74

根据样本数据计算得: =13.56,s=7.8

网络公司员工平均每周加班时间的90%的置信区间为:

=13.56 1.74* 13.56 3.2,即(10.36,16.76)

7.14 (1)已知:n=44,p=0.51, =0.01, =2.58

总体比例 的99%的置信区间为:

=0.51 2.58 =0.51 0.19,即(0.32,0.7)

(2)已知:n=300,p=0.82, =0.05, =1.96

总体比例 的95%的置信区间为:

=0.82 1.96 =0.82 0.04,即(0.78,0.86)

(3)已知:n=1150,p=0.48, =0.1,, =1.645

总体比例 的90%的置信区间为:

=0.48 1.645 =0.48 0.02,即(0.46,0.5)

7.15 已知:n=200,p=0.23, 为0.1和0.05时,相应的 =1.645, =1.96

总体比例 的90%的置信区间为:

统计学第四版答案

第一章

什么是统计学?怎样理解统计学与统计数据的关系?

答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。

2.简要说明统计数据的来源

答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。

3.简要说明抽样误差和非抽样误差

答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。

4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品

(2)变量:口味(如可用10分制表示)

(3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。

(4)从匹配样本的观察值中推断两品牌口味的相对好坏。

第二章、统计数据的描述

思考题

1描述次数分配表的编制过程

答:分二个步骤:

按照统计研究的目的,将数据按分组标志进行分组。

按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。

按数量标志进行分组,可分为单项式分组与组距式分组

单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。

统计分组应遵循“不重不漏”原则

将数据分配到各个组,统计各组的次数,编制次数分配表。

2.解释洛伦兹曲线及其用途

答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。

3. 一组数据的分布特征可以从哪几个方面进行测度?

答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。

4 怎样理解均值在统计中的地位?

答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,

具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。

5 对比率数据的平均,为什么采用几何平均?

答:比率数据往往表现出连乘积为总比率的特征,不同于一般数据的和为总量的性质,由此需采用几何平均。

6. 简述众数、中位数和均值的特点和应用场合。

答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,应用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。

7 为什么要计算离散系数?

答:在比较二组数据的差异程度时,由于方差和标准差受变量值水平和计量单位的影响不能直接比较,由此需计算离散系数作为比较的指标。

练习题:

1. 频数分布表如下:

服务质量等级评价的频数分布

服务质量等级 家庭数(频率) 频率%

A 14 14

B 21 21

C 32 32

D 18 18

E 15 15

合计 100 100

条形图(略)

2 (1)采用等距分组:

n=40 全距=152-88=64 取组距为10

组数为 64/10=6.4 取6组

频数分布表如下:

40个企业按产品销售收入分组表

按销售收入分组

(万元) 企业数

(个) 频率

(%) 向上累积 向下累积

企业数 频率 企业数 频率

100以下

100~110

110~120

120~130

130~140

140以上 5

9

12

7

4

3 12.5

22.5

30.0

17.5

10.0

7.5 5

14

26

33

37

40 12.5

35.0

65.0

82.5

92.5

100.0 40

35

26

14

7

3 100.0

87.5

65.0

35.0

17.5

7.5

合计 40 100.0 — — — —

(2) 某管理局下属40个企分组表

按销售收入分组(万元) 企业数(个) 频率(%)

先进企业

良好企业

一般企业

落后企业 11

11

9

9 27.5

27.5

22.5

22.5

合计 40 100.0

3 采用等距分组

全距=49-25=24

n=40 取组距为5,则组数为 24/5=4.8 取5组

频数分布表:

按销售额分组(万元) 频数(天数)

25-30

30-35

35-40

40-45

45-50 4

6

15

9

6

合计 40

4. .(1)排序略。

(2)频数分布表如下:

100只灯泡使用寿命非频数分布

按使用寿命分组(小时) 灯泡个数(只) 频率(%)

650~660 2 2

660~670 5 5

670~680 6 6

680~690 14 14

690~700 26 26

700~710 18 18

710~720 13 13

720~730 10 10

730~740 3 3

740~750 3 3

合计 100 100

直方图(略)。

(3)茎叶图如下:

65 1 8

66 1 4 5 6 8

67 1 3 4 6 7 9

68 1 1 2 3 3 3 4 5 5 5 8 8 9 9

69 0 0 1 1 1 1 2 2 2 3 3 4 4 5 5 6 6 6 7 7 8 8 8 8 9 9

70 0 0 1 1 2 2 3 4 5 6 6 6 7 7 8 8 8 9

71 0 0 2 2 3 3 5 6 7 7 8 8 9

72 0 1 2 2 5 6 7 8 9 9

73 3 5 6

74 1 4 7

5 等距分组

n=65 全距=9-(-25)=34 取组距为5,组数=34/5=6.8, 取 7组

频数分布表:

按气温分组 天数

-25 --- -20

-20 --- -15

-15 --- -10

-10 --- -5

-5 --- 0

0 --- 5

5 --- 10 8

8

10

14

14

4

7

合计 65

7 (1)茎叶图如下:

A班 树茎 B班

数据个数 树 叶 树叶 数据个数

0 3 59 2

1 4 4 0448 4

2 97 5 122456677789 12

11 97665332110 6 011234688 9

23 98877766555554443332100 7 00113449 8

7 6655200 8 123345 6

6 632220 9 011456 6

0 10 000 3

A班考试成绩的分布比较集中,且平均分数较高;B班考试成绩的分布比A班分散,且平均成绩较A班低

8. 箱线图如下:(特征请读者自己分析)

9.(1)=274.1(万元);Me =272.5 ;QL=260.25;QU =291.25。

(2)(万元)。

10.甲企业平均成本=19.41(元),

乙企业平均成本=18.29(元);

原因:尽管两个企业的单位成本相同,但单位成本较低的产品在乙企业的产量中所占比重较大,因此拉低了总平均成本。

11.=426.67(万元);

=116.48(万元)

13(1)离散系数,因为它消除了不同组数据水平高低的影响。

(2)成年组身高的离散系数:;

幼儿组身高的离散系数:;

由于幼儿组身高的离散系数大于成年组身高的离散系数,说明幼儿组身高的离散程度相对较大。

14 .表给出了一些主要描述统计量

方法A 方法B 方法C

平均 165.6 平均 128.73 平均 125.53

中位数 165 中位数 129 中位数 126

众数 164 众数 128 众数 126

标准偏差 2.13 标准偏差 1.75 标准偏差 2.77

极差 8 极差 7 极差 12

最小值 162 最小值 125 最小值 116

最大值 170 最大值 132 最大值 128

先考虑平均指标,在平均指标相近时考虑离散程度指标。

应选择方法A,其均值远高于其他两种方法,同时离散程度与其他两组相近。

15.(1)风险的度量是一个不断发展的问题,在古典金融理论中,主要采用标准差这个统计测度来反映,现代金融中,采用在险值(value at risk)。

(2)无论采用何种风险度量,商业类股票较小

(3)个人对股票的选择,与其风险偏好等因素有关。

第四章

1.总体分布指某个变量在总体中各个个体上的取值所形成的分布,它是未知的,是统计推断的对象。从总体中随机抽取容量为n的样本,它的分布称为样本分布。由样本的某个函数所形成的统计量,它的分布称为抽样分布(如样本均值、样本方差的分布)

2.重复抽样和不重复抽样下,样本均值的标准差分别为:

因此不重复抽样下的标准差小于重复抽样下的标准差,两者相差一个调整系数

3.解释中心极限定理的含义

答:在抽样推断中,中心极限定理指出,不论总体服从何种分布,只要其数学期望和方差存在,对总体进行重复抽样时,当样本容量充分大,样本均值趋近于正态分布。中心极限定理为均值的抽样推断奠定了理论基础。

第四章、参数估计

简述评价估计量好坏的标准

答:评价估计量好坏的标准主要有:无偏性、有效性和相合性。设总体参数的估计量有和,如果,称是无偏估计量;如果和是无偏估计量,且小于,则比更有效;如果当样本容量,,则是相合估计量。

2.说明区间估计的基本原理

答:总体参数的区间估计是在一定的置信水平下,根据样本统计量的抽样分布计算出用样本统计量加减抽样误差表示的估计区间,使该区间包含总体参数的概率为置信水平。置信水平反映估计的可信度,而区间的长度反映估计的精确度。

3.解释置信水平为95%的置信区间的含义

答:总体参数是固定的,未知的,置信区间是一个随机区间。置信水平为95%的置信区间的含义是指,在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。

4.简述样本容量与置信水平、总体方差、允许误差的关系

答:以估计总体均值时样本容量的确定公式为例:

样本容量与置信水平成正比、与总体方差成正比、与允许误差成反比。

2. 解:由题意:样本容量为

解:由题可得:

尽管采用不重复抽样,但因为样本比例很小(不到0.5%),其抽样误差与重复抽样下近似相同,采用重复抽样的抽样误差公式来计算。

为大样本,则在的显著性水平下的置信区间为:

当,置信区间为(2.88,3.76)

当,置信区间为(2.80,3.84)

当,置信区间为(2.63,4.01)

5解:假设距离服从正态分布,

平均距离的95%的置信区间为=(7.18,11.57)

7解:由题意:。

因为均超过5,大样本

(1)总体中赞成比率的显著性水平为的置信区间为

当时,

置信区间为(50.7%,77.3%)

(2)如果要求允许误差不超过10%,置信水平为95%,则应抽取的户数:

8.此题需先检验两总体的方差是否相等:

在5%的显著性水平下,

,不拒绝原假设

认为两总体方差是相同的。

(1)

即(1.93,17.669)

(2)

即(0.27,19.32)

11.大样本的情况

(1)90%置信度下

(3.021%,16.979)

(2)95%置信度下

(1.684%,18.316%)

12.解:由题可计算:

两个总体方差比在95%的置信区间为:

14.解:由题意:

则必须抽取的顾客数为:

第五章、假设检验

思考题

1.1.理解原假设与备择假设的含义,并归纳常见的几种建立原假设与备择假设的原则.

答:原假设通常是研究者想收集证据予以反对的假设;而备择假设通常是研究者想收集证据予以支持的假设。建立两个假设的原则有:

(1)原假设和备择假设是一个完备事件组。(2)一般先确定备择假设。再确定原假设。(3)等号“=”总是放在原假设上。(4)假设的确定带有一定的主观色彩。(5)假设检验的目的主要是收集证据来拒绝原假设。

2.第一类错误和第二类错误分别是指什么?它们发生的概率大小之间存在怎样的关系?

答:第I类错误指,当原假设为真时,作出拒绝原假设所犯的错误,其概率为。第II类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为。在其他条件不变时,增大,减小;增大,减小。

3.什么是显著性水平?它对于假设检验决策的意义是什么?

答:假设检验中犯第一类错误的概率被称为显著性水平。显著性水平通常是人们事先给出的一个值,用于检验结果的可靠性度量,但确定了显著性水平等于控制了犯第一错误的概率,但犯第二类错误的概率却是不确定的,因此作出“拒绝原假设”的结论,其可靠性是确定的,但作出“不拒绝原假设”的结论,其可靠性是难以控制的。

4.什么是p值?p值检验和统计量检验有什么不同?

答:p值是当原假设为真时,检验统计量小于或等于根据实际观测样本数据计算得到的检验统计量值的概率。P值常常作为观察到的数据与原假设不一致程度的度量。统计量检验采用事先确定显著性水平,来控制犯第一类错误的上限,p值可以有效地补充提供地关于检验可靠性的有限信息。值检验的优点在于,它提供了更多的信息,让人们可以选择一定的水平来评估结果是否具有统计上的显著性。

5.什么是统计上的显著性?

答:一项检验在统计上是显著的(拒绝原假设),是指这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的。显著性的意义在于“非偶然的

练习题

3.解(1)第一类错误是,供应商提供的炸土豆片的平均重量不低于60克,但店方拒收并投诉。

(2)第二类错误是,供应商提供的炸土豆片的平均重量低于60克,但店方没有拒收。

(3)顾客会认为第二类错误很严重,而供应商会将第一类错误看得较严重。

4.解:提出假设

已知

检验统计量为

拒绝规则是:若,拒绝;否则,不拒绝

由得:,拒绝,认为改进工艺能提高其平均强度。

5解: 设为如今每个家庭每天收看电视的平均时间(小时)

需检验的假设为:

调查的样本为:

大样本下检验统计量为:

在0.01的显著性水平下,右侧检验的临界值为

因为,拒绝,可认为如今每个家庭每天收看电视的平均时间增加了

6. 解:提出假设

已知:

检验统计量

拒绝,可判定电视使用寿命的方差显著大于VCR

7. 解:提出假设:

,独立大样本,则检验统计量为:

而2.33 因为,拒绝,平均装配时间之差不等于5分钟

8. 解:匹配小样本 提出假设:

由计算得:,检验统计量为

,不拒绝,不能认为广告提高了潜在购买力的平均得分。

9. 解:提出假设:

已知:

大样本,则检验统计量为:

而,因为,拒绝,可认为信息追求者消极度假的比率显著小于非信息追求者。

10. 解:提出假设:

由题计算得:

检验统计量为:,而

,所以拒绝,认为两种机器的方差存在显著差异。

相关与回归分析

思考题

相关分析与回归分析的区别与联系是什么?

答:相关与回归分析是研究变量之间不确定性统计关系的重要方法,相关分析主要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测度。但它们在研究目的和对变量的处理上有明显区别。它们均是统计方法,不能揭示现象之间的本质关系。

3.什么是总体回归函数和样本回归函数?它们之间的区别是什么?

答:以简单线性回归模型为例,总体回归函数是总体因变量的条件期望表现为自变量的函数:,或。总体回归函数是确定的和未知的,是回归分析所估计的对象。样本回归函数是根据样本数据所估计出的因变量与自变量之间的函数关系:或。回归分析的目的是用样本回归函数来估计总体回归函数。它们的区别在于,总体回归函数是未知但是确定的,而样本回归函数是随样本波动而变化;总体回归函数的参数是确定的,而样本回归函数的系数是随机变量;总体回归函数中的误差项不可观察的,而样本回归函数中的残差项是可以观察的。

4. 什么是随机误差项和残差?它们之间的区别是什么?

答:随机误差项表示自变量之外其他变量的对因变量产生的影响,是不可观察的,通常要对其给出一定的假设。残差项指因变量实际观察值与样本回归函数计算的估计值之间的偏差,是可以观测的。它们的区别在于,反映的含义是不同且可观察性也不同,它们的联系可有下式:

5.为什么在对参数进行最小二乘估计时,要对模型提出一些基本的假定?

答:最小二乘法只是寻找估计量的一种方法,其寻找到的估计量是否具有良好的性质则依赖模型的一些基本的假定。只有在一系列的经典假定下,最小二乘估计量才是BLUE。

15. .为什么在多元回归中要对可决系数进行修正?

答:在样本容量一定下,随着模型中自变量个数的增加,可决系数会随之增加,模型的拟合程度上升,但自由度会损失,从而降低推断的精度,因此需要用自由度来修正可决系数,用修正的可决系数来判断增加自变量的合适性。

16.在多元线性回归中,对参数作了t检验后为什么还要作方差分析和F检验?

答:t检验仅是对单个系数的显著性进行检验,由于自变量之间存在着较为复杂的关系,因此有必要对回归系数进行整体检验,方差分析和F检验就是对回归方程的整体统计显著性进行的检验方法。

练习题

解:设简单线性回归方程为:

采用OLS估计:

回归系数经济意义:销售收入每增加1万元,销售成本会增加0.786万元。

可决系数为:

回归标准误:

检验统计量为:

所以是显著不为零

预测:

95%的预测区间为:

即( 664.579 ,674.153)

2.

(1)

(2)负相关关系

(3)

(4)估计的斜率系数为-7.0414,表示航班的正点率每提高1%,百万名乘客的投诉次数会下降:7.0414*0.01=0.070414次。

(5)如果,则次

3.

Results of multiple regression for y

Summary measures

Multiple R 0.9521

R-Square 0.9065

Adj R-Square 0.8910

StErr of Est 3.3313

ANOVA Table

Source df SS MS F p-value

Explained 3 1937.7485 645.9162 58.2048 0.0000

Unexplained 18 199.7515 11.0973

Regression coefficients

Coefficient Std Err t-value p-value Lower limit Upper limit

Constant 32.9931 3.1386 10.5121 0.0000 26.3991 39.5870

x1 0.0716 0.0148 4.8539 0.0001 0.0406 0.1026

x2 16.8727 3.9956 4.2228 0.0005 8.4782 25.2671

x3 17.9042 4.8869 3.6637 0.0018 7.6372 28.1711

4.

5.

7. 解

(1)样本容量:

(2)

(3)

(4),

(5)用F检验:,

整体对有显著影响,但不能确定单个对y的贡献。