[第2讲 统计与统计案例]
本资料分享自千人QQ群323031380 期待你的加入与分享
第2讲 统计与统计案例
考点一 用样本估计总体
[学生用书P62]
[典型例题]
(2019·高考全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80)
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:eq \r(74)≈8.602.
【解】 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为eq \f(14+7,100)=0.21.
产值负增长的企业频率为eq \f(2,100)=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2) eq \x\to(y)=eq \f(1,100)(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=eq \f(1,100)eq \i\su(i=1,5,n)i(yi- eq \x\to(y))2
=eq \f(1,100)[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6,
s=eq \r(0.029 6)=0.02×eq \r(74)≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
eq \a\vs4\al()
(1)方差的计算与含义
①计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.
②含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.
(2)从频率分布直方图中得出有关数据的方法
频率
频率分布直方图中横轴表示组数,纵轴表示eq \f(频率,组距),频率=组距×eq \f(频率,组距)
频率比
频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比
众数
最高小长方形底边中点的横坐标
中位数
平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标
平均数
频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和
[对点训练]
1.(2020·武昌区高三调研)已知一组数据10,5,4,2,2,2,x,且这组数据的平均数与众数的和是中位数的2倍,则x所有可能的取值为________.
解析:数据的平均数为eq \f(25+x,7),众数为2,若x≤2,则中位数为2,所以eq \f(25+x,7)+2=4,解得x=-11;若2<x<4,则中位数为x,所以eq \f(25+x,7)+2=2x,解得x=3;若x≥4,则中位数为4,所以eq \f(25+x,7)+2=8,解得x=17.
答案:-11或3或17
2.(2020·沈阳市教学质量监测(一))“学习强国”学习平台是由中宣部主管,以习近平新时代中国特色社会主义思想和党的十九大精神为主要内容,立足全体党员、面向全社会的优质平台.某单位共有党员200人(男女各100人),从2019年1月1日起在“学习强国”学习平台学习.现统计他们的学习积分,得到如下男党员的频数分布表和女党员的频率分布直方图.
男党员的频数分布表
积分/千分
[2,4)
[4,6)
[6,8)
[8,10)
[10,12]
人数
15
25
30
20
10
女党员的频率分布直方图
(1)已知女党员中积分不低于6千分的有72人,求图中a与b的值;
(2)估算男党员学习积分的平均数(同一组中的数据用该组区间的中点值作代表)和女党员学习积分的中位数(精确到0.1千分).
解:(1)因为eq \f(100-72,100)=(0.075+a)×2,所以a=0.065.
因为eq \f(72,100)=(0.150+0.120+b)×2,所以b=0.09.
(2)男党员学习积分的平均数为
3×eq \f(15,100)+5×eq \f(25,100)+7×eq \f(30,100)+9×eq \f(20,100)+11×eq \f(10,100)=6.7(千分).
因为(0.075+0.065)×2=0.28,0.5-0.28=0.22,
所以女党员学习积分的中位数为6+2×eq \f(0.22,0.15×2)≈7.5(千分).
考点二 统计案例
[学生用书P63]
[典型例题]
命题角度1 回归分析在实际问题中的应用
下面给出了根据我国2013年~2019年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和线性回归方程的残差图(2013年~2019年的年份代码x分别为1~7).
(1)根据散点图分析y与x之间的相关关系;
(2)根据散点图相应数据计算得eq \o(∑,\s\up6(7),\s\do4(i=1))yi=1 074,eq \o(∑,\s\up6(7),\s\do4(i=1))xiyi=4 517,求y关于x的线性回归方程;(精确到0.01)
(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果.
附:回归方程eq \o(y,\s\up6(^))=eq \o(a,\s\up6(^))+eq \o(b,\s\up6(^))x中斜率和截距的最小二乘估计公式分别为
【解】 (1)根据散点图可知y与x正线性相关.
(2)由所给数据计算得
eq \x\to(x)=eq \f(1,7)(1+2+…+7)=4,
eq \o(∑,\s\up6(7),\s\do4(i=1)) (xi-eq \o(x,\s\up6(-)))2=28,
eq \o(∑,\s\up6(7),\s\do4(i=1)) (xi-eq \o(x,\s\up6(-)))(yi-eq \o(y,\s\up6(-)))=eq \o(∑,\s\up6(7),\s\do4(i=1))xiyi-7eq \o(x,\s\up6(-))eq \o(y,\s\up6(-))=4 517-4×1 074=221,
eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(7),\s\do4(i=1)) (xi-eq \o(x,\s\up6(-)))(yi-eq \o(y,\s\up6(-))),\o(∑,\s\up6(7),\s\do4(i=1)) (xi-eq \o(x,\s\up6(-)))2)=eq \f(221,28)≈7.89,
eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(x,\s\up6(-))=eq \f(1 074,7)-7.89×4≈121.87,
所求线性回归方程为eq \o(y,\s\up6(^))=7.89x+121.87.
(3)由题中给出的残差图知历年数据的残差均在-2到2之间,说明线性回归方程的拟合效果较好.
求回归直线方程的方法
(1)若所求的回归直线方程是在选择题中,常利用回归直线eq \o(y,\s\up6(-))=eq \o(b,\s\up6(^))x+eq \o(a,\s\up6(^))必经过样本点的中心(eq \o(x,\s\up6(-)),eq \o(y,\s\up6(-)))快速选择.
(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为,确关系)
命题角度2 独立性检验在实际问题中的应用
(2020·高考全国卷Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400
人次>400
空气质量好
空气质量不好
附:K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【解】 (1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如表:
空气质量等级
1
2
3
4
概率的估计值
0.43
0.27
0.21
0.09
(2)一天中到该公园锻炼的平均人次的估计值为
eq \f(1,100)(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
根据列联表得
K2=eq \f(100×(33×8-22×37)2,55×45×70×30)≈5.820.
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
eq \a\vs4\al()
独立性检验的步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=eq \f(n(ad-bc)2,(a+b)(a+c)(b+d)(c+d))计算K2的观测值k.
(3)比较k与临界值的大小关系作统计推断.
[对点训练]
盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A,B,C三种样式,且每个盲盒只装一个.
(1)若每个盲盒装有A,B,C三种样式玩偶的概率相同.某同学已经有了A样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是多少?
(2)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者当中,女生占eq \f(2,3);而在未购买者当中,男生女生各占50%.请根据以上信息填写下表,并分析是否有95%的把握认为购买该款盲盒与性别有关?
女生
男生
总计
购买
未购买
总计
参考公式:K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.
参考数据
P(K2
≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
(3)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:
周数x
1
2
3
4
5
6
盒数y
16
____
23
25
26
30
由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4,5,6周的数据求线性回归方程,再用第1,3周数据进行检验.
①请用4,5,6周的数据求出y关于x的线性回归方程eq \o(y,\s\up6(^))=eq \o(b,\s\up6(^))x+eq \o(a,\s\up6(^));
②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?
③如果通过②的检验得到的回归直线方程可靠,我们可以认为第2周卖出的盒数误差也不超过2盒,请你求出第2周卖出的盒数的可能取值;如果不可靠,请你设计一个估计第2周卖出的盒数的方案.
解:(1)由题意,基本事件空间为
Ω={(A,A),(A,B),(A,C),(B,A),(B,B),(B,C),(C,A),(C,B),(C,C)},其中基本事件的个数为9,设事件D为“他恰好能收集齐这三种样式”,则D={(B,C),(C,B)},其中基本事件的个数为2,则他恰好能收集齐这三种样式的概率P=eq \f(2,9).
(2)
女生
男生
总计
购买
40
20
60
未购买
70
70
140
总计
110
90
200
K2=eq \f(200(40×70-20×70)2,110×90×60×140)≈4.714,又因为4.714>3.841,
故有95%把握认为“购买该款盲盒与性别有关”.
(3)①由数据,求得 eq \x\to(x)=5, eq \x\to(y)=27,由公式求得
eq \o(b,\s\up6(^))=eq \f((4-5)(25-27)+(5-5)(26-27)+(6-5)(30-27),(4-5)2+(5-5)2+(6-5)2)=eq \f(5,2),
eq \o(a,\s\up6(^))=27-eq \f(5,2)×5=14.5,所以y关于x的线性回归方程为eq \o(y,\s\up6(^))=2.5x+14.5.
②当x=1时,eq \o(y,\s\up6(^))=2.5×1+14.5=17,|17-16|<2,
同样,当x=3时,eq \o(y,\s\up6(^))=2.5×3+14.5=22,|22-23|<2,
所以,所得到的线性回归方程是可靠的.
③由②可知回归直线方程可靠,x=2时eq \o(y,\s\up6(^))=2.5×2+14.5=19.5,
设第二周卖出的盒数为n(n∈N),则|n-19.5|≤2,17.5≤n≤21.5,
所以n能取18,19,20,21,即第2周卖出的盒数的可能值为18,19,20,21.
考点三 概率与统计的综合问题
[学生用书P65]
[典型例题]
命题角度1 概率与统计图表的交汇
(2020·贵阳市适应性考试)某校举行运动会,其中三级跳远的成绩在8.0米以上的进入决赛,把所得数据进行整理后,分成6组画出频率分布直方图的一部分(如图),已知第6组的频数是7.
(1)求进入决赛的人数;
(2)用样本的频率代替概率,记X表示两人中进入决赛的人数,求X的分布列及数学期望.
【解】 (1)第6组的频率为1-(0.04+0.10+0.14+0.28+0.30)=0.14,
所以总人数为eq \f(7,0.14)=50.
第4,5,6组均进入决赛,人数为(0.28+0.30+0.14)×50=36,
即进入决赛的人数为36.
(2)X可取0,1,2,进入决赛的概率为eq \f(36,50)=eq \f(18,25),所以X~Beq \b\lc\(\rc\)(\a\vs4\al\co1(2,\f(18,25))),P(X=0)=Ceq \o\al(0,2)×eq \b\lc\(\rc\)(\a\vs4\al\co1(\f(7,25)))eq \s\up12(2)=eq \f(49,625),P(X=1)=Ceq \o\al(1,2)×eq \f(7,25)×eq \f(18,25)=eq \f(252,625),
P(X=2)=Ceq \o\al(2,2)×eq \b\lc\(\rc\)(\a\vs4\al\co1(\f(18,25)))eq \s\up12(2)=eq \f(324,625),
所求分布列为
X
0
1
2
P
eq \f(49,625)
eq \f(252,625)
eq \f(324,625)
E(X)=2×eq \f(18,25)=eq \f(36,25),两人中进入决赛的人数的数学期望为eq \f(36,25).
破解频率分布直方图与概率相交汇问题的步骤
eq \a\vs4\al()
命题角度2 概率、统计与统计案例的交汇
(2020·成都市诊断性检测)某公司有1 000名员工,其中男性员工400名,采用分层抽样的方法随机抽取100名员工进行5G手机购买意向的调查,将计划在今年购买5G手机的员工称为“追光族”,计划在明年及明年以后才购买5G手机的员工称为“观望者”.调查结果显示抽取的这100名员工中属于“追光族”的女性员工和男性员工各有20人.
(1)完成下面2×2列联表,并判断是否有95%的把握认为该公司员工属于“追光族”与“性别”有关;
属于“追光族”
属于“观望者”
合计
女性员工
男性员工
合计
100
(2)已知被抽取的这100名员工中有10名是人事部的员工,这10名中有3名属于“追光族”,现从这10名中随机抽取3名,记被抽取的3名中属于“追光族”的人数为随机变量X,求X的分布列及数学期望.
附:K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
【解】 (1)由题意得2×2列联表为
属于“追光族”
属于“观望者”
合计
女性员工
20
40
60
男性员工
20
20
40
合计
40
60
100
所以K2=eq \f(100×(20×20-40×20)2,60×40×40×60)=eq \f(25,9)≈2.778<3.841,
所以没有95%的把握认为该公司员工属于“追光族”与“性别”有关.
(2)由题意得随机变量X的所有可能取值为0,1,2,3.
P(X=0)=eq \f(Ceq \o\al(0,3)Ceq \o\al(3,7),Ceq \o\al(3,10))=eq \f(35,120)=eq \f(7,24),
P(X=1)=eq \f(Ceq \o\al(1,3)Ceq \o\al(2,7),Ceq \o\al(3,10))=eq \f(63,120)=eq \f(21,40),
P(X=2)=eq \f(Ceq \o\al(2,3)Ceq \o\al(1,7),Ceq \o\al(3,10))=eq \f(21,120)=eq \f(7,40),
P(X=3)=eq \f(Ceq \o\al(3,3)Ceq \o\al(0,7),Ceq \o\al(3,10))=eq \f(1,120).
所以X的分布列为
X
0
1
2
3
P
eq \f(7,24)
eq \f(21,40)
eq \f(7,40)
eq \f(1,120)
所以E(X)=0×eq \f(7,24)+1×eq \f(21,40)+2×eq \f(7,40)+3×eq \f(1,120)=eq \f(9,10).
命题角度3 概率、统计与函数的交汇(数列)
(2020·湖北武汉9月起点质量监测)武汉又称江城,是湖北省省会,它不仅有着深厚的历史积淀与丰富的民俗文化,更有着众多名胜古迹与旅游景点,黄鹤楼与东湖便是其中的两个.为合理配置旅游资源,现对已参观黄鹤楼景点的游客进行随机问卷调查,若不游玩东湖记1分,若继续游玩东湖记2分,每位游客选择是否参观东湖的概率均为eq \f(1,2),游客之间选择意愿相互独立.
(1)从游客中随机抽取3人,记这3人的总得分为随机变量X,求X的分布列与数学期望;
(2)①若从游客中随机抽取m(m∈N*)人,记这m人的总分恰为m分的概率为Am,求数列{Am}的前10项和;
②在对所有游客进行随机问卷调查的过程中,记已调查过的人的累计得分恰为n分的概率为Bn,探讨Bn与Bn-1(n≥2)之间的关系,并求数列{Bn}的通项公式.
【解】 (1)X的所有可能取值为3,4,5,6.
P(X=3)=eq \b\lc\(\rc\)(\a\vs4\al\co1(\f(1,2)))eq \s\up12(3)=eq \f(1,8),P(X=4)=Ceq \o\al(1,3)eq \b\lc\(\rc\)(\a\vs4\al\co1(\f(1,2)))eq \s\up12(3)=eq \f(3,8),
P(X=5)=Ceq \o\al(2,3)eq \b\lc\(\rc\)(\a\vs4\al\co1(\f(1,2)))eq \s\up12(3)=eq \f(3,8),P(X=6)=Ceq \o\al(3,3)eq \b\lc\(\rc\)(\a\vs4\al\co1(\f(1,2)))eq \s\up12(3)=eq \f(1,8).
所以X的分布列为
X
3
4
5
6
P
eq \f(1,8)
eq \f(3,8)
eq \f(3,8)
eq \f(1,8)
所以E(X)=3×eq \f(1,8)+4×eq \f(3,8)+5×eq \f(3,8)+6×eq \f(1,8)=eq \f(9,2).
(2)①总分恰为m分的概率Am=eq \b\lc\(\rc\)(\a\vs4\al\co1(\f(1,2)))eq \s\up12(m),
所以数列{Am}是首项为eq \f(1,2),公比为eq \f(1,2)的等比数列.
其前10项和S10=eq \f(\f(1,2)×\b\lc\(\rc\)(\a\vs4\al\co1(1-\f(1,210))),1-\f(1,2))=eq \f(1 023,1 024).
②因为已调查过的人的累计得分恰为n分的概率为Bn,得不到n分的情况只有先得(n-1)分,再得2分,概率为eq \f(1,2)Bn-1(n≥2).
所以1-Bn=eq \f(1,2)Bn-1(n≥2),即Bn=-eq \f(1,2)Bn-1+1(n≥2).
所以Bn-eq \f(2,3)=-eq \f(1,2)eq \b\lc\(\rc\)(\a\vs4\al\co1(Bn-1-\f(2,3)))(n≥2).
所以Bn-eq \f(2,3)=eq \b\lc\(\rc\)(\a\vs4\al\co1(B1-\f(2,3)))eq \b\lc\(\rc\)(\a\vs4\al\co1(-\f(1,2)))eq \s\up12(n-1),易知B1=eq \f(1,2).
所以Bn=eq \f(2,3)-eq \f(1,6)eq \b\lc\(\rc\)(\a\vs4\al\co1(-\f(1,2)))eq \s\up12(n-1)=eq \f(2,3)+eq \f(1,3)eq \b\lc\(\rc\)(\a\vs4\al\co1(-\f(1,2)))eq \s\up12(n)=eq \f(2,3)+eq \f((-1)n,3×2n).
eq \a\vs4\al()
破解此题的关键:一是认真审题,判断随机变量的所有可能取值,并注意相互独立事件的概率与互斥事件的概率的区别,求出随机变量取各个值时的概率,从而列出随机变量的分布列;二是将概率的参数表达式与数列的递推式相结合,可得数列的通项公式,此种解法新颖独特.
[对点训练]
某商场营销人员进行某商品的市场营销调查时发现:每回馈消费者一定的点数,该商品每天的销量(单位:百件)就会发生一定的变化.经过统计得到下表,
回馈点数t
1
2
3
4
5
销量y
0.5
0.6
1
1.4
1.7
(1)经分析发现,可用线性回归模型eq \o(y,\s\up6(^))=eq \o(b,\s\up6(^))t+0.08拟合当地该商品销量y与回馈点数t之间的相关关系.试预测回馈6个点时该商品每天的销量;
(2)若节日期间营销部对该商品的回馈点数进行新一轮调整.已知某地拟购买该商品的消费群体十分庞大,营销调研机构对其中的200名消费者的回馈点数的心理预期值x进行了一个抽样调查,得到如下频数分布表:
回馈点数心理
预期值区间
[1,3)
[3,5)
[5,7)
[7,9)
[9,11)
[11,13]
频数
20
60
60
30
20
10
①求这200位拟购买该商品的消费者对回馈点数的心理预期值x的平均数及中位数的估计值(同一区间的心理预期值可用该区间的中点值代替,估计值精确到0.1);
②将对回馈点数的心理预期值在[1,3)和[11,13]内的消费者分别定义为“欲望紧缩型”消费者和“欲望膨胀型”消费者,现采用分层抽样的方法从心理预期值位于这两个区间内的30名消费者中随机抽取6名,再从这6名中随机抽取3名进行跟踪调查,设抽出的3人中“欲望紧缩型”消费者的人数为随机变量X,求X的分布列及数学期望.
解:(1)由题意可得 eq \x\to(t)=eq \f(1+2+3+4+5,5)=3,
eq \x\to(y)=eq \f(0.5+0.6+1+1.4+1.7,5)=1.04,
因为线性回归模型为eq \o(y,\s\up6(^))=eq \o(b,\s\up6(^))t+0.08,所以1.04=3eq \o(b,\s\up6(^))+0.08,解得eq \o(b,\s\up6(^))=0.32,
故y关于t的线性回归方程为eq \o(y,\s\up6(^))=0.32t+0.08.
当t=6时,eq \o(y,\s\up6(^))=2,即回馈6个点时该商品每天销量约为2百件.
(2)①根据题意,这200位拟购买该商品的消费者对回馈点数的心理预期值x的平均数x的估计值为x=2×0.1+4×0.3+6×0.3+8×0.15+10×0.1+12×0.05=6.0,
中位数的估计值为5+2×eq \f(100-20-60,60)=5+eq \f(2,3)≈5.7.
②抽取的6名消费者中“欲望紧缩型”消费者人数为6×eq \f(20,30)=4,
“欲望膨胀型”消费者人数为6×eq \f(10,30)=2.
由题意知X的可能取值为1,2,3,
所以P(X=1)=eq \f(Ceq \o\al(1,4)Ceq \o\al(2,2),Ceq \o\al(3,6))=eq \f(1,5),P(X=2)=eq \f(Ceq \o\al(2,4)Ceq \o\al(1,2),Ceq \o\al(3,6))=eq \f(3,5),
P(X=3)=eq \f(Ceq \o\al(3,4)Ceq \o\al(0,2),Ceq \o\al(3,6))=eq \f(1,5).
故随机变量X的分布列为
X
1
2
3
P
eq \f(1,5)
eq \f(3,5)
eq \f(1,5)
E(X)=1×eq \f(1,5)+2×eq \f(3,5)+3×eq \f(1,5)=2.
[学生用书(单独成册)P141]
[A组 夯基保分]
1.(一题多解)某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:
最喜爱
喜爱
一般
不喜欢
4 800
7 200
6 400
1 600
电视台为了了解观众的具体想法和意见,打算从中抽选出100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为( )
A.25,25,25,25 B.48,72,64,16
C.20,40,30,10 D.24,36,32,8
解析:选D.方法一:因为抽样比为eq \f(100,20 000)=eq \f(1,200),
所以每类人中应抽选出的人数分别为
4 800×eq \f(1,200)=24,7 200×eq \f(1,200)=36,6 400×eq \f(1,200)=32,1 600×eq \f(1,200)=8.故选D.
方法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2,
所以每类人中应抽选出的人数分别为eq \f(6,6+9+8+2)×100=24,eq \f(9,6+9+8+2)×100=36,eq \f(8,6+9+8+2)×100=32,
eq \f(2,6+9+8+2)×100=8,故选D.
2.(2020·成都市诊断性检测)某校随机抽取100名同学进行“垃圾分类”的问卷测试,测试结果显示这100名同学的得分都在[50,100]内,按得分分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],得到如图所示的频率分布直方图,则这100名同学的得分的中位数为( )
A.72.5 B.75
C.77.5 D.80
解析:选A.频率分布直方图中左边第一个小长方形的面积为0.010×10=0.1,左边第二个小长方形的面积为0.030×10=0.3.设这100名同学的得分的中位数为x,则(x-70)×0.040=0.5-0.3-0.1,所以x=72.5.
3.(2020·开封市第一次模拟考试)某省普通高中学业水平考试成绩由高分到低分按人数所占比例依次分为A,B,C,D,E五个等级,A等级15%,B等级30%,C等级30%,D,E等级共25%.其中E等级为不合格,原则上比例不超过5%.该省某校高二年级学生都参加学业水平考试,先从中随机抽取了部分学生的考试成绩进行统计,统计结果如图所示.若该校高二年级共有1 000名学生,则估计该年级拿到C等级及以上级别的学生人数为( )
A.45 B.660
C.880 D.900
解析:选D.由题中两图可知C等级所占比例为eq \f(12,10)×20%=24%,所以C等级及以上级别所占比例为20%+24%+46%=90%,所以C等级及以上级别的学生人数为1 000×90%=900.故选D.
4.(2020·沈阳市教学质量监测(一))沈阳市为推进垃圾分类工作的实施,开展了“垃圾分类进小区”的评比活动.现对沈阳市甲、乙两个小区进行评比,从中各随机选出20户家庭进行评比打分,每户成绩满分为100分,评分后得到如下茎叶图:
通过茎叶图比较甲、乙两个小区成绩的平均数及方差大小( )
A. eq \x\to(x)甲< eq \x\to(x)乙,seq \o\al(2,甲)<seq \o\al(2,乙) B. eq \x\to(x)甲> eq \x\to(x)乙,seq \o\al(2,甲)<seq \o\al(2,乙)
C. eq \x\to(x)甲< eq \x\to(x)乙,seq \o\al(2,甲)>seq \o\al(2,乙) D. eq \x\to(x)甲> eq \x\to(x)乙,seq \o\al(2,甲)>seq \o\al(2,乙)
解析:选C.由茎叶图知,乙小区成绩低的户数少于甲小区,且成绩大多高于甲小区,所以乙小区成绩的平均数大于甲小区.因为乙小区成绩分布比较集中,所以乙小区成绩的方差比甲小区小,故选C.
5.(多选)某市气象部门根据2019年各月的每天最高气温平均值与最低气温平均值(单位:℃)数据,绘制如下折线图:
那么,下列叙述正确的是( )
A.各月最高气温平均值与最低气温平均值总体呈正相关
B.全年中,2月份的最高气温平均值与最低气温平均值的差值最大
C.全年中各月最低气温平均值不高于10 ℃的月份有5个
D.从2019年7月至12月该市每天最高气温平均值与最低气温平均值呈下降趋势
解析:选ABC.对于A,根据折线图可以发现除2月份外,各月最低气温平均值越高,最高气温平均值也越高,总体呈正相关,A正确;对于B,通过折线图观察,2月份的两个点距离最大,B正确;对于C,各月最低气温平均值不高于10 ℃的有1月,2月,3月,11月,12月,共5个月,C正确;对于D,观察折线图可知,7月份到8月份气温在上升,D错误.
6.(多选)近年来,某市为促进生活垃圾的分类处理,将生活垃圾分为厨余垃圾、可回收物、其他垃圾、有害垃圾四类,并分别设置了相应的垃圾箱.某机构要调查某小区居民生活垃圾的投放情况(该小区居民的生活垃圾以厨余垃圾、可回收物、其他垃圾为主),随机抽取了该小区“厨余垃圾”箱、“可回收物”箱、“其他垃圾”箱这三类垃圾箱,总计1 000千克的生活垃圾,数据(单位:千克)统计如下:
“厨余垃圾”箱
“可回收物”箱
“其他垃圾”箱
厨余垃圾的总投放质量/千克
400
100
100
可回收物的总投放质量/千克
30
240
30
其他垃圾的总投放质量/千克
20
20
60
根据样本数据估计该小区居民生活垃圾的投放情况,下列结论正确的是( )
A.厨余垃圾投放正确的概率为eq \f(2,3)
B.居民生活垃圾投放错误的概率为eq \f(3,5)
C.该小区这三类垃圾中,其他垃圾投放正确的概率最低
D.厨余垃圾在“厨余垃圾”箱、“可回收物”箱、“其他垃圾”箱的投放量的方差是20 000
解析:选ACD.厨余垃圾投放正确的概率P1=eq \f(400,400+100+100)=eq \f(2,3).居民生活垃圾投放错误的概率P2=eq \f(100+100+30+30+20+20,1 000)=eq \f(3,10).易知该小区这三类垃圾中,其他垃圾投放正确的概率最低.厨余垃圾在“厨余垃圾”箱、“可回收物”箱、“其他垃圾”箱的投放量的方差是
s2=eq \f((400-200)2+(100-200)2+(100-200)2,3)=20 000.故选ACD.
7.(2019·高考全国卷Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为____________.
解析:依题意知,经停该站高铁列车所有车次的平均正点率的估计值为eq \f(10×0.97+20×0.98+10×0.99,40)=0.98.
答案:0.98
8.在一次20千米的汽车拉力赛中,50名参赛选手的成绩全部介于13分钟到18分钟之间,将其比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18],其频率分布直方图如图所示,若成绩在[13,15)之间的选手可获奖,则成绩在[13,15)内的频率为________,这50名选手中获奖的人数为________.
解析:由频率分布直方图知,成绩在[13,15)内的频率为1-0.38-0.32-0.08=0.22,所以成绩在[13,15)内的人数为50×0.22=11,所以获奖的人数为11.
答案:0.22 11
9.(2020·广东省七校联考)某商场一年中各月份的收入、支出(单位:万元)情况的统计如图所示,下列说法中正确的是________.(填序号)
①2至3月份的收入的变化率与11至12月份的收入的变化率相同;
②支出最高值与支出最低值的比是6∶1;
③第三季度平均收入为50万元;
④利润最高的月份是2月份.
解析:2至3月份的收入的变化率为eq \f(80-60,3-2)=20,11至12月份的变化率为eq \f(70-50,12-11)=20,故相同,①正确;支出最高值是2月份60万元,支出最低值是5月份10万元,支出最高值与支出最低值的比是6∶1,②正确;第三季度的7,8,9月,每个月的收入分别为40万元,50万元,60万元,故第三季度的平均收入为eq \f(40+50+60,3)=50(万元),故③正确;利润最高的月份是3月份和10月份,都是30万元,2月份的利润是80-60=20(万元),故④错误.
答案:①②③
10.(2020·四省八校第二次质量检测)某烘焙店加工一个成本为60元的蛋糕,然后以每个120元的价格出售,如果当天卖不完,剩下的这种蛋糕作厨余垃圾处理.
(1)若烘焙店一天加工16个这种蛋糕,求当天的利润y(单位:元)关于当天需求量n(单位:个,n∈N)的函数解析式;
(2)烘焙店为了了解该种蛋糕的市场需求情况与顾客性别是否有关,随机统计了100位顾客的购买情况,得如下列联表:
男
女
合计
购买
15
35
50
不购买
6
44
50
合计
21
79
100
问:能否有95%的把握认为购买这种蛋糕与顾客性别有关?
附:K2=eq \f( n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),
P(K2≥k0)
0.100
0.050
0.025
0.010
k0
2.706
3.841
5.024
6.635
解:(1)y=eq \b\lc\{(\a\vs4\al\co1(120n-960,n∈[0,16],n∈N,,960,n∈[16,+∞),n∈N.))
(2)由题中列联表可得K2=eq \f(100×(15×44-35×6)2,50×50×21×79)≈4.882>3.841,
所以有95%的把握认为购买这种蛋糕与顾客性别有关.
11.某篮球运动员的投篮命中率为50%,他想提高自己的投篮水平,制定了一个夏季训练计划,为了了解训练效果,执行训练前,他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为46.3.执行训练后也统计了10场比赛的得分,茎叶图如图所示,
(1)请计算该篮球运动员执行训练后统计的10场比赛得分的中位数、平均得分与方差;
(2)如果仅从执行训练前后统计的各10场比赛得分数据分析,你认为训练计划对该运动员的投篮水平的提高是否有帮助?为什么?
解:(1)训练后得分的中位数为eq \f(14+15,2)=14.5;
平均得分为eq \f(8+9+12+14+14+15+16+18+21+23,10)=15;
方差为eq \f(1,10)[(8-15)2+(9-15)2+(12-15)2+(14-15)2+(14-15)2+(15-15)2+(16-15)2+(18-15)2+(21-15)2+(23-15)2]=20.6.
(2)尽管中位数训练后比训练前稍小,但平均得分一样,训练后方差20.6小于训练前方差46.3,说明训练后得分稳定性提高了(阐述观点合理即可),这是投篮水平提高的表现.故此训练计划对该篮球运动员的投篮水平的提高有帮助.
12.为落实国家扶贫攻坚政策,某社区应上级扶贫办的要求,对本社区所有贫困户每年年底进行收入统计,下表是该社区A贫困户从2016年至2019年的收入统计数据:(其中y为A贫困户的人均年纯收入)
年份
2016年
2017年
2018年
2019年
年份代码x
1
2
3
4
人均年纯收入y/百元
25
28
32
35
(1)作出A贫困户的人均年纯收入的散点图;
(2)根据上表数据,用最小二乘法求出y关于年份代码x的线性回归方程eq \o(y,\s\up6(^))=eq \o(b,\s\up6(^))x+eq \o(a,\s\up6(^)),并估计A贫困户在2020年能否脱贫.(注:国家规定2020年的脱贫标准为人均年纯收入不低于3 800元)
(参考公式:eq \o(b,\s\up6(^))=eq \f(∑n,i=1xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),∑n,i=1xeq \o\al(2,i)-n\o(x,\s\up6(-))2),eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(x,\s\up6(-)))
解:(1)由表格中的数据得散点图如图:
(2)根据表格中的数据可得eq \o(x,\s\up6(-))=eq \f(1+2+3+4,4)=eq \f(5,2),
eq \o(y,\s\up6(-))=eq \f(25+28+32+35,4)=30,
所以eq \o(b,\s\up6(^))==3.4,
eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(x,\s\up6(-))=30-3.4×eq \f(5,2)=21.5.
故y关于x的线性回归方程为eq \o(y,\s\up6(^))=3.4x+21.5,
当x=5时,eq \o(y,\s\up6(^))=38.5(百元),因为3 850>3 800,所以预测A贫困户在2020年能脱贫.
[B组 提能增分]
1.(2020·福州市适应性考试)为抗击新型冠状病毒,普及防护知识,某校开展了“疫情防护”网络知识竞赛活动.现从参加该活动的学生中随机抽取了100名学生,将他们的竞赛成绩(满分为100分)分为6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],得到如图所示的频率分布直方图.
(1)求a的值,并估计这100名学生的平均成绩.(同一组中的数据用该组区间的中点值为代表)
(2)在抽取的100名学生中,规定:竞赛成绩不低于80分为“优秀”,竞赛成绩低于80分为“非优秀”.请将下面的2×2 列联表补充完整,并判断是否有99%的把握认为“竞赛成绩是否优秀与性别有关”?
优秀
非优秀
合计
男生
40
女生
50
合计
100
参考公式及数据:K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),
n=a+b+c+d.
P(K2≥k0)
0.05
0.01
0.005
0.001
k0
3.841
6.635
7.879
10.828
解:(1)由题意可得(0.005+0.010+0.020+0.030+a+0.010)×10=1,
解得a=0.025.
因为45×0.05+55×0.1+65×0.2+75×0.3+85×0.25+95×0.1=74,
所以估计这100名学生的平均成绩为74分.
(2)由(1)知,在抽取的100名学生中,竞赛成绩优秀的有100×(0.25+0.1)=100×0.35=35(名),由此可得完整的2×2列联表:
优秀
非优秀
合计
男生
10
40
50
女生
25
25
50
合计
35
65
100
K2的观测值k=eq \f(100×(10×25-25×40)2,50×50×35×65)=eq \f(900,91)≈9.890>6.635,
所以有99%的把握认为“竞赛成绩是否优秀与性别有关”.
2.(2020·高考全国卷Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得eq \o(∑,\s\up6(20),\s\do4(i=1))xi=60,eq \o(∑,\s\up6(20),\s\do4(i=1))yi=1 200,eq \o(∑,\s\up6(20),\s\do4(i=1)) (xi- eq \x\to(x))2=80,eq \o(∑,\s\up6(20),\s\do4(i=1)) (yi- eq \x\to(y))2=9 000,eq \o(∑,\s\up6(20),\s\do4(i=1)) (xi- eq \x\to(x))(yi- eq \x\to(y))=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=eq \f(\o(∑,\s\up6(n),\s\do4(i=1)) (xi- eq \x\to(x))(yi- eq \x\to(y)),\r(\o(∑,\s\up6(n),\s\do4(i=1)) (xi- eq \x\to(x))2\o(∑,\s\up6(n),\s\do4(i=1)) (yi- eq \x\to(y))2)),eq \r(2)≈1.414.
解:(1)由已知得样本平均数 eq \x\to(y)=eq \f(1,20)eq \o(∑,\s\up6(20),\s\do4(i=1))yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r=eq \f(\o(∑,\s\up6(20),\s\do4(i=1)) (xi- eq \x\to(x))(yi- eq \x\to(y)),\r(\o(∑,\s\up6(20),\s\do4(i=1)) (xi- eq \x\to(x))2\o(∑,\s\up6(20),\s\do4(i=1)) (yi- eq \x\to(y))2))=eq \f(800,\r(80×9 000))=eq \f(2\r(2),3)≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
3.(2020·武昌区高三调研)某健身馆在2020年7,8两个月推出优惠项目吸引了一批客户.为预估2021年7,8两个月客户投入的健身消费金额,健身馆随机抽样统计了2020年7,8两个月100名客户的消费金额(单位:元),分组如下:[0,200),[200,400),[400,600),…,[1 000,1 200],得到如图所示的频率分布直方图:
(1)请用抽样的数据预估2021年7,8两个月健身客户人均消费的金额(同一组中的数据用该组区间的中点值作代表);
(2)若把2020年7,8两个月健身消费金额不低于800元的客户称为“健身达人”.经数据处理,现在列联表中得到一定的相关数据,请补全空格处的数据,并根据列联表判断是否有95%的把握认为“健身达人”与性别有关?
健身达人
非健身达人
总计
男
10
女
30
总计
(3)为吸引顾客,在健身项目之外,该健身馆特推出健身配套营养品的销售,现有两种促销方案.
方案一:每满800元可立减100元;
方案二:金额超过800元可抽奖三次,每次中奖的概率为eq \f(1,2),且每次抽奖互不影响,中奖1次打9折,中奖2次打8折,中奖3次打7折.
若某人打算购买1 000元的营养品,请从实际付款金额的数学期望的角度分析应该选择哪种促销方案.
附:
P(K2≥k)
0.150
0.100
0.050
0.010
0.005
k
2.072
2.706
3.841
6.635
7.879
K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.
解:(1)因为2020年7,8两个月这100名客户消费金额的平均值为(100×0.000 50+300×0.000 75+500×0.001 00+700×0.001 25+900×0.001 00+1 100×0.000 50)×200=620(元),
所以预估2021年7,8两个月健身客户人均消费金额为620元.
(2)列联表如下
健身达人
非健身达人
总计
男
10
40
50
女
20
30
50
总计
30
70
100
因为K2=eq \f(100×(10×30-20×40)2,50×50×30×70)≈4.762>3.841,
所以有95%的把握认为“健身达人”与性别有关.
(3)若选择方案一,则需付款900元;
若选择方案二,设需付款X元,则X的可能取值为700,800,900,1 000,
P(X=700)=Ceq \o\al(3,3)eq \b\lc\(\rc\)(\a\vs4\al\co1(\f(1,2)))eq \s\up12(3)=eq \f(1,8),
P(X=800)=Ceq \o\al(2,3)eq
相关热词搜索: 统计 统计 案例 第2讲 统计与统计案例上一篇:XXX镇XXX年度工作总结例文
下一篇:某副县长学史崇德专题研讨会上发言