统计推断课件x
第 4 章 统计推断
4.1 样本与抽样分布。
1)总体与样本。
总体:调查对象的全体叫总体。
样本:由总体中抽出的若干个体组成的集合叫样本。
x = 1
n
和样本方差: S 2 =
统计量:样本的函数叫统计量。例如样本均值:
i 1 xi
1
n
n
( xi x) 2 都是统计量。
i 1
n
1
( 2)抽样分布。
① 抽样的基本概念。前面介绍收集数据的方式有二种:
优点:对每一个个体都进行观测。
全面调查(普查)
要花费大量的时间, 人力,物力,财力。
缺点: 对无限总体无法作普查。
容易出现观测误差。
节省资金、节省时间、精确度高。
优点:
抽样调查 对于只有用破坏性实验才能取得数据的总体只能采用抽样调查。
缺点:有抽样误差。
② 样本的二重性: ( 1)样本特征在某种程度上反映了总体特征。
( 2)又不能完全精确地反映总体特征。
③ 实际中要解决二个问题 :抽样方法。怎样抽(包括方式和容量)才能更合理地反映总体。统计推断。怎样用样本对总体做出科学的推断。
随机数表
28
于有限 体: (1) n 个随机 量与 体 X 有相同的概率分布。 (2) 它 是相互独立的
( 每个个体都 行独立 察) 。
(3) 要保 有限 体中每个可能的 本 合都有相等的概
率被抽中。
种抽 方法称作 随机抽 。 如此得到的 本, 称 随机 本, 称 本。
践中怎 保 得到 随机 本呢?只要 本容量
n 与 体容量 N 的比 n
0.05,
N
先建立抽 框,利用抽 或随机数表 抽取
n 个个体就可近似看作 一个 随机
本。
随机抽 分有放回抽 ,和无放回抽 。
但一般采取无放回抽 。
种抽 的特点
是每个个体被抽中的概率是不同的,但每个 本作 随机 量的 合被抽中的概率是相同
的。
于无限 体:常采用 的方式 得 本。
( 3) 本平均数 x 的抽 分布
① 设 (x1, x2, ? x, n) 是 体 x N ( ,
1
n
2 ) 的随机 本, x =
xi
,
n i 1
2
x
x
N( ,),U =
N(0, 1)
/
n
n
n ∞, x
, 本容量越大,
x 离
越近。
② 当 x 不服从正 分布 ,在
n
30 条件下,依据中心极限定理可 ,
2
x
x 近服从正 分布 N( ,
), U =
近服从 N (0, 1)
n
/ n
从 中看也是 。例如有 8042 票面 的分 数表 示 体是非正 、右
偏倚的(文件名: stat06), = 20, = 30( 4.1)。以 本容量 n =3,n = 10,n = 100
29
各抽取 600 次,得到关于的三个频数分布,见图 4.2。随着样本容量的增大,的分布越来越接近正态分布。
图 4.1 发票面额的分组频数表 ( = 20, = 30) 图 4.2 n=3, n=10, n=100 的抽样分布( x =30.3 )
( 4) t 分布
t 分布密度曲线见图 4.3。t 分布以纵轴对称,也呈钟形。当 n 为有限值时, t 分布的峰
值小于正态分布的峰值,而尾部要比正态分布的厚,即 t 分布呈低峰厚尾特征。当 t ,t
分布趋近于标准正态分布。 实际中,当 n > 30,t 分布就很近似于标准正态分布。
分布的均值和方差分别为
E(t(n) ) = 0 , Var(t( n) ) = n / (n -2), n > 2
0.4
N(0,1)
0.3
0.2
0.1
t(5)
-4 -2 2 4
4.3 t 分布密度曲线
5)样本平均数 x 的分布。
x
t = t(n –1)
s / n
如果 x 减均值除以 x 的样本标准差,则统计量服从 ( n –1)个自由度的 t 分布。当 t 分布的自由度在 30 以上时, t 分布已经很接近标准正态分布。
学习查 t 分布表。
t0.95(30) = 1.70
( 6)F 分布
30
2
F(100,100)
1.5
1
F(2,8)
0.5
F(10,10)
0.5
1
1.5
2
2.5
3
图 4.4
F 分布密度曲线
服从 F 分布的密度曲线见图
4.4。F 分布密度曲线是单峰的,右偏倚的。随着自由度n1
n2 的加大, F 分布的众数趋近于 1。
F 分布的分布密度曲线随二个自由度的不同而不同。
学习查 F 分布表。
F 0.05 (5, 30) = 2.16 。
样本比率 p 的抽样分布
设容量为 N 的总体中,具有某种性质的元素数为
X 个,则关于具有这种性质的元素数
的总体比率是
p = X
N
若从该总体中抽取容量为
n 的样本,具有该种性质的元素数为
x,则关于该种元素的样
本比率是
x
=
n
E() =
1
1
n p = p
E(x) =
n
n
1
1
p(1 p)
Var() =
n2
Var (x) = n2 np(1 p) =
n
对于大样本( n p
5, n (1- p)
5),依据中心极限定理近似有如下关系成立。
p(1
p)
N( p,
)
n
或
p E ( p)
p
p
=
p(1
N(0, 1)
Var ( p)
p)
n
4.2 参数估计
举几个实际例子。
( 1)某市的失业率是多少?( 2)每年的偷税漏税额占总税额多少?
3)商场经理要推断每天的平均销售额。
( 4)电力公司要推断每天的用电量在何范围变动。
5)铁道部要推断每天,特别是假日的平均旅客流量。( 6)生产线上要估计不合格品的概
率是多少。( 7)居民食品支出占总生活支出的比率是多少?
通常我们知道某个随机变量服从某种特定的概率分布或者愿意假定某个随机变量服从某种特定的概率分布,但是却不知道分布的参数。比如,知道某个随机变量服从正态分布,
但不知道参数 和 2 。这时常常需要根据样本对总体的某种特征做出推断。 这就是参数估计
31
问题。
当总体参数未知时, 常需要用样本参数去估计, 这就是参数估计问题。 参数估计可分为
两大类,( 1)点估计,( 2)区间估计。当用一个样本估计量 ?去估计总体参数 ,这就是点
估计问题。
( 1)点估计
特征数法:因 x 是 , S2 是 2, r 是 的无偏、一致估计量;所以经常用
样本均值: x =
1
n
i 1 xi
估计
,
n
样本方差: S 2 =
1
n
( xi
x) 2 估计
2。
i
1
n
1
2)区间估计
① 区间估计原理
用点估计方法估计总体参数, 即使是无偏、 有效估计量也会由于样本的随机性,使从样
本中求出的估计量,不等于被估计量(总体参数) 。退一步讲,即便偶然 ? = ,因为不知
到参数真值为多少,所以很难验证这种相等。
人们在得到点估计值的同时, 自然希望知道 ? 与 到底相差多少?这就引出了区间估
计问题。即希望对 的取值估计出一个范围,并希望知道 落入这个范围的可靠程度。即
P{
?1
?2}= 1-
其中 [ ?1 ?2
] 是置信区间;
?2
,
?1
是置信区间上、 下限; 1-
是置信度、 置信系数;
是
,
估计不准的概率,通常取
= 0.05,或 0.01。
看上式可知,要想求出被估计量的置信区间,
(1)必须找到一个含有被估参数
的合
适统计量,(
2)并知其概率分布。
② 总体均值
的区间估计
条件:(
1)大样本 (n
50),总体分布不限。
( 2)小样本,正态分布总体,
2 已知。
上述任何一种条件下都有
P{ U
u }= P{
x
u1- /2 } = 1-
/ n
其中 u 表示正态分布临界值,
1-
表示置信度。置信区间图示如下。
4.5
把上式大括号内不等式展开
32
- u
x
u
/ n
- u
x -
u
n
n
- u
x + u
n
n
所以
的置信区间是
[ x - u,
x + u
] 。
(以 x 为中心,以 u
为半径。)
n
n
n
x
80
60
40
20
0
45 50 55 60 65 70 75 80
图 4.6 区间估计示意图
注意:
( 1)u 只表示临界值的符号, 它的取值根据不同的临界值表, 查法不同。
( 2) 的置信区间( 4.1)和 U 的置信区间在 [- u ,u ] 是等价的。为什么置信区间取在
正态分布的中心部位, 且两侧又对称呢?因为越靠近平均值 x ,(或 U = 0)概率密度就越大,
即 落入中心区间的可能最大。所以置信区间取在中心部位。在置信度相同前提下,只有
在置信限对称的时候,置信区间才最小,即精度最高。所以置信限以 x (或 U = 0)对称。
( 3)从置信区间公式可以看出,①置信度( 1- ) ,u ,置信区间越宽。② 样本容
n ,置信区间越窄。说明精度高。通常在保证高置信度的条件下,希望置信区间越窄越好。方法是加大样本容量。
( 4)一次抽样所求置信区间有( 1- )的把握把 包括在内,换句话说,若抽样 100
次,则平均有 100(1- )次的估计区间中包括 。
例 1:从北京统一饮品有限公司鲜橙多生产线上随机抽取 100 瓶橙汁饮料,测得 x =
499.88,S2 = 1.03 。试估计鲜橙多生产线上瓶装饮料净重平均值的置信区间 ( = 0.05 )。
33
解:因 n= 100 是大样本, x 近似服从正态分布。
u
S
1.03
= 499.88 1.96
= 499.88 0.20 = 500.08, 499.68
n
100
答:置信区间是 [499.68 , 500.08 ] 。
例 2:某银行分理处随机抽取 1000 个活期储户的账面余额值,得 x = 4929.02, S =
2944.06。试估计该某银行分理处活期存款平均值的置信区间( = 0.05 )。
u
S
2944.062
= 4929.02 1.96
= 4929.02 93.10 = 5022.12, 4835.92
n
1000
答:置信区间是
[4835.92 , 5022.12] 。
③ 总体均值
的区间估计
条件:正态分布、小样本,
未知
选用统计量 t =
x
t
(n –1) 。给定
后,置信区间为
)
s/ n
[ x - t
,( n –1)
S , x + t ,(n –1)
S
]
n
n
注意: t 分布的自由度是(
n-1),因公式中用到
x ,从而损失一个自由度。
例 3: 从西红柿酱包装线上, 随机抽取 5 瓶作为样本, 测得每瓶净重为 23.0,23.5,23.5,
25.0,24.5。过去资料表明,每瓶西红柿酱净重是正态分布的,当置信度为 0.95 时,求生产
线上每袋西红柿酱平均净重的置信区间。
解:因 n = 5 小样本, 净重 X N( , 2), 2 未知。故应该用小样本公式,
x = 23.0
23.5
23.5 25.0 24.5 = 23.9
5
S2 = (0.822) 2
t , n-1 = t0.05, 4 = 2.776
x t0.05, (5-1)
S
2.776
0.822
和 24.92。
= 23.9
= 23.9 1.02 = 22.88
n
5
答:平均净重的置信区间是
[22.88 , 24.92]。
④ 为保证估计精度,样本容量的选择。
实际中经常会提出这样的问题, 为保证估计精度在一定范围之内,
抽样的样本容量最低
应不小于多少?以
的置信区间为例,当
已知时,公式
[ x - u
n
, x + u
]
x
h
n
是一个以 x 为中心,以 u 为半径的区间。能以 1- 置信度保证 在这个范围里。
n
34
通过 u 可知当置信度( 1- )增大, u 增大,区间长度增大(精度降低) 。当样
n
本容量 n 增大, u 缩小,区间长度缩小(精度提高) 。可见追求置信度和精度是矛盾的。
n
置信度增大(减小) ,精度降低(提高) 。通常作法是,在控制一定的置信度条件下,用加大
n 的办法提高精度。由于 n 的加大会直接导致人力、物力、财力的支出加大,所以实际工作
中只取满足精度的尽可能小的样本容量即可。这里称置信区间半径 h = u 为允许误差
n
限,整理之后得
n =
(u
) 2
h 2
这就是在精度 h 已知条件下, 样本容量的最低允许值。
当
未知时, 常用以往资料中的标准
差代替,若没有以往资料则抽样求
S2 去代替
2 值。
例 4:某地区有
40 000 农户,想通过抽样方法了解一下,
每户农民春小麦的平均播种面
积,从历史资料看
=
8.5 亩比较合适。若给定( 1-
) = 0.95,若设定估计平均播种面
积与真值的允许误差不超出
0.5 亩,求抽样时样本容量应选多大?
解: n =( u
) 2 =( 1.96
8.5 )2 = 33.32 2 = 1 111
h
0.5
答:样本容量不应小于
1 111 户(实际为
1110.2 户)。
注意 :只要 n 为小数时,应进位取整数。
例 5:某银行想调查活期储户的月平均取款额,已知储户月取款额的标准差为
800 元。
给定( 1-
)= 0.95 ,若设定估计误差不超出
50 元,求抽样时样本容量应选多大?
解: n =( u
) 2
=( 1.96
800
) 2
= 33.32 2 = 984
h
50
答:样本容量不应小于
984 户(实际为
1110.2 户)。
4.3 假设检验
( 1)假设检验的基本思想与方法
统计推断中, 除参数估计外还有一类问题, 是假设检验。
假设检验指利用样本提供的信息,判断总体是否具有某种指定的特点。
在经济、 生产、社会活动中常常碰到这方面的问题,如粮站对粮仓中的储粮含水量的监测, 商检局对到货质量的检验, 工厂对产品质量的控制等,所以要进行这方面的研究。
例:某厂生产的金属垫片,直径尺寸 X N( 200,42)( mm ),采取新工艺后其平均直径为 202.5mm,那么改革工艺前后产品直径平均尺寸有无明显变化?
例:泰胃美生产线上规定每片药净重 400mg,标准差为 4mg 今连续检查 20 片,平均片重为 395.4mg ,问片重是否已偏离了额定净重值?
假设检验:根据样本信息判断总体分布是否具有指定特征,这个过程叫假设检验。
假设检验在统计上是怎样完成的呢?它基本上遵循一种 “反证法 ”思想。
35
看会得出
什么结果 合理结果 原假设成立
先假定假设成立
依据某种 不合理结果 原假设不成立
判别准则
如假定某产品次品率为 4%,今抽查 10 件,发现有 4 件次品,问次品率为 4%是否可信?
对于这个例子,大家都会认为 4%次品率不可信。怎样得出结论的呢?
10 件中有 4 件 不合理结果 原假设不成立
次品的概率
4%次品
小概率原理
率正确
= C1040.044
0.96
6
= 0.00004
合理结果
这个判断过程需要二个前提, ( 1)知随机变量概率分布 (适当选取统计量) ( 2)依据 “小概率原理 ”
小概率原理:概率很小的随机事件,在一次试验中几乎不可能发生。
小概率原理在生活中普遍应用。
如火车运行中相撞的概率很小。
在偶然一次乘火车的情
况下,可以认为火车出事的事件不会发生。
那么小到什么程度算是小概率事件呢?通常取概率小于
0.05
或 0.01 的事件,即 = 0.05
或
0.01。在假设检验中,称作检验水平, 1-
称置信水平或置信度,以连续变量为例,
当给定
值时,接受域、拒绝域、临界值概念用图
4.4 表示。
假设有 2 种。(1) 原假设或零假设: 所要检验的假设, 用 H0
表示(如次品率 p = 0.04 )。
(2)
备择假设:与原假设相反的假设,用
H1 表示( p
0.04)。
HO 与 H1 要对立且完备。
图 4.7 双侧(端,尾)假设检验
假设检验分类: ( 1)双侧(端,尾)假设检验(图 4.4 为双侧检验);( 2)单侧(端,
尾)假设检验。
36
图 4.8 左单端检验 图 4.9 右单端检验
两类错误:既然假设检验是依据样本作判断, 由部分去推断全体, 且对结论并没有 100% 把握,所以检验结果不可能绝对正确,也有可能会犯错误。错误分两类:
1.弃真错误(
)(第 I 类错误),
P
= P{
} =
(弃真)
拒绝 Ho|Ho 真实
2.取伪错误(
)(第 II 类错误),
P(取伪 ) = P{ 接受 HO|HO 不真实 } =
H 0
H1
= 1
= 2
A
图 4.10 两类错误
常用统计量有
x
N (0, 1)
U =
/
n
X
t (n)
t =
S /
n
U 检验
检验(双端)步骤如下:
1.
建立假设 H : =
, H
:
0
0
0
1
2.
X
,在 H0 成立条件下有 U = X
0
N(0,1) 。
选用统计量 U =
/
n
/
n
根据给定,确定临界值 u 。
4. 建立判别规则,若 U u ,接受 H 0,若 U u ,拒绝 H0
5. 利用样本计算 U
值,并根据判别规则做出结论。
注意 :当结论是接受
H0 时,并不是积极地认为 H 0
正确,而是认为结论与
H0 无显著性
差异,依据现有样本还不足以推翻H0。
例 6:从历史资料看, 某百货店中顾客每次购物的平均花费是
12.3 元。由于物价的上涨,
该店经理关心的是顾客每次购物的平均花费是否比以前有所降低。
为此他随机地抽取了一个
n = 400 的样本。
求得 x = 11.9,s = 7.2,若给定检验水平
= 0.025,试检验顾客每次购物的
平均花费是否比以前有所降低。
解:建立假设: H0: = 12.3 (大样本,关于 的检验)
H1: 12.3
因是大样本( n = 400)所以可
S 直接代替
,
= S = 7.2,
故选用统计量
X
0
N(0, 1)
U =
n
S /
37
11.9 12.3
利用样本计算 U* = = - 1.11
因是左单端检验,临界值是 u = - 1.96
U* = -1.11 - 1.96
所以,接受 H0,即认为物价上涨后顾客每次购物的平均花费值并没有发生变化。
4.11
(3) t 检验
t 检验步骤:
1.建立假设 H0:
= 0, H1:0
X
。
H
0 成立条件下, t
–
。
2.选用统计量 t =
n
t( n 1)
S /
3.按 求临界值 t ( n –1),。
4.判别规则,若t
t
,( n
–1)
接受 H ,若 t
t
,( n –1)
,拒绝 H 。
0
0
5.用样本计算 t。给出结论。
4.12 t 检验(双侧)
7:在某地区随机调查了 16 个家庭,得家庭年消费牛奶数量(斤)数据为
159, 280, 101, 212, 224, 379, 179, 264, 222, 362, 168, 250, 149, 260, 485, 170,
已知家庭年牛奶消费量服从正态分布。 试检验该地区家庭的牛奶年平均消费数量是否为 225
斤(取 = 0.05 )?
解:按题意,为双端检验问题。因为 2 未知,应该用 t 统计量做假设检验。建立假设
38
H :
= 225 ,H :
225
0
1
用样本计算,
X = 241.5, S= 98.7 。在 H0 成立条件下,
X
X
225
t( 16 - 1)
t =
=
S /
n 98.7 / 16
判别规则是
若 t
t0.05, ( 15) = 2.13 ,接受 H0;若 t
t 0.05,( 15)= 2.13 ,拒绝 H 0。
用样本计算,
X
225
241.5
225
t =
=
98.7 /
= 0.67 < 2.13
98.7 / 16
16
所以,接受 H 0
,即认为
= 225。
t(15)
4.13
注意:( 1)根据题意决定是单侧还是双侧检验。 ( 2)学会查临界值表。
附录: t 检验的 EViews 操作( file:bank07 )。打开数据( X )窗口,
点击 View 键,选 Tests for Descriptive Stats, Simple Hypothesis Tests 功能。
39
在弹出的对话框的 Mean 处键入 225。
总结:
单总体均值
的检验见下表。
样本
已知条件与统计量
双端
左单端
右单端
条件:
2 已知
H0 :
= 0 ,
H 0: =
0,
H0 :
统计量: Z =
x
0
=
0
/
n
N(0, 1)
大样本
条件:
2 未知 ,
统计量: Z =
x
0
H1 :
0,
H1 :
0 ,
H 1:
s/
n
N(0, 1)
0
条件:
2 已知 ,
统计量: Z =
x
0
N(0, 1)
/ n
H1 :
0,
H1 :
0 ,
H 1:
小样本
临界值(检验水平为
):
u
u
u
40
条件: 2 未知 , H0 : = 0 , H0: = 0, H0 :
统计量: t = x 0 t(n –1) = 0
s/ n H1 : 0, H 1: 0, H1:
0
t , (n-1) t , (n-1) t , (n-1)
( 4)二正态总体均值差异的显著性检验
二正态总体均值差异性检验很有实际意义。 如有二组试验田, 通过施用二种不同的化肥,
观察哪种肥料对增加产量更有效。 两地区人均收入有无明显不同。 从统计学上看, 即是考察
二个总体的均值(平均产量)是否存在显著性差异。
又如,纺织工业中, 纤维的抗拉强度是一个重要指标, 当在不同温度下, 作着色处理后,
常需检验, 二种不同工作温度是否对纤维的平均抗拉强度产生影响, 或辨别不同温度下的平
均缩水率是否发生了变化。
统计上把二组观测值认为是分别取自两个总体, X, Y。经计算可求出二个样本平均数
x, y 。一般来讲这二个值是有差异的, 这种差异的产生有二种可能: (1) 该二总体相同, x, y
的不同是由于抽样的随机性所致。 (2) 该二总体是不同的,致使 x , y 有显著差异。这是本质
上的不同。显著性检验就是从统计推断角度给出严格结论。
一般给出:
N( 1, 12)
N( 2, 22)
则它们各自的样本平均数也服从正态分布:
N( 1,
2
1 /n1)
N( 2,
22/n2)
其中: n1, n2 分别是两个样本的容量。因
x , y 可以看成是随机变量,所以
( x - y )也可看成是
随机变量。因
E(
x
- y ) = E(
x
)- E( y ) =
1
2
-
Var( x- y ) = Var ( x ) + Var ( y ) =
12
1
+
22
2
/n
/n
所以 ( x - y ) N (E( x
y ),D( x
y )),N[(
1 -
2),(
12 /n1 + 22/n2)] 把( x y )标准化,有
(x
y)
( 12 )
U =
2
N (0 , 1)
2
1
2
n1
n2
当
12, 22 未知时,若是大样本,则可用
S12, S22
直接代替
1 2, 22。统计量仍服从正
态分布。当两总体
2 未知,但知 1
2 =
22 时,且小样本条件下,统计量的选择见下表。
各种条件下对统计量的选择见下表:
总结:
2
2
未知
2
2
已知
1
, 2
1 ,
2
大样本
x y ( 12 )
x y ( 1
2 )
(n1
50, n2
50)
U =
U =
2
2
2
2
S1 / n1
S2 / n2
1 / n1
2 / n2
41
若知 12 =
22
x
y
(
1
2 )
t =
小样本
x
y (
1
2 )
U =
2
2
/ n2
(n 1 50, n2
50)
2
2
1 / n1
2
(n1 1) S1
(n 2
1)S2
.(
1
1
)
n1
n2 2
n1
n2
2
2
(n
1
1)S 2
(n
2
1)S
2
2
小样本,
=
t 表达式中的
1
是二样本
1
2 ,但数值未知条件下的
n1
n2
2
方差的加权平均值与
1
1
相乘组成了( x
y )的样本方差, S2( x y )。
n1
n 2
注意:表中统计量中方差的估计成为稳健估计。
因为上表中对方差的估计都是以
12 = 22
为前提的。但是当
1
2
2 时,只要 n
2
1 n 2,就能得到较好的估计结果。
检验步骤:
1 建立假设 H0: 1 = 2
2.根据已知条件从上表中选取相应的统计量 t 或 u,并用样本计算 t 或 u 值。
3.根据所选用的统计量和
,相应确定临界值
u 或 t , (n n
2
2 ) 。
1
4.制定判别规则并判别之。
例 8:国家统计调查队在二个地区分别调查了
200 和 250
个体户家庭结果如下:
样本容量
年收入均值(元)
年收入标准差(元)
n1 = 200
X = 15530
S1= 5160
n2 = 250
Y =16910
S2= 5840
给定置信度为
0.95 ,检验二地区个体户的平均收入有无显著性差异?
= 0.05。
解:因是大样本,故有
S1 = 1, S2 =
2 成立,可选用统计量
X
Y
U =
2
2
S1
S2
n1
n2
建立假设:(双端检验)
H0: 1 -
2= 0, H 1: 1 -
2 0
利用样本计算:
U* =
15530
16190
= - 2.658
51602
58402
200
250
= - 1.96,
U* 1.96,所以拒绝 H0,即两地区的个体户年平均收入值有显著性差异。
42
附录:两总体均值差的显著性检验的 EViews 操作( file:Hypo03 )。
国家统计调查队分别在二个地区调查了 200 个家庭得关于收入 (元)的数据如下:
给定置信度为 0.95 ,检验二地区家庭的平均收入有无显著性差异?
View 选 Descriptive Stats, Individual Samples 。察看数据的基本特征数。
整理得下表,
样本容量
年收入均值(元)
年收入标准差(元)
n1 = 200
X = 15438.09
S1 = 5331.95
n2 = 200
Y =16411.20
S2 = 5475.44
进行显著性检验。
从 View 选 Tests of Equality 。右下图,Test Equality of 中的缺省选择是
Mean,
即做两总体均值的显著性检验(还可以做两总体方差、中位数的显著性检验)
。因为这里只
有两组数据,实际上也是均值单因素方差分析退化成两总体均值的显著性检验。结果如下。
43
( 5)单个总体比率的假设检验
( Statistical test on population proportion
)(大样本)
用 p0
表示总体比率, n 表示样本容量,则作单个总体比率假设检验的前提是
n p0
5,
n(1- p0)
5,设 p 表示样本比率,则
p
0
p0 (1 p0 )
N (p ,
n
)
选用统计量如前
p
p0
N (0, 1)
U =
p0 (1 p0 )
n
H 0: p = p0 ,
H 1: p
p0, 若 U
u ,拒绝 H0
H
: p = p ,
H : p > p
0
, 若 U
u ,拒绝 H
0
0
0
1
44
H
: p = p ,
H : p < p
,
若 U u ,拒绝 H
0
0
0
1
0
例 9:某市工商银行
2002 年调查结果显示存折附卡户占总储户的比率为
0.12。
2004 年
随机抽取 n=500 储户的样本,得样本比率为
0.15。试检验
2004 年与 2002 年相比,存折附
卡储户的比率是否有了明显提高(
= 0.05 )。
解:( 1)因为 n p = 500
0.12 = 60
5, n (1 - p) = 500
0.88 = 440
5,所以可用正态
分布近似做检验。
H0: p = 0.12, H 1:p> 0.12 。
p
p0
,当 H0
成立时 U =
p 0.12
2. 选用统计量 U =
p0 )
N( 0, 1 )
p0 (1
0.12(1 0.12)
n
500
3. 因为是右单端检验,所以 u 0.05 = 1.645。
若 u 1.645,接受 H0。若 u 1.645,拒绝 H0 。因
0.15
0.12
=
0.03
U =
= 49.18 1.65,
0.12(1 0.12) 0.00061
500
所以结论是存折附卡储户的比率有了明显提高。
( 6)两个总体比率的假设检验(大样本)
若用 p1,p2 表示二个总体比率,
p 1 , p 2 表示相应二个样本的比率。
当 n1
30,n2
30 可
用如下统计量检验
( p1 p 2 ) ( p1
p2 )
U =
1 1
p?(1 p?)( )
p1 N(P1 , p1(1 p1 ) ) n1
p2
N(P2
, p2 (1
p2 ) )
n2
当
p1 = p2 时
( p1 - p2 ) N ((p1
1
1
- p2), p (1- p)(
) )
n1
n2
其中
p
p
p
p =
n1 p1
n2 p2 ,称为
p
的合并估计量。
p
p1 和
用 ?估计。
? 的计算公式是 ?
? 是
n1
n2
p2 的加权平均。
H : p - p = 0 , H : p - p
0,若 U
u
,接受 H
。
0
1
2
1
1
2
1
H0: p1- p2 = 0 , H1: p1- p2
0,若 U
u , 接受 H1 。
H : p - p = 0 , H : p - p
0,若 U
-u , 接受 H
。
0
1
2
1
1
2
1
例 10:工商银行从两地区分别抽取
95 和 79 笔贷款,数据如下,
地区 贷款( n)笔数 正常贷款数 不良贷款数( xi ) p
45
1
95
90
5
0.053
2
79
75
4
0.051
试检验两地区不良贷款数有无显著性差异(
= 0.05)。因两个样本容量都大于
30,故
可做 U 检验。
H0: p1 –p2 = 0, H :p1 – p2
0,在 H 0 成立的条件下
U = ( p1
?
?
1
1
)
N( 0, 1)
p2 ) / p(1
p)(
n1
n2
用样本值求 U ,
?
n1 p1
n2 p2
95
0.053
79
0.051
9
0.052
p
n1
n2
=
95
79
=
174
U =
0.053
0.051
=
0.002
1
1
= 0.059
0.052(1
0.052)(
)
0.0338
95
79
u
= 1.96
因为用样本计算的
U
u
= 1.96 ,所以接受 H 0,即两地区不良贷款比率无明显差异。
46
相关热词搜索: 统计 推断 课件 统计 统计推断课件x上一篇:创业组织计划书_财务预测分析报告
下一篇:【现场组织管理机构 x】