当前课程知识点:商业数据思维与实战 > 第四章 大数据时代的统计分析(上) > 4.3 统计分析方法专题Ⅰ > 4.3.4 假设检验
大家好
本讲我们主要学习假设检验
在实际应用中
仅仅了解了平均值和标准差
还不足够
例如 我们想知道产品的质量
是否就像广告中所宣称的那样
如何去检验
再比如 商品在投放广告后
消费者的平均消费金额
确实有所提高
但是否真的是因为广告投放的原因
而不是随机因素造成的
这些问题的解决
都会用到假设检验的思想
假设检验
可以说是统计学中最基础
而又最重要的思想
什么是假设检验
顾名思义
假设检验就是检验我们所做的假设
到底对不对
一般而言
我们会将总体参数没有变化
或变量之间没有关系的假设
作为原假设或零假设
用H0来表示
而与之对立的假设称之为备择假设
用H1或者是Ha来表示
例如某保险公司想知道
男性和女性在保费方面的支出
是否有差异
就可以设为H0 设为μ1-μ2=0
备择假设成μ1-μ2≠0
其中μ1 μ2分别代表男性和女性的
保险费用的总体参数
通常是将等号放在原假设上方
表示两组之间没有差别
做出假设之后如何来检验
常用的思路是
先根据收集的数据计算一个统计量
如t值 卡方值等
然后利用样本的信息来判断
原假设是否成立
依据的是统计学上的小概率事件
即小概率事件在一次试验中
是不可能发生的
如果发生了就有理由拒绝原假设
这样
与零假设对立的备择假设
就得到了支持
举个简单例子
我们把零假设为
天下所有的乌鸦都是黑的
备择假设就是
不是所有天下的乌鸦都是黑的
只要我们找到一只白乌鸦
或者是灰乌鸦
这样就可以推翻原假设了
在假设检验中还需要了解两类错误
当根据假设检验作出结论时
谁也不敢保证结论100%是正确的
任何结论都有可能会犯错误
通常 在假设检验中会犯两类错误
称之为第Ⅰ类错误和第Ⅱ类错误
何为第Ⅰ类错误
第Ⅰ类错误是原假设本身是正确的
却被拒绝了
这时候犯的错误就是第Ⅰ类错误
也叫弃真错误
被记为α错误
有时候也叫显著性水平
第Ⅱ类错误是指原假设是错误的
却没有被拒绝掉
也称为取伪错误
记为β
我们前面总是说做出统计学结论
那这些结论主要是靠什么做出的
通常有两种方法
临界值法和P值
而P值法在统计软件中常常被用到
我们将主要介绍P值法
P值是指在原假设为真的条件下
所得到的样本观察结果
或更极端结果出现的概率
被称为观察到的显著性水平
它度量的是样本所提供的证据
对原假设的支持程度
如果P值越小
说明样本数据越不支持零假设
它的决策规则是P值小于α
就拒绝原假设
在统计软件中
P值有时候用significance的缩写
“sig”来表
我们通过一个例子来解释一下
P值的含义
依然用刚开始提到的
某保险公司的例子
保险公司如果想知道
男性和女性在保费方面的支出
是否有差异
首先 要做出假设
零假设为二者没有差异
备择假设是二者有差别
为了验证假设
可以分别随机抽取各100人
计算得出男性和女性的平均保费
假定分别为8500元和8350元
两者的差值是150元
如果没有差别
二者的保费差额应该是0
那我们就需要判断
现在这个差值150元
距离0到底算不算远
如何判断
这就需要借助抽样分布了
下图是以0为中心的分布
根据中心极限定理
假定总体差值为0
如果多次抽样
每次抽样所得到的差值
应该都在0附近
如果偏离0太远
那很有可能并非来自差值为0的
这个总体
就应该拒绝掉原假设
当差值为150
假设我们经过计算检验统计量
得到右侧的面积是0.02
这就是P值
它表明
如果总体中男性和女性的
保费差额为0的话
在一次抽样中
样本出现差值是150
甚至比150还大的概率只有2%
换句话说
假设男性和女性的
保费差额为0的话
出现差值是150
甚至比150还要大的情况
不是抽样随机误差造成的
而是真的由于性别的原因
造成这么大的差异
知道P小于α就拒绝原假设
α取多大合适
一般习惯用0.05作为判断的标准
当然 根据实际情况
也可以将α设定为0.1或0.01
或其他的值
关于P值有很多的争议
但目前 在很多研究中
仍然以P值作为检验统计显著性的
标准
我们总结一下假设检验的步骤
第一步 设立原假设和备择假设
一般来说
把怀疑的或想推翻的观点
放在原假设上方
而把想予支持的观点
放在备择假设上方
第二步 就是计算检验统计量
不同的假设检验
使用不同的检验统计量
常见的检验及其检验统计量
包括Z检验 T检验
方差分析和卡方检验
其所对应的检验统计量
也分别是Z计量 T统计量
F统计量和卡方统计量
第三步
我们就可以根据检验统计量
来计算P值并做出决策
如果P小于指定的显著性水平α
则拒绝原假设
如果P大于显著性水平α
则表明没有足够的证据拒绝原假设
拒绝原假设又被称之为该检验显著
在很多学术报告和商业报告中
经常提到统计显著
就是指原假设被拒绝了
本讲我们学习了
假设检验的相关知识
下一讲我们将学习卡方检验
谢谢大家
-1.1 数字和数字的产生
--测验1
-1.2 信息、信息技术和信息经济
--测验2
-1.3 数字经济及其特征、发展趋势
--测验3
-1.4 数据伦理
--测验4
-单元测验
-2.1 数据与数据思维
--2.1测验
-2.2 大数据时代的数据思维
--2.2测验
-单元测验
-3.1 大数据时代的商业模式变革
--3.1 测试
-3.2商业数据思维案例分析
-单元测试
-4.1 大数据时代下的统计分析
--4.1 测试
-4.2 数据分析基础
-4.3 统计分析方法专题Ⅰ
--4.3 测试
-单元测试
-5.1 统计分析方法专题Ⅱ
--5.1 测试
-5.2 文本分析
--评论语料
--5.2 测试
-结合从网络中已爬取的商业数据,讨论如何对其中的文本数据进行分析?
-单元测试
-6.1 商业选题
--6.1 测试
-6.2 数据提取
--6.2 测试
-单元测试
-7.1 数据预处理
--7.1 测试
-7.2 数据分析与挖掘
--7.2 测试
-基于对研究数据的预处理结果,讨论如何对其进行进一步的分析与挖掘?
-单元测试
-8.1 数据可视化
--8.1 测试
-8.2 报告撰写
--8.2 测试
-基于对数据不同阶段的处理结果,讨论如何对其进行可视化展示?
-单元测试
-期末考试