当前课程知识点:商业数据思维与实战 > 第四章 大数据时代的统计分析(上) > 4.3 统计分析方法专题Ⅰ > 4.3.5 卡方检验
大家好
本讲我们将主要学习卡方检验
卡方检验主要用于分类数据的分析
分类数据我们在前面已经讲过
它是对事物进行分类的结果
例如 性别 学历 职称 地区
产品类别等等
对分类数据进行汇总时
常常是以频数的方式来表现
我们在学习描述统计时
用到了电商数据
其中大区 产品大类 是否退回
用户类型 客户性别等等
这些都是分类数据
如果想分析不同大区与客户类型
这两个变量是否存在联系
即检验不同大区的客户类型
是否存在差别
就可以用卡方检验来进行实现
首先 我们先来看一下
不同的大区与客户类型的
交叉分析表
大家可以从表中可以看到
由于行数列数较多
我们无法直接判断出
大区和客户类型是否独立
即不同大区的客户类型比例
是否都是相等的
接下来 我们就可以考虑
用卡方检验来进行分析
按照假设检验的步骤
第一步 首先要提出假设问题
我们将原假设设为
大区与客户类型之间是独立的
即二者之间不存在关联
备择假设设为大区与客户类型之间
是不独立的
即存在关联
根据假设检验的步骤
接下来 我们就要计算检验统计量
卡方检验的统计量
可以用这个公式来进行计算
其中f0表示实际的频数
也就是我们观察到的频数
fe表示的是期望的频数
从公式中不难看出
卡方值反映了实际频数
和期望频数的差异大小
如果实际频数
与期望频数的差值越大
则卡方值越大
反之 卡方值越小
回到我们的交叉分析表
从表格中可以看到
在东北大区中
客户类型为公司的订单
实际频数是782
它对应的期望频数如何计算
可以分两步来计算
首先 将所有客户类型为公司的
订单比例计算出来
即用2877÷9250 得到31.1%
表明
如果大区之间的客户类型没有差别
每个大区的公司订单比例
就应该是31.1%
东北大区的公司订单的预期频数
就应该是东北大区所有订单数
2416×31.1%
这样就可以得到751.4
通过这样的方式
我们就可以把交叉表中
所有单元格的期望频数计算出来
表中红色数值为期望频数
有了期望频数和实际频数
我们就可以利用卡方统计量的公式
计算出具体的卡方统计值
进一步根据卡方统计值
又可以计算出相应的P值
如果P值
小于指定的显著性水平0.05
则拒绝原假设
表明两个变量是不独立的
或者说两个变量之间
存在着依赖关系
接下来
我们利用常用的统计软件SPSS
实现卡方检验
并对结果进行解读
大家好
我们今天学习如何利用SPSS
进行卡方检验
这是我们的电商数据
大家可以看一下数据的情况
有订单 订单日期 大区
等等这样的信息
因为SPSS在录入的时候
很多的情况是需要代码进行录入的
所以大家看到我们的产品大类
虽然我们说产品是ABC
还有我们的这个客户的类型
我们说有
小型企业消费者公司这样的
所以它是以代码的形式出现的
我们可以在变量视图这块
可以在值标签
我们可以看到具体的一些情况
例如1是东北 华北 华东等等
这样的代码取值
如果大家看代码取值不方便的话
我们可以用这样的一个快捷方式
显示出来我们具体的信息
那现在我们想了解一下不同的大区
在客户类型方面是不是彼此有关联
我们就要用到我们的卡方检验
那首先第一步我们先看一下
它的频数分布的情况
大家可以点击分析 描述统计
在这里面有一个叫交叉表
我们可以点击交叉表
我们可以把大区选在行
把客户类型选择列
这样的话
我们就可以生成这样一个
交叉频数分布表
通过这个表
其实我们看不出来具体的大区
和客户类型之间是否有关联
因为它们的总计都是不相等的
而且都是具体的数值
所以 我们在这里
只能看到一些频数分布
如果我们想检验一下
不同的大区之间
它们的客户类型是否有差异
这就需要用到我们的卡方检验
那卡方检验
在我们的交叉分析表里面
是有选项的
大家依然可以点击分析
点击描述统计 点击交叉表
在交叉表的右半部分
我们可以看到有这些选项
我们点击统计 点选卡方
这样的话 它就可以进行卡方检验
我们来看一下结果
交叉分析表在上面
下方就是我们的卡方检验结果
大家可以从卡方检验的这个结果
就可以看到相关的一些信息
我把它放在PPT里头
以方便大家来观察
那这是我们的卡方检验结果
大家可以通过第1行的数据
就可以看到我们的检验结果
值是代表卡方统计量的值
也就是我们在前面讲过的
卡方统计量值
这是它的自由度
自由度就是行数减1乘以列数减1
那我们在这里头表格是
3×6这样一个表格
所以自由度是行数减1乘以列数减1
就为10
这个渐进显著性水平也就是P值
我们可以看到P值是0.019
我们通过P小于α
就拒绝原假设这个规则来进行决策
现在P值是0.019
它小于
我们通常认为的显著性水平0.05
所以我们可以拒绝掉原假设
也就说明 不同的大区之间
客户类型是有明显差异的
大家通过表里面也可以看到
下方还有一些指标
例如似然比
它其实也是一个卡方统计量
在大样本情况下
因为我们这个样本一共有9250条
这样的数据
通过这样的大样本
皮尔逊卡方和似然比的卡方统计量
其实他们的结果是差不多的
所以只需要看皮尔逊卡方检验结果
就可以了
大家也可以关注
我们这个卡方检验下方的注释
表示0个单元的期望计数小于5
通常你在用皮尔逊卡方统计量时候
这个条件是需要满足的
就是0个单元格的期望计数小于5
它是有比例的 不能超过20%
这样的话
我们就可以得出卡方统计量表明
不同的大区客户类型是有差别的
但现在的问题是
当我们知道有差别的时候
我们特别想了解一下不同的大区
到底是哪个大区 是有差别的
那通过我们的这个结果
我们是无法直接判断出来的
我们知道有差别
但是具体差别是
哪个地区和哪个地区有差别
是看不出来的
通过交叉表我们也无法看出
因为它这边是总计
总计显示的数都是不一样的
那可能会想
那我要计算一下它的行的百分比
是不是就可以更明显的看出来
所以
在我们的交叉表进行选项的时候
我们可以点击单元格
让它不要出现这个观测数
我们可以直接统计行百分比
这样的话
我们可以更清晰的看出
每一个不同客户类型
它在不同地区
它的占比情况是什么样的
这是我们生成的结果
大家可以看我们交叉表
现在就是百分比的形式
通过百分比就可以看出
他们的这个占比的不同
那这是我们实际的占比31.1%
17.8% 51.1%
相当于我们在前面讲的一个
期望的这个比例
那现在通过这样的行数
和不同的百分比进行对比
我们可以大体上看出来
谁和谁是有差别的
但是我们这样的表格的数据
也比较多
大家可以看到列数是3条
行数是6条
我们需要这样的一个一个数
去跟31.1%去比
来进行进一步的判断
它们之间的大小的差别是否
有很大的差别
那这时候
也是有一定主观性的
通过什么样的方式
再进一步的可以明确的判断
不同地区之间的客户类型有差别
我们可以用另外一个指标
叫标准的调整化的参数
大家可以看到
在我们的选项里面依然还是交叉表
在单元格里面
大家可以看到有个调整后的
标准化残差
我们可以通过这个指标来进行判断
它们彼此之间差异
具体体现在哪些地区
大家可能看到这个表
又增加了一行叫调整后残差
有这样的数据
那这个数据我们怎么来进行看
因为讲到调整后的标准化残差
我们需要知道正态分布的一些特点
这是正态分布的示意图
正态分布的均值是μ
方差是б平方
它是一个对称分布
当置信水平是95%的时候
表明有95%的数据会落在
μ±2б的标准差范围之内
那还有5%的数据会落在
两边这样的区域里面
那这个区域我们称之为拒绝域
调节后的标准化残差
它服从的是一个标准的正态分布
标准的正态分布表明均值是0
方差是1
这样的话 我们就可以得到
95%的置信水平下
它的置信区间就应该是-2到+2
这样一个区间
那意味着如果超过-2和+2
就意味着落在了拒绝域
所以 调整后标准化残差
它的判断标准是
当绝对数大于2的时候
说明落在了拒绝域
也就表明是有差别的
所以 回到我们的具体结果
我们可以自己来看一下
调整后的残差
就如东北地区调整后的残差
我们来看一下
它的绝对数都是小于2的
那说明 客户类型的这个比例
与总体的比例是没有差别的
东北地区的调整后的残差
也同样 它的绝对数都是小于2的
说明它与总计里面的比例
是没有差别的
华北地区 华东地区也如此
但到西北地区 我们可以看一下
西北地区调整后的残差
其中 小型企业这个订单数
它的绝对数超过2
那说明小型企业的订单数
与这个总的17.8%是有差别的
我们具体看一下
它的订单数的比例是14.9%
这个是17.8%
那我们就可以说
西北地区小型企业的订单数
是低于平均水平的
同样的道理
我们可以看西南地区
西南地区调整后的残差有两个值
它是大于2的
绝对数大于2
说明西南地区小型企业的订单数
是低于我们这个平均水平的
因为它的这个比例是12.9%
那反过来我们也可以看一下
消费者是2.1
它稍微略高于2
我们可以通过这个百分比可以看出
一个是56.1% 一个是水平是51.1%
那也说明西南地区消费者的比例
是高于这个平均水平的
通过这样的对比
我们就可以看出
东北 华北 华东地区
他们这个水平
就是客户类型的比例是没有差别的
但是到西北西南地区就有差别了
通过调整后的残差
我们可以很直观的看出
到底是哪些地区与客户类型之间
是有关联的
那总结一下卡方检验的这个步骤
第一步
我们可以先看一下交叉分析表
那交叉分析表因为不明确
我们最好做一个卡方检验
卡方检验
如果大样本情况下
我们直接可以看皮尔逊卡方检验的
后面的这个显著性水平
如果它的显著性水平大于0.05
表明没有差别
如果小于0.05表明是有差异的
两个变量之间有差异的话
我们就要具体判断一下
到底差异体现在哪里
就可以利用我们的百分比这样的
交叉表来进行判断
如果是2×2的交叉表
我们可以直接不用调整后的残差
所谓2×2交叉表是指
列数和行数都是2
我们可以直接 比较简单
可以直接进行判断
如果要是列数比较多
行数也比较多的话
建议大家
可以用调整后的残差这样一个指标
来进行判断
如果绝对数大于2
我们就可以判断是有差异的
大家也可以在课后去尝试做一下
不同的销售大区与产品大类
是否有关联
本讲我们学习了卡方检验
卡方检验是检验分类数据的
频数分布的差异
我们总结一下两个分类变量
独立性检验的步骤
第一步 提出原假设
原假设为两个分类变量之间
相互独立
备择假设为两个分类变量不独立
第二步 计算卡方统计量和P值
第三步 做出决策
如果P值小于α
α通常默认为0.05
我们则拒绝原假设
说明两个分类变量不独立
相互是有关联的
本讲的知识点我们就学习到这儿
谢谢大家
-1.1 数字和数字的产生
--测验1
-1.2 信息、信息技术和信息经济
--测验2
-1.3 数字经济及其特征、发展趋势
--测验3
-1.4 数据伦理
--测验4
-单元测验
-2.1 数据与数据思维
--2.1测验
-2.2 大数据时代的数据思维
--2.2测验
-单元测验
-3.1 大数据时代的商业模式变革
--3.1 测试
-3.2商业数据思维案例分析
-单元测试
-4.1 大数据时代下的统计分析
--4.1 测试
-4.2 数据分析基础
-4.3 统计分析方法专题Ⅰ
--4.3 测试
-单元测试
-5.1 统计分析方法专题Ⅱ
--5.1 测试
-5.2 文本分析
--评论语料
--5.2 测试
-结合从网络中已爬取的商业数据,讨论如何对其中的文本数据进行分析?
-单元测试
-6.1 商业选题
--6.1 测试
-6.2 数据提取
--6.2 测试
-单元测试
-7.1 数据预处理
--7.1 测试
-7.2 数据分析与挖掘
--7.2 测试
-基于对研究数据的预处理结果,讨论如何对其进行进一步的分析与挖掘?
-单元测试
-8.1 数据可视化
--8.1 测试
-8.2 报告撰写
--8.2 测试
-基于对数据不同阶段的处理结果,讨论如何对其进行可视化展示?
-单元测试
-期末考试