当前课程知识点:商业数据思维与实战 > 第四章 大数据时代的统计分析(上) > 4.3 统计分析方法专题Ⅰ > 4.3.6 方差分析
大家好
本讲我们将主要学习方差分析
什么是方差分析
方差分析是在20世纪20年代
发展起来的一种统计方法
它是由英国统计学家fisher
在进行实验设计时首先引入的
方差分析从表面上看
是比较多个总体的均值是否相等
但本质上
是研究分类型自变量
对数值型因变量的影响
在农业 商业 医学
社会学和经济学等诸多领域的
数据分析中
方差分析发挥了不可或缺的作用
让我们来看之前用到的电商数据
现在想分析一下
不同大区之间的销售额
是否存在差异
或者不同的客户类型
如公司 消费者
小型企业之间的利润是否存在差异
或者是不同产品大类之间的销售额
是否存在差别
我们就可以用方差分析来进行
例如
我们针对不同客户类型平均利润值
进行了统计
从表中可以看到
针对不同客户类型
所得到的平均利润也是不相等的
但我们不能直接根据均值不相等
就说不同客户类型的平均利润
是有所差别的
因为
不确定是不是客户类型的不同
导致了平均利润有所差异
还是由于随机因素造成的
这就需要利用严谨的方法
来进行检验
要分析针对不同客户类型之间的
平均利润是否有显著差异
实际上就是判断客户类型对利润
是不是有显著的影响
如果它们的均值相等
那就意味着客户类型
对平均利润是没有影响的
如果均值不完全相等
则意味着客户类型对平均利润
是有影响的
它们之间的利润是有差别的
在判断均值之间是否有差异时
需要借助于方差
方差分析的基本思想
就是将数据的总的差异
分成两类来源
组间差异和组内差异
通过对数据差异来源的分析
判断不同总体的均值是否相等
组间差异是指不同水平之间的差别
在这里
不同水平就是指分类数据的
不同表现
就拿电商数据来说
不同的客户类型就是不同的水平
比如 不同客户类型之间的
利润差异就是组间差异
它反映了不同组之间
数据的离散程度
组内差异是指同一水平下
内部数据之间的差别
例如 客户类型同为企业的数据
他们内部的数据平均利润的
离散程度就是组内差异
衡量差异通常用的是离差平方和
那接下来的想法就是
比较组间差异和组内差异的大小
由于这些差异的大小
与观测值的多少有关
需要将其平均
除以各自对应的自由度
这样
我们就构造出一个检验统计量
也就是F统计量
从公式中我们可以看到
其分子是组间差异
除以它自己的自由度
分母是组内差异
除以各自的自由度
如果分母和分子的比值很接近
说明不同水平之间没有差异
如果分子大于分母
当这个比值大到某种程度时
就可以说
不同水平之间存在着显著的差异
在具体判断时可以采用P值
根据计算出来的F统计量
计算其对应的P值
如果P值小于α
我们就可以认为
不同水平下各总体的均值
是存在差异的
那我们来总结一下方差分析的步骤
第一步 提出原假设
即不同水平下
各总体的均值是没有差异的
第二步 计算F检验统计量和P值
第三步 做出决策
如果P小于α 则拒绝原假设
说明不同水平下各总体均值
是有差异的
方差分析的实质是研究分类自变量
对数值型因变量的影响
只涉及一个分类自变量时
称之为单因素方差分析
涉及多个分类自变量时
则称为多因素方差分析
方差分析中
还需要满足一定的假定条件
如不同水平下的各总体
服从正态分布
每个总体的方差必须相同
样本是随机且独立的
接下来 我们利用电商数据
使用SPSS分析一下
不同的客户类型之间
他们的平均利润是否存在差异
现在 我们利用SPSS进行方差分析
在前面的学习中我们知道
方差分析主要是用来检验
不同组之间均值是否相等
其实质也就是分类型自变量
对因变量是否产生显著影响
如果现在想分析
不同客户类型之间的平均利润
是否有差异
我们就可以用到方差分析
那首先我们可以先了解一下
不同客户类型的平均利润的大小
是什么样的一个情况
我们就可以点击分析
利用比较平均值中的平均值
首先 来看一下它的平均值大小
将利润点击到因变量列表
自变量列表
我们是将客户类型点选进去
在选项这块儿
我们可以把个案数去掉
因为在后续分析中一般用不到
只留下平均值 点击继续
我们就可以大体上先看一下
不同客户类型之间的平均利润大小
那数值显示
不同客户类型之间的平均利润
是不相等的
但是 我们要知道
这种不相等的是来源于两种因素
有可能是随机因素造成的
还有种因素
可能就是由于不同客户类型之间
它们不同
所以导致了平均利润的不同
那就需要用到我们的方差分析
我们再次点击分析
点击比较平均值
在它下方有单因素方差检验
我们可以用单因素方差分析
重置一下
我们是将利润点到因变量列表
因此 这里面
我们需要将分类型的自变量
点击进去
我们将客户类型点到因子对话框
因为方差分析它的前提
有一个叫方差齐性的要求
所以我们可以在选项这里面
点击方差齐性检验
如果在前面
你没有点击这个平均值这样的
一个选项
也可以在这里面点击这个描述
它可以生成好多结果
点击继续 点击确定
我们大家看一下
这个描述信息就特别多
我们刚才直接是看的平均值
它在这里面会告诉你一些标准差
什么一些区间估计的结果
我们这块儿就不做过多的解释
那我们看第二张表
方差齐性检验
这就是我们刚才提到的
在做方差分析的时候
需要有个前提
就是要满足方差相等这样一个要求
具体的这个统计量
我们直接看莱文统计
它后面的这个P值
如果小于α
我们就表明方差是不相等的
如果P值大于α就表明方差相等
大家通过结果可以看到
P值0.206 它大于0.05
所以我们认为它不拒绝原假设
也表明了方差是相等的
具体的这块的知识点
大家可以翻一下相关的统计学书籍
来了解一下方差齐性检验
接下来
我们要看我们的方差分析的结果
方差分析的结果
大家可以看到有组间组内
这就是我们的组间差异和组内差异
通过组间平方和 组内平方和
然后除以各自的自由度
我们就可以得到它们的均方差异
两者一比 就得到了F统计量
这F统计量有两种看法
第一种 我们就可以查
我们的临界值表来进行判断
还有一种就是
软件自动帮你生成P值
你直接看P小于α 还是大于α
做出决策就可以
那通过这里头我们可以看到
P值是等于0.841
它大于α
那就表明不同的客户类型之间
它们的平均利润是没有差别的
我们可以得到这样的结果
截止目前
我们学习了卡方检验和方差分析
不知大家是否清楚了
这两种方法的使用场景
如果检验两个分类变量之间
是否有关联
那就要用卡方检验
如果一个是分类变量
另外一个变量是数值型变量
想看二者之间是否有影响
那就应该用方差分析
本讲的知识点就讲到这里
谢谢大家
-1.1 数字和数字的产生
--测验1
-1.2 信息、信息技术和信息经济
--测验2
-1.3 数字经济及其特征、发展趋势
--测验3
-1.4 数据伦理
--测验4
-单元测验
-2.1 数据与数据思维
--2.1测验
-2.2 大数据时代的数据思维
--2.2测验
-单元测验
-3.1 大数据时代的商业模式变革
--3.1 测试
-3.2商业数据思维案例分析
-单元测试
-4.1 大数据时代下的统计分析
--4.1 测试
-4.2 数据分析基础
-4.3 统计分析方法专题Ⅰ
--4.3 测试
-单元测试
-5.1 统计分析方法专题Ⅱ
--5.1 测试
-5.2 文本分析
--评论语料
--5.2 测试
-结合从网络中已爬取的商业数据,讨论如何对其中的文本数据进行分析?
-单元测试
-6.1 商业选题
--6.1 测试
-6.2 数据提取
--6.2 测试
-单元测试
-7.1 数据预处理
--7.1 测试
-7.2 数据分析与挖掘
--7.2 测试
-基于对研究数据的预处理结果,讨论如何对其进行进一步的分析与挖掘?
-单元测试
-8.1 数据可视化
--8.1 测试
-8.2 报告撰写
--8.2 测试
-基于对数据不同阶段的处理结果,讨论如何对其进行可视化展示?
-单元测试
-期末考试