13745131

当前课程知识点:商业数据思维与实战 >  第四章 大数据时代的统计分析(上) >  4.3 统计分析方法专题Ⅰ >  4.3.6 方差分析

返回《商业数据思维与实战》慕课在线视频课程列表

4.3.6 方差分析在线视频

下一节:商业数据分析需要具备哪些能力?

返回《商业数据思维与实战》慕课在线视频列表

4.3.6 方差分析课程教案、知识点、字幕

大家好

本讲我们将主要学习方差分析

什么是方差分析

方差分析是在20世纪20年代

发展起来的一种统计方法

它是由英国统计学家fisher

在进行实验设计时首先引入的

方差分析从表面上看

是比较多个总体的均值是否相等

但本质上

是研究分类型自变量

对数值型因变量的影响

在农业 商业 医学

社会学和经济学等诸多领域的

数据分析中

方差分析发挥了不可或缺的作用

让我们来看之前用到的电商数据

现在想分析一下

不同大区之间的销售额

是否存在差异

或者不同的客户类型

如公司 消费者

小型企业之间的利润是否存在差异

或者是不同产品大类之间的销售额

是否存在差别

我们就可以用方差分析来进行

例如

我们针对不同客户类型平均利润值

进行了统计

从表中可以看到

针对不同客户类型

所得到的平均利润也是不相等的

但我们不能直接根据均值不相等

就说不同客户类型的平均利润

是有所差别的

因为

不确定是不是客户类型的不同

导致了平均利润有所差异

还是由于随机因素造成的

这就需要利用严谨的方法

来进行检验

要分析针对不同客户类型之间的

平均利润是否有显著差异

实际上就是判断客户类型对利润

是不是有显著的影响

如果它们的均值相等

那就意味着客户类型

对平均利润是没有影响的

如果均值不完全相等

则意味着客户类型对平均利润

是有影响的

它们之间的利润是有差别的

在判断均值之间是否有差异时

需要借助于方差

方差分析的基本思想

就是将数据的总的差异

分成两类来源

组间差异和组内差异

通过对数据差异来源的分析

判断不同总体的均值是否相等

组间差异是指不同水平之间的差别

在这里

不同水平就是指分类数据的

不同表现

就拿电商数据来说

不同的客户类型就是不同的水平

比如 不同客户类型之间的

利润差异就是组间差异

它反映了不同组之间

数据的离散程度

组内差异是指同一水平下

内部数据之间的差别

例如 客户类型同为企业的数据

他们内部的数据平均利润的

离散程度就是组内差异

衡量差异通常用的是离差平方和

那接下来的想法就是

比较组间差异和组内差异的大小

由于这些差异的大小

与观测值的多少有关

需要将其平均

除以各自对应的自由度

这样

我们就构造出一个检验统计量

也就是F统计量

从公式中我们可以看到

其分子是组间差异

除以它自己的自由度

分母是组内差异

除以各自的自由度

如果分母和分子的比值很接近

说明不同水平之间没有差异

如果分子大于分母

当这个比值大到某种程度时

就可以说

不同水平之间存在着显著的差异

在具体判断时可以采用P值

根据计算出来的F统计量

计算其对应的P值

如果P值小于α

我们就可以认为

不同水平下各总体的均值

是存在差异的

那我们来总结一下方差分析的步骤

第一步 提出原假设

即不同水平下

各总体的均值是没有差异的

第二步 计算F检验统计量和P值

第三步 做出决策

如果P小于α 则拒绝原假设

说明不同水平下各总体均值

是有差异的

方差分析的实质是研究分类自变量

对数值型因变量的影响

只涉及一个分类自变量时

称之为单因素方差分析

涉及多个分类自变量时

则称为多因素方差分析

方差分析中

还需要满足一定的假定条件

如不同水平下的各总体

服从正态分布

每个总体的方差必须相同

样本是随机且独立的

接下来 我们利用电商数据

使用SPSS分析一下

不同的客户类型之间

他们的平均利润是否存在差异

现在 我们利用SPSS进行方差分析

在前面的学习中我们知道

方差分析主要是用来检验

不同组之间均值是否相等

其实质也就是分类型自变量

对因变量是否产生显著影响

如果现在想分析

不同客户类型之间的平均利润

是否有差异

我们就可以用到方差分析

那首先我们可以先了解一下

不同客户类型的平均利润的大小

是什么样的一个情况

我们就可以点击分析

利用比较平均值中的平均值

首先 来看一下它的平均值大小

将利润点击到因变量列表

自变量列表

我们是将客户类型点选进去

在选项这块儿

我们可以把个案数去掉

因为在后续分析中一般用不到

只留下平均值 点击继续

我们就可以大体上先看一下

不同客户类型之间的平均利润大小

那数值显示

不同客户类型之间的平均利润

是不相等的

但是 我们要知道

这种不相等的是来源于两种因素

有可能是随机因素造成的

还有种因素

可能就是由于不同客户类型之间

它们不同

所以导致了平均利润的不同

那就需要用到我们的方差分析

我们再次点击分析

点击比较平均值

在它下方有单因素方差检验

我们可以用单因素方差分析

重置一下

我们是将利润点到因变量列表

因此 这里面

我们需要将分类型的自变量

点击进去

我们将客户类型点到因子对话框

因为方差分析它的前提

有一个叫方差齐性的要求

所以我们可以在选项这里面

点击方差齐性检验

如果在前面

你没有点击这个平均值这样的

一个选项

也可以在这里面点击这个描述

它可以生成好多结果

点击继续 点击确定

我们大家看一下

这个描述信息就特别多

我们刚才直接是看的平均值

它在这里面会告诉你一些标准差

什么一些区间估计的结果

我们这块儿就不做过多的解释

那我们看第二张表

方差齐性检验

这就是我们刚才提到的

在做方差分析的时候

需要有个前提

就是要满足方差相等这样一个要求

具体的这个统计量

我们直接看莱文统计

它后面的这个P值

如果小于α

我们就表明方差是不相等的

如果P值大于α就表明方差相等

大家通过结果可以看到

P值0.206 它大于0.05

所以我们认为它不拒绝原假设

也表明了方差是相等的

具体的这块的知识点

大家可以翻一下相关的统计学书籍

来了解一下方差齐性检验

接下来

我们要看我们的方差分析的结果

方差分析的结果

大家可以看到有组间组内

这就是我们的组间差异和组内差异

通过组间平方和 组内平方和

然后除以各自的自由度

我们就可以得到它们的均方差异

两者一比 就得到了F统计量

这F统计量有两种看法

第一种 我们就可以查

我们的临界值表来进行判断

还有一种就是

软件自动帮你生成P值

你直接看P小于α 还是大于α

做出决策就可以

那通过这里头我们可以看到

P值是等于0.841

它大于α

那就表明不同的客户类型之间

它们的平均利润是没有差别的

我们可以得到这样的结果

截止目前

我们学习了卡方检验和方差分析

不知大家是否清楚了

这两种方法的使用场景

如果检验两个分类变量之间

是否有关联

那就要用卡方检验

如果一个是分类变量

另外一个变量是数值型变量

想看二者之间是否有影响

那就应该用方差分析

本讲的知识点就讲到这里

谢谢大家

商业数据思维与实战课程列表:

第一章 数字经济的基本概念

-1.1 数字和数字的产生

--1.1.1 什么是数字

--1.1.2 数字如何产生

--测验1

-1.2 信息、信息技术和信息经济

--1.2 信息、信息技术和信息经济

--测验2

-1.3 数字经济及其特征、发展趋势

--1.3 数字经济及其特征、发展趋势

--测验3

-1.4 数据伦理

--1.4.1 什么是数据伦理

--1.4.2 大数据技术带来的伦理问题及防范措施

--测验4

-数据如何产生价值?

-数据滥用现象应如何予以防范?

-单元测验

第二章 数据思维

-2.1 数据与数据思维

--2.1.1 什么是数据

--2.1.2 什么是数据思维

--2.1.3 大数据时代的数据思维

--2.1测验

-2.2 大数据时代的数据思维

--2.2.1 数据思维的具体方法

--2.2.2 数据思维的应用流程

--2.2.3 数据思维的应用示例

--相关思维在商业中的实际应用

--2.2测验

-数据的商业价值如何体现?

-单元测验

第三章 大数据时代的商业模式

-3.1 大数据时代的商业模式变革

--3.1.1 商业模式的概念与要素

--3.1.2 数据思维与商业价值创造

--3.1.3 大数据时代的商业模式变革

--3.1 测试

-3.2商业数据思维案例分析

--3.2.1 案例一:电商品牌——韩都衣舍案例分析

--3.2.2 案例二:网络文学——连尚文学案例分析

-如何理解平台经济中的双边网络外部性?

-单元测试

第四章 大数据时代的统计分析(上)

-4.1 大数据时代下的统计分析

--4.1 大数据时代下的统计分析

--4.1 测试

-4.2 数据分析基础

--4.2 数据分析基础

--4.2 对新产品销售进行分析,应如何实施数据分析?

-4.3 统计分析方法专题Ⅰ

--4.3.1 数据的图表展示

--4.3.2 数据的概况性度量

--4.3.3 商业数据描述分析应用案例

--4.3.4 假设检验

--4.3.5 卡方检验

--4.3.6 方差分析

--4.3 测试

-商业数据分析需要具备哪些能力?

-单元测试

第五章 大数据时代的统计分析(下)

-5.1 统计分析方法专题Ⅱ

--5.1.1 相关分析

--5.1.2 线性回归分析

--5.1.3 虚拟变量回归

--5.1.4 逻辑回归

--5.1.5 因子分析(选看)

--5.1 测试

--5.1.6 聚类分析(选看)

-5.2 文本分析

--5.2.1 文本分析过程

--5.2.2 文本分析工具

--5.2.3 文本分析实例

--评论语料

--5.2 测试

-结合从网络中已爬取的商业数据,讨论如何对其中的文本数据进行分析?

-单元测试

第六章 商业数据分析实战(上)

-6.1 商业选题

--6.1.1 商业选题思考路径

--6.1.2 明确商业问题

--6.1.3 撰写商业问题背景

--6.1 测试

-6.2 数据提取

--6.2.1 数据提取方法

--6.2.2 数据提取工具

--6.2.3 数据爬取过程

--6.2.4 数据爬取实例

--6.2 测试

-基于已明确的商业问题,讨论如何提取研究所需的数据?

-单元测试

第七章 商业数据分析实战(中)

-7.1 数据预处理

--7.1.1 数据预处理方法

--7.1.2 数据预处理工具

--7.1.3 数据预处理过程

--7.1.4 数据预处理实例

--7.1 测试

-7.2 数据分析与挖掘

--7.2.1 数据分析与挖掘方法

--7.2.2 贝叶斯网络分析与挖掘实例

--7.2.3 神经网络分析与挖掘实例

--数据分析与挖掘语料

--7.2 测试

-基于对研究数据的预处理结果,讨论如何对其进行进一步的分析与挖掘?

-单元测试

第八章 商业数据分析实战(下)

-8.1 数据可视化

--8.1.1 数据可视化方法

--8.1.2 数据可视化工具

--8.1.3 数据可视化实例

--8.1 测试

-8.2 报告撰写

--8.2.1 Word报告撰写

--8.2.2 PPT报告制作

--8.2.3 报告中代码规范化

--8.2 测试

-基于对数据不同阶段的处理结果,讨论如何对其进行可视化展示?

-单元测试

期末考试

-期末考试

4.3.6 方差分析笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。