当前课程知识点:商业数据思维与实战 >  第四章 大数据时代的统计分析(上) >  4.1 大数据时代下的统计分析 >  4.1 大数据时代下的统计分析

返回《商业数据思维与实战》慕课在线视频课程列表

4.1 大数据时代下的统计分析在线视频

下一节:4.2 数据分析基础

返回《商业数据思维与实战》慕课在线视频列表

4.1 大数据时代下的统计分析课程教案、知识点、字幕

大家好

我是商业数据思维与实战课程的

主讲教师高书丽

本讲 我们将主要了解

大数据时代下的统计分析

说起统计分析

我们就需要了解一下什么是统计学

大英百科全书认为

统计学是一门收集数据 分析数据

并根据数据进行推断的艺术和科学

中国百科全书将统计学定义为

一门研究怎样有效的搜集

整理和分析带有随机性的数据

以对所考察的问题作出推断和预测

直至为采取一定的决策和行动

提供依据和建议的学科

由此可见

统计学与数据息息相关

《大数据时代》

是国外研究大数据的先河之作

其作者维克托

被誉为大数据商业应用第一人

他在书中写道

通过给我们找到一个现象的

良好的关联物

相关关系可以帮助我们捕捉现在

和预测未来

建立在相关系分析基础上的预测

是大数据的核心

这些观点认为

大数据时代

不再探求难以捉摸的因果关系

转而关注事物的相关关系

他的这些提法对传统统计

提出了挑战

毫无疑问

人们认识和掌控事物

进而做出预测判断的重要途径

是从超大量数据中

发现各种真实存在的相关关系

而大数据时代衍生出的分析思路

与技术的创新

开阔了我们的眼界

使我们发现了很多之前没有发现的

事物之间的联系

然而 大数据时代的要求

不仅限于是什么

还有为什么

真正的数据需要知道其原因和背景

因果关系 决定数据分析的深度

如果我们只知道相关性而不知因果

数据分析的深度只有一半

有时 仅凭相关分析

可能会让我们的分析方向偏离预想

每天 都有成千上万的人

通过互联网来搜索信息

这一系列的搜索数据

也从侧面显示出了

搜索这些信息的人本身的情况

比如 他们的想法 需求 忧虑等

非常有价值的信息

如果这些信息的搜索

可以准确的反映出人们的生活状况

分析人员就有可能利用这些信息

追踪疾病情况

预测新商品的销售情况

甚至预测选举的结果

正如我们在前面章节中曾提到的

谷歌流感预测案例

就是一个很好的例子

2008年

谷歌的研究人员基于用户的

搜索日志

包括用户搜索的关键词

搜索频率以及用户IP地址等信息

研发了流感预测系统

研究人员表示

能够进行这种预测的关键

在于一旦人们患上了流感

就会在谷歌中

搜出很多关于流感的信息

这样就可以通过流感搜索

和流感疫情的数据相关性

来预测流感

这一切听起来很有道理

该研究的结论

在2007年到2008年的测试数据中

表现得非常好

之后一段时间的预测结果

与美国疾控中心的真实数据

也高度吻合

但在2011年到2013年

流感预测效果时却表现较差

特别是在2013年

实际的流感趋势中

谷歌流感预测偏差高达140%

随后

谷歌黯然关闭了流感预测系统

谷歌利用大数据预测流感失效

凸显出了很多大数据应用

实践中的问题

特别是人们利用大数据

分析出事物间的相关性时

误将事物间现象的相关关系

代替了事物之间的真实的因果关系

在进行大数据分析的过程中

尽管对相关关系的分析颇具价值

但相关分析只是停留在数据的表面

如果直接基于相关分析结果

做出决策

有时可能会对决策造成误导

大数据时代

需要更深层次的分析

而对因果关系的研究

一定程度上可以满足这样的需求

大数据的分析

很多根本性问题仍然是统计问题

统计分析

是大数据时代瞬间洞察因果关系的

关键技能

统计学作为一门古老的学科

历经300多年的发展

积累了丰富的概念 方法和模式

经过时间和实践检验

而历久弥新的一系列经典统计方法

和统计思维

不应该被弱化和随意舍弃

经典的统计方法

是搭建数据分析方法体系的

坚实基础

例如 在统计分析中

因子分析是将多个指标

转化成少数几个综合指标的

一种经典的统计分析方法

目前 在机器学习中

将因子分析作为一种常用降维方法

特别是在处理海量数据的场景里

变量个数太多

会极大地影响和干扰模型的

运行效率

如何在减少变量个数的基础上

得到最多的信息

就是利用统计学的降维思想

通常根据最大方差思想

提取变量最重要的信息

在面对海量数据及其大量特征时

因子分析 起到了化繁为简的作用

并且

大大减少了后续模型的运算消耗

再比如 经典的统计分析方法

聚类分析

就是根据一种分类方法

将没有标题的变量

按相似度进行分类

在机器学习中

聚类分析的思想也被广泛使用

作为一种无监督学习方法

在面对大量未知标注的数据集时

机器学习会根据某种度量方法

将数据集划分为多个类别

使类别内的数据相似度较小

而不同类别的数据差异较大

其核心依旧是源于统计分析中的

方法

再比如经典的统计分析方法

线性回归模型

是探索变量间线性关系的一种模型

它试图通过一个自变量的线性组合

来预测因变量

它是最简单的回归分析模型

也是机器学习中

其他回归问题解决方法的基础

由回归还衍生出了

线性判别分析模型

它在监督学习中作为降维方法

被广泛使用

还有被广泛使用的

逻辑斯蒂回归模型

不仅可以预测类别

还可以得到近似概率预测

对很多需要利用概率辅助决策任务

非常有用

这些都是经典的统计分析方法

在大数据时代

那些浩瀚的数据成为新时代的金矿

等着人们去挖掘

而统计学

就是挖掘这片金矿必不可少的工具

有数据的地方就有统计学的存在

希望通过课程的学习

大家能了解统计思想

学会统计分析方法

让我们开启数据分析之旅

本讲的内容就到这儿

谢谢大家

商业数据思维与实战课程列表:

第一章 数字经济的基本概念

-1.1 数字和数字的产生

--1.1.1 什么是数字

--1.1.2 数字如何产生

--测验1

-1.2 信息、信息技术和信息经济

--1.2 信息、信息技术和信息经济

--测验2

-1.3 数字经济及其特征、发展趋势

--1.3 数字经济及其特征、发展趋势

--测验3

-1.4 数据伦理

--1.4.1 什么是数据伦理

--1.4.2 大数据技术带来的伦理问题及防范措施

--测验4

-数据如何产生价值?

-数据滥用现象应如何予以防范?

-单元测验

第二章 数据思维

-2.1 数据与数据思维

--2.1.1 什么是数据

--2.1.2 什么是数据思维

--2.1.3 大数据时代的数据思维

--2.1测验

-2.2 大数据时代的数据思维

--2.2.1 数据思维的具体方法

--2.2.2 数据思维的应用流程

--2.2.3 数据思维的应用示例

--相关思维在商业中的实际应用

--2.2测验

-数据的商业价值如何体现?

-单元测验

第三章 大数据时代的商业模式

-3.1 大数据时代的商业模式变革

--3.1.1 商业模式的概念与要素

--3.1.2 数据思维与商业价值创造

--3.1.3 大数据时代的商业模式变革

--3.1 测试

-3.2商业数据思维案例分析

--3.2.1 案例一:电商品牌——韩都衣舍案例分析

--3.2.2 案例二:网络文学——连尚文学案例分析

-如何理解平台经济中的双边网络外部性?

-单元测试

第四章 大数据时代的统计分析(上)

-4.1 大数据时代下的统计分析

--4.1 大数据时代下的统计分析

--4.1 测试

-4.2 数据分析基础

--4.2 数据分析基础

--4.2 对新产品销售进行分析,应如何实施数据分析?

-4.3 统计分析方法专题Ⅰ

--4.3.1 数据的图表展示

--4.3.2 数据的概况性度量

--4.3.3 商业数据描述分析应用案例

--4.3.4 假设检验

--4.3.5 卡方检验

--4.3.6 方差分析

--4.3 测试

-商业数据分析需要具备哪些能力?

-单元测试

第五章 大数据时代的统计分析(下)

-5.1 统计分析方法专题Ⅱ

--5.1.1 相关分析

--5.1.2 线性回归分析

--5.1.3 虚拟变量回归

--5.1.4 逻辑回归

--5.1.5 因子分析(选看)

--5.1 测试

--5.1.6 聚类分析(选看)

-5.2 文本分析

--5.2.1 文本分析过程

--5.2.2 文本分析工具

--5.2.3 文本分析实例

--评论语料

--5.2 测试

-结合从网络中已爬取的商业数据,讨论如何对其中的文本数据进行分析?

-单元测试

第六章 商业数据分析实战(上)

-6.1 商业选题

--6.1.1 商业选题思考路径

--6.1.2 明确商业问题

--6.1.3 撰写商业问题背景

--6.1 测试

-6.2 数据提取

--6.2.1 数据提取方法

--6.2.2 数据提取工具

--6.2.3 数据爬取过程

--6.2.4 数据爬取实例

--6.2 测试

-基于已明确的商业问题,讨论如何提取研究所需的数据?

-单元测试

第七章 商业数据分析实战(中)

-7.1 数据预处理

--7.1.1 数据预处理方法

--7.1.2 数据预处理工具

--7.1.3 数据预处理过程

--7.1.4 数据预处理实例

--7.1 测试

-7.2 数据分析与挖掘

--7.2.1 数据分析与挖掘方法

--7.2.2 贝叶斯网络分析与挖掘实例

--7.2.3 神经网络分析与挖掘实例

--数据分析与挖掘语料

--7.2 测试

-基于对研究数据的预处理结果,讨论如何对其进行进一步的分析与挖掘?

-单元测试

第八章 商业数据分析实战(下)

-8.1 数据可视化

--8.1.1 数据可视化方法

--8.1.2 数据可视化工具

--8.1.3 数据可视化实例

--8.1 测试

-8.2 报告撰写

--8.2.1 Word报告撰写

--8.2.2 PPT报告制作

--8.2.3 报告中代码规范化

--8.2 测试

-基于对数据不同阶段的处理结果,讨论如何对其进行可视化展示?

-单元测试

期末考试

-期末考试

4.1 大数据时代下的统计分析笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。