当前课程知识点:大数据技术与应用 >  吴甘沙:大数据分析师的卓越之道 >  数据思维方式的改变 >  数据思维方式的改变

返回《大数据技术与应用》慕课在线视频课程列表

数据思维方式的改变在线视频

下一节:数据的假设与采集

返回《大数据技术与应用》慕课在线视频列表

数据思维方式的改变课程教案、知识点、字幕

亲爱的同学们大家好

非常感谢李军院长的邀请

使我能够第一次来到慕课

跟大家做我的分享

今天我的题目是

大数据分析师的卓越之道

这个演讲本来是

大数据分析师峰会的

一个主题演讲

原来是三十分钟

那今天既然是慕课的首秀

那我加入更多的干货

跟大家能够做更深入的探讨

当然我也想强调

这里面涉及到很多很多的内容

有些东西我也只是一知半解

希望大家能够以批判的态度

去学习

这就是我们今天看到的

一个典型的数据分析的场景

大家可以看到

下面是基础设施

我们传统说数据的采集

数据的存储 数据的处理

数据从左边进来

而右边呢价值输出

中间的就是所谓的价值发现

或者知识发现

那么用我们专业的词语来说

知识发现其实就是一个

建立模型和学习的过程

那么在大数据的这么一个

上下文里边

这个基础设施

这么一个典型的场景

会有一些什么样的变化呢

首先数据变的非常之大

把我们的基础设施

冲的七零八落

而同时呢

我们的数据拥有者

我们的数据使用者

对于价值的这样一种期盼

也变得更高

那么这个时候

我们大数据的这么一个

软件站 硬件站

需要做一些什么改变呢

首先从基础设施的角度来看

我们必须要有很多新的内涵

加入进去

首先我要考虑到

我怎么能够针对更多的数据

做水平的扩展

我们要考虑到应用了

大量的PC服务器以后

怎么样来做容错

那么我很多的数据

我怎么能够用分布式

文件系统把它存下来

存下来了以后

要求速度的时候

要求带宽的时候

那我怎么能够应用

更多的闪存技术

当我需要交互式的分析的时候

我怎么把内存

把内存计算引入进来

而内存不够大的时候

我又要考虑更多的

非易失的内存像闪存

而且我的编程模型

可能从最简单的MapReduce

变成了更复杂的图形的

这样一种编程模型

流式的编程模型

所有这些都带来了

我们基础设施的变革

那么一个问题就来了

我如果基础设施已经进行了升级

我这么一个知识发现

我的分析的这个场景

是不是自然而然的

就能够适应了大数据呢

我们经常说

天下没有免费的午餐

这里面我们也必须做改变

所以呢

我们强调基础设施

已经改朝换代

我们的分析师也需要与时俱进

而我今天的内容

主要就是专注在三个方面

第一个我们分析师

怎么来去改变思维方式

第二个我们的技术素养

该做什么样的提升

第三个我们的分析能力

和我们的分析的工具

需要进一步的丰富起来

首先我们说一下

我们的技术思想

或者它的一个世界观的问题

我们刚才说到

我们要面对

这么一个新的一个世界的话

我们首先可能要从思想上面

改变自身

而现在这个世界

是一个不确定的世界

我们传统世界观

认为我们世界是一个牛顿

机械论的 确定论的世界

大家可能听说过拉普拉斯恶魔

这么一个说法

他是说如果我在任何一个时间点

宇宙当中所有原子的状态

都可以确定的话

那我往前的任何一个时间

或者往后的任何一个时间点

我都能够去推知

这个世界的状态

这就是所谓的确定性的世界

而现在事实上我们

世界进入了一个量子论的世界

或者说基于概率的世界

而这一点

即使是爱因斯坦

他也没有认识到

他一直说

我们上帝是不掷色子的

但事实上呢

我们这个世界是充满了概率的

充满了不确定性的

它不是这么一个

像一个非常精确的钟表

机械推动世界

那么这样一种不确定性的世界

有一个最好的实验

来去展示它

大家可以看到

这个是薛定谔他的一个思想实验

他叫做薛定谔的猫

那么这么一个猫

在这个盒子里面

它究竟是死的还是活的呢

答案是它同时是死的

也同时是活的

这里面有概率的存在

而你一旦试图去打开这个盒子

要去确定它的状态的时候

那么它就从一种概率性的存在

变成一种确定性的存在

它可能就真的死了

或者它就是真的活着

所以我们有一句俗语叫做

好奇心害死猫

这样一种好奇心

事实上有一半的概率

把这个猫杀死了

这个世界就是这么一个

不确定也是测不准的世界

这个测不准原理

大家都听说过

海森堡测不准原理

他是说我们对这个世界的观察

对一个客观对象的观察

它会改变这个客观对象的状态

在大数据里面

这样的案例也是比比皆是

比如说这么一个非常有名的案例

谷歌它利用它的一个搜索数据

来去预测流感的趋势

那这是一个

非常好的大数据的应用

但是大家可以看这一张图

它就出现了测不准的问题

尤其是在2013年初

大家可以看到那个橙色的线

橙色的线是它的预测的数据

而实际数据呢

就是CDC

或者是美国疾控中心的

这么一个数据呢

事实上

是它预测数据的一半还不到

所以两大权威的杂志

就开始发话了

自然杂志是说

你看大数据是测不准的

因为你整个的

这么一个观察和分析的过程

事实上已经改变了

客观事物的状态

而科学更是毫不客气的说

这就是大数据的傲慢

它傲慢在什么地方呢

我们经常听说

大数据有三大思想

也就是我们舍恩伯格

在大数据时代里面说的

第一个我们要全集

而不要采样

第二个我们要拥抱混杂性

而不用关注精确性

第三个我们喜欢相关性

我们不用在意因果性

这就是大数据的傲慢

在这么一个特定的案例里面

即使像谷歌这样的

数据的巨鳄

它也没办法获得全集的数据

它的这样一些搜索关键词

事实上是非常不精确的

即使它后期引入了CDC

疾控中心的数据

它还是一种非常不精确的状态

像这样一种涉及到人的生命的

是不是我关注因果性

就可以了呢

事实上这样一种错误的预测

就是导致了局部时间和地区

它的流感疫苗准备过分

而使得其他地方的人呢

就没办法获得了流感疫苗

这样一种只关注相关性

而不关注因果性的做法

事实上就是大数据的傲慢

所以呢

从我们分析师的角度来看的话

我们必须得升级

我们的方法论

这是一个非常传统的

数据分析的流程

开始于假设

那么基于假设呢

我来进行数据的采集

接着呢对采集的数据做准备

往往这样的一个准备的过程

可能是你整个数据分析

过程的百分之六十到七十左右

接着就是数据的分析

数据分析以后呢

我要对它进行解释

大家知道数据分析有两类

一类数据分析是给机器看

比如说我们大数据里面

经常说到的精准营销

我们大数据里面经常说到的

推荐 个性化的推荐

这些是给机器看的

可能解释性的要求不是那么高

而另外一类的分析呢

是给人看

你必须得解释

你这样的一个结果

它有什么样的道理

大家经常听说克强指数

克强指数就是一个非常简单

但又有代表性的

一个数据分析模型

三个指数

但是非常有可解释性

我们一直说

我们整个社会运行的一个基础

是信用

而我们中国恰恰就是缺乏了

这样一种信用的基础

在美国它有百分之八十到八十五的人

他都拥有一个积分

叫做FICO的积分

而这FICO的积分

也就是基于五六个参数而已

并不是一个非常复杂模型

它非常强调可解释性

另外呢对于分析的结果

我也要对它进行验证

对它进行评估

它这个结果是不是真正的

去跟这个假设能够吻合起来

这是一个传统的数据分析的流程

但是我们面临一个

不确定性的世界

面临一个大数据的世界的话

我们需要对这个流程进行改进

首先你要加入一个反馈循环

因为你要认识到

这个假设随时可能变成谬误

所以你要有一个循环往复的

这么一个假设采集

准备分析 再去验证的过程

同时呢我可能必须做大量的

数据的采集

可能是7天24小时

数据随时的能够流进来

而这些数据里面

大量的是噪音

大数据里面

大量的是有噪声 有错误

甚至是被污染的数据

那你的数据准备又有不同的挑战

大数据的分析要求是交互式的

要求是实时的

这样才能够跟得上世界的变化

这里面又有很多新的挑战

在解释和验证这一块

大数据又给我们带来了

很多新的机会

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

数据思维方式的改变笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。