当前课程知识点:大数据技术与应用 >  吴甘沙:大数据分析师的卓越之道 >  数据的假设与采集 >  数据的假设与采集

返回《大数据技术与应用》慕课在线视频课程列表

数据的假设与采集在线视频

下一节:数据的准备

返回《大数据技术与应用》慕课在线视频列表

数据的假设与采集课程教案、知识点、字幕

今天我想对这个数据分析

流程的每一步

来再做进一步的阐释

首先我们看一下

假设这一块

我们大数据的假设

跟传统数据分析的假设

有一个非常微妙的区别

我们传统的假设

可能是我先有一个想法

然后呢我再去采集相应的数据

再去分析再去验证我的假设

而大数据里面

更典型的一种做法是说

我首先采集了各种各样的数据

不管它有没有用

我先把它采集下来

然后呢我再通过数据挖掘的方式

通过机械的方式

再这个大量的数据里面

去发现相关性

并且把其中的一部分相关性

变成我的假设

大数据机械的挖掘会发现

很多很多的相关性

这就需要靠我们数据分析师

靠我们的直觉

从弱水三千当中

取出一瓢来饮

这些假设很多都是似是而非的

我给大家分享一些例子

比如说他们发现

租房率跟体重的平均体重的变化

它有高度的相关性

这样一种假设

你是不是要采纳呢

我们基本上都不会采纳

但是我告诉你另外一个假设

说印地安纳州它的肺癌的

这么一个发生率和死亡率

是最高的

那么是不是我可以假设

这个州它的一个环境特别差呢

这也是一种相关性

但事实上

那你就需要靠分析师

来进一步的去发现

其他的一些证据

来去验证它

而事实上印地安纳州的环境

事实上是非常好的

但是它的吸烟率非常高

那下一步你就会

把吸烟率跟他的肺癌的死亡率

进行这样一种

相关性的分析和假设

后来又发现

恰恰是因为它的环境好

才有很多其他地方的

已经罹患了肺癌的人

来到了印地安纳州去休养

导致了这样一个数据的偏差

所以你必须得

从这里面很多的相关性里面

去发现 去真实的东西

所以呢我们说这里面需要

数据分析师的直觉

而这样一种直觉

可以是不经过你的大脑的计算

在你的潜意识里面

就能够迸发出来的灵感

我们常常对数据分析师说

你要多看侦探小说

推理小说

你可以从里面去锻炼你的灵感

当然了

灵感可能是一种技巧

而具体分析的时候

你可能还需要很多的

先验的知识

那么这些先验的知识

是输入到你的一个模型里面的

一些输入参数

这些先验知识怎么来呢

三个地方来

第一你要通过阅读

通过广泛的涉猎

来获得这些知识

而第二个呢

你可以跟各行各业不同的人

去聊这些思想的碰撞

来获得这些知识

那么这两种阅读和思想碰撞

它是一种背景知识

还有一种非常重要的先验知识

是前景的知识

也就是你现在所处的这个公司

这个业务部门

他的业务方面的知识

这就要求我们的分析师

真正的去融入到业务部门里面

我们现在看

大公司的数据分析部门

他是怎么组织的呢

其实它可能有

集中的数据分析部门

而这些分析师呢

被要求分配到

每个不同的业务部门里面

他们要跟业务人员

一起肩并肩的去做这个分析工作

这样才能够防治数据采集

跟分析的脱节

也能够去防止

业务跟数据分析的脱节

所有这些呢

对于培养我们的灵感

尤其是在大数据时代

培养我们的灵感

是非常重要的

当然了

我们这个假设

是需要我们的验证手段

反复循环的不停的去测验的

我们刚才讲到了几个案例

其实还有很多的案例

比如说2014年我们春运期间的话

有一个百度迁徙图

而同时呢东莞市事发

那么大家用这个

百度迁徙图来去解释

是不是这里面的很多人

大家看这个大量的人

逃到香港去

是不是这些人

原来就是在东莞

享受了这样一些不好的服务

那么现在他要逃回去呢

那这又是一种假设

那需要我们反复的去验证

那我们后来发现

这个发生的时间

事实上是春节

那么在春节前

在一两个礼拜前

这样的一种迁徙

事实上已经发生了

已经有大量的人流回到了香港

回到了其他的城市

而这一个特定的事件

事实上并没有明显的

改变迁徙的pattern

那这样的话

你就需要修正自己的假设

而大数据给我们带来的好处

就是你随时可以获得新的数据

随时可以去调整你的假设

那么有了假设以后呢

我们就要有数据的采集

当然我刚才也说过

采集有可能是发生于假设

形成之前

因为我们大数据强调的是

数据数据数据

我们需要大量的数据

需要解决我们的数据饥渴症

那这里面很重要的

就是我们要N=all

这就是说我们需要数据的全集

需要数据的全集

确实非常重要

即使是对于今天那些

大量拥有数据的公司来说

数据还是远远不够

我们跟阿里去聊

阿里拥有大量的

在线的交易的数据

但是它还是非常饥渴的

去寻求比如说物理世界的数据

用户在无限状态下

它的一些数据

因为它需要去理解

用户为什么发生了这么一次

在线的交易

在这个交易之前

他在做什么

他在想什么

他的动机是什么

为什么发生了

这就是数据全集的重要性

那么现在对于我们企业来说的话

我们对于数据的需求

我们对数据的管理也有不同

从八九十年代以来

我们企业的common practice

就是Enterprise Data Warehouse

我们数据仓库

事实上是现在我们企业

做商业智能BI的一个标配

商业智能或者是数据仓库

它是说我先有一个假设

我先有一个问题

然后呢我根据这么一个假设

根据这么一个问题

我把数据进行规整 进行处理

使得它能够去服务于

这么一个假设

而现在大数据时代

我们有一个新的名词

叫做Enterprise Data Hub

或者是叫做Data Lake

它跟Warehouse有什么区别呢

它的区别就是在于

我先把大量的数据都收集进来

然后我可以根据这些数据

获得一个假设

然后我对这个数据

能够做相应的处理

如果假设错误了

我能够把数据

又变成另外一种形态

这是一个很明显的一个变革

为什么

因为我们传统的数据仓库

它数据结构是不容易变化的

而我们现在在大数据的时代

在我们的基础设施里面

我们能够根据我们的问题

根据我们的假设随时的去改变

数据的状态

那么这就意味着

我们先把数据收集进来

那这些数据可能是来自于

我们企业内部

来自我们的客户关系管理

来自我们的交易系统

来自我们的生产线流程

也有可能你可以从外部

获得很多数据源

比如说开放数据

比如说你可以从数据的中介

数据的聚集者那边买来数据

你可以去社交网络

去爬来数据

所以这些外部的数据源

可以革命性的去改变

你的数据分析

你的商业智能

那么数据的类型呢

也是从结构化进入到了半结构化

甚至是非结构化

我这里可以列举一些

典型的数据

我们的企业拥有的数据

比如说日志分析

日志就是一种

非常典型的半结构化数据

大家知道我们大数据

第一个上市的公司

叫做在美国上市的公司

那它这家公司呢

事实上就强调这么一个Log analysis

第二类就是文本的分析

事实上同数据仓库的

结构化的数据

进入到了文本的分析

事实上是商业智能的一个

非常典型的一个跃迁

通过文本分析

我们可以了解

我们的用户的它的精神状态

叫做情感分析Sentiment analysis

通过文本分析

我们可以了解我们怎么能够

跟用户进行交互

我们通过文本分析

可以做问答系统

可以做客服

所有这些

都展开了一个全新的窗户

第三种呢就是图片和视频的数据

通过对图片和视频的数据

我们可以获得

更多的对客户的洞察

那这里面又需要

像模式识别

像计算机视觉

像深度学习等等这样一些

新的一些技术

还有我们现在大量的数据

事实上是有时空标签的

比如说我们的物联网数据RFID

比如说我们的微博数据

它都是有时空标签的

那么下面我们怎么能够利用

这些时空的标签

来对它产生价值

还有我们传统的数据

是以表格的形式存在的

而现在很多的数据

是以网络

是以图的方式存在的

比如说社交网络数据

怎么能够通过

像pagerank这样的一种方式

来去发现每一个节点的影响力

我怎么能够发现一个网络的

控制中心 这些大V是谁

所有这些呢需要图分析

需要网络来分析

所有这些新的类型的数据

组成了我们大数据的

这么一个拼图

那么这里面我们强调了

数据的重要性

这张PPT,slide

我把感叹号都换成了问号

为什么呢

我是想要从另外一个角度

去看我们如何去看待大数据

比如说我们刚才说的N=all

我们需要全量的数据

而在我们的现实生活当中

要拿到全量数据是非常困难的

有时候事实上

也并不一定需要全量数据

我给大家举几个例子

第一个是不是更多的数据

一定就比采样的好

未必

举一个很简单的例子

中国960万平方公里的领土

新疆 西藏 青海 内蒙古

四个省或者自治区

占到了中国领土的一半以上

那我是不是说

拿到了这四个省

或者自治区的数据

就能够去推知整个中国的

这么一个状态呢

事实上它还不如采样好

还有我们经常说原始数据

raw data

而raw data事实上

是一个矛盾修辞

因为数据是不可能

像矿产这样一种物理存在那样

是原始的

因为这涉及到数据的产生者

采集者

它本身的文化背景

它的价值取向

所以原始数据

本身就是一个矛盾修辞

而数据当中有信号

也有噪声

在大数据里面

我们面临的两难

第一个我们认知到大数据本身

就是充满着噪声的

充满着数据源的污染

而在另外一个角度上面来说

我们大数据强调的是

我要倾听每一个个体的声音

有一些很少发声的事件

可能是一个人他做了一个动作

通过传统的方法

他会别认作是黑天鹅事件

被认作是噪声

而在大数据里面

我们不能忽略

这样的一些信息

所以他同时又是可贵的信号

而采样的时候

经常会发生采样的偏差

采样偏差并不是大数据的问题

在传统的数据分析里面

也有很多

我给大家举一个非常简单的例子

那么比如说一个笑话

电视台在火车上面

春运的时候去采访

得出来了一个结论是说

所有的农民工都买到了火车票

这就是一种采样的偏差

那么在现实生活当中

事实上这样的采样偏差

也是大量的存在

又给大家举一个例子

在二战的时候

联军他要对飞机

他容易被受到易损的部分

容易被攻击的部分呢

他要对它进行一次调研

他发现飞机绝大多数的弹孔

都是在机翼上

所以他得出了一个结论

我要对机翼进行加工

但事实上

这里面已经发生了

一次采样的偏差

为什么呢

因为击中座舱的这些飞机

都没有飞回来

你并没有对那些飞机进行采样

在大数据里面

采样偏差就更多了

因为它数据是可能来自于

不同的数据集

而不同的数据集

它有不同的采样的规范

那么这样使得采样偏差

这样一种可能性就会更大

所以我这里面想要讲的

就是并不是说

更多的数据一定就更好

有时候采样可能是

更好的一种选择

而采样的话

也是容易发生错误

那么我们现在刚才也说到

大量的数据是来自于外部

我们要通过数据的交易

交换和共享来获得这些数据

那么这里面

就涉及到这些数据

它是有权利的

数据的产生者

或者是拥有者

他有数据的产权

而使用数据的时候

你要必须得注意

数据的隐私权

即使是他暂时许可了你使用

你也得关注

我这许可的时间和范围

有时候我可能还得提供

数据的拥有者

让它来能够对我的使用

进行审计

让它要有知情权

那如果说进行数据的交易的话

还有一个数据定价的问题

所有这些都是

更多的数据带来的问题

那么另外呢

我们数据的生命周期

要对它进行管理

大家知道数据从产生到运输

到存储到分析

再到反复的分析

它是有个生命周期

那这里面很重要的

就是我要去考虑

这个数据

它到底是来源于什么地方

这里面一个英文的单词

叫provenance

也就是说数据的出处和来源

但是我也不能仅仅关注

数据的出处和来源

因为在整个数据生命周期当中

数据的形式它的内涵

不停的在发生变化

所以我要去了解数据的整个世系

它的一个家谱

另外呢我们大数据的思想说

我们数据拥有了以后

我就不再删除了

因为数据总是有价值的

但事实上

并不是说所有的数据

它永远都有价值

到一定的时间

它可能变成了你的成本

变成了你的负担

给大家举一个例子

现在互联网公司

他通过cookie

他能够采集你上网的很多行为

那有些互联网公司

他甚至会把你的鼠标的

运行的轨迹都会采集下来

为什么

他希望了解你在浏览的过程当中

你感兴趣的地方在什么地方

那这些数据是不是

要永远的保存呢

未必

因为过了一年以后

他的整个网页的

它的layout

事实上已经变化了

那你这些鼠标的

移动的轨迹的数据

就没有任何意义

所以我们这里面

一直强调的是数据

它在产生的时候是价值最大的

你一定要在数据

产生的一小时之内

一天之内 一周之内

把它处理完

如果在这些时间段里面

你没有处理的话

也许你以后永远

都不会对它进行处理了

它事实上已经变成了你的负担

事实上我们经常说

一个72小时理论定律

也就是说我们参加了一次学习会

那么最好的去巩固去温习的时间

就是在72小时之内

而72小时以后的话

你可能永远再不会去碰

这个内容了

事实上道理是一样的

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

数据的假设与采集笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。