当前课程知识点:大数据技术与应用 > 吴甘沙:大数据分析师的卓越之道 > 数据的假设与采集 > 数据的假设与采集
今天我想对这个数据分析
流程的每一步
来再做进一步的阐释
首先我们看一下
假设这一块
我们大数据的假设
跟传统数据分析的假设
有一个非常微妙的区别
我们传统的假设
可能是我先有一个想法
然后呢我再去采集相应的数据
再去分析再去验证我的假设
而大数据里面
更典型的一种做法是说
我首先采集了各种各样的数据
不管它有没有用
我先把它采集下来
然后呢我再通过数据挖掘的方式
通过机械的方式
再这个大量的数据里面
去发现相关性
并且把其中的一部分相关性
变成我的假设
大数据机械的挖掘会发现
很多很多的相关性
这就需要靠我们数据分析师
靠我们的直觉
从弱水三千当中
取出一瓢来饮
这些假设很多都是似是而非的
我给大家分享一些例子
比如说他们发现
租房率跟体重的平均体重的变化
它有高度的相关性
这样一种假设
你是不是要采纳呢
我们基本上都不会采纳
但是我告诉你另外一个假设
说印地安纳州它的肺癌的
这么一个发生率和死亡率
是最高的
那么是不是我可以假设
这个州它的一个环境特别差呢
这也是一种相关性
但事实上
那你就需要靠分析师
来进一步的去发现
其他的一些证据
来去验证它
而事实上印地安纳州的环境
事实上是非常好的
但是它的吸烟率非常高
那下一步你就会
把吸烟率跟他的肺癌的死亡率
进行这样一种
相关性的分析和假设
后来又发现
恰恰是因为它的环境好
才有很多其他地方的
已经罹患了肺癌的人
来到了印地安纳州去休养
导致了这样一个数据的偏差
所以你必须得
从这里面很多的相关性里面
去发现 去真实的东西
所以呢我们说这里面需要
数据分析师的直觉
而这样一种直觉
可以是不经过你的大脑的计算
在你的潜意识里面
就能够迸发出来的灵感
我们常常对数据分析师说
你要多看侦探小说
推理小说
你可以从里面去锻炼你的灵感
当然了
灵感可能是一种技巧
而具体分析的时候
你可能还需要很多的
先验的知识
那么这些先验的知识
是输入到你的一个模型里面的
一些输入参数
这些先验知识怎么来呢
三个地方来
第一你要通过阅读
通过广泛的涉猎
来获得这些知识
而第二个呢
你可以跟各行各业不同的人
去聊这些思想的碰撞
来获得这些知识
那么这两种阅读和思想碰撞
它是一种背景知识
还有一种非常重要的先验知识
是前景的知识
也就是你现在所处的这个公司
这个业务部门
他的业务方面的知识
这就要求我们的分析师
真正的去融入到业务部门里面
我们现在看
大公司的数据分析部门
他是怎么组织的呢
其实它可能有
集中的数据分析部门
而这些分析师呢
被要求分配到
每个不同的业务部门里面
他们要跟业务人员
一起肩并肩的去做这个分析工作
这样才能够防治数据采集
跟分析的脱节
也能够去防止
业务跟数据分析的脱节
所有这些呢
对于培养我们的灵感
尤其是在大数据时代
培养我们的灵感
是非常重要的
当然了
我们这个假设
是需要我们的验证手段
反复循环的不停的去测验的
我们刚才讲到了几个案例
其实还有很多的案例
比如说2014年我们春运期间的话
有一个百度迁徙图
而同时呢东莞市事发
那么大家用这个
百度迁徙图来去解释
是不是这里面的很多人
大家看这个大量的人
逃到香港去
是不是这些人
原来就是在东莞
享受了这样一些不好的服务
那么现在他要逃回去呢
那这又是一种假设
那需要我们反复的去验证
那我们后来发现
这个发生的时间
事实上是春节
那么在春节前
在一两个礼拜前
这样的一种迁徙
事实上已经发生了
已经有大量的人流回到了香港
回到了其他的城市
而这一个特定的事件
事实上并没有明显的
改变迁徙的pattern
那这样的话
你就需要修正自己的假设
而大数据给我们带来的好处
就是你随时可以获得新的数据
随时可以去调整你的假设
那么有了假设以后呢
我们就要有数据的采集
当然我刚才也说过
采集有可能是发生于假设
形成之前
因为我们大数据强调的是
数据数据数据
我们需要大量的数据
需要解决我们的数据饥渴症
那这里面很重要的
就是我们要N=all
这就是说我们需要数据的全集
需要数据的全集
确实非常重要
即使是对于今天那些
大量拥有数据的公司来说
数据还是远远不够
我们跟阿里去聊
阿里拥有大量的
在线的交易的数据
但是它还是非常饥渴的
去寻求比如说物理世界的数据
用户在无限状态下
它的一些数据
因为它需要去理解
用户为什么发生了这么一次
在线的交易
在这个交易之前
他在做什么
他在想什么
他的动机是什么
为什么发生了
这就是数据全集的重要性
那么现在对于我们企业来说的话
我们对于数据的需求
我们对数据的管理也有不同
从八九十年代以来
我们企业的common practice
就是Enterprise Data Warehouse
我们数据仓库
事实上是现在我们企业
做商业智能BI的一个标配
商业智能或者是数据仓库
它是说我先有一个假设
我先有一个问题
然后呢我根据这么一个假设
根据这么一个问题
我把数据进行规整 进行处理
使得它能够去服务于
这么一个假设
而现在大数据时代
我们有一个新的名词
叫做Enterprise Data Hub
或者是叫做Data Lake
它跟Warehouse有什么区别呢
它的区别就是在于
我先把大量的数据都收集进来
然后我可以根据这些数据
获得一个假设
然后我对这个数据
能够做相应的处理
如果假设错误了
我能够把数据
又变成另外一种形态
这是一个很明显的一个变革
为什么
因为我们传统的数据仓库
它数据结构是不容易变化的
而我们现在在大数据的时代
在我们的基础设施里面
我们能够根据我们的问题
根据我们的假设随时的去改变
数据的状态
那么这就意味着
我们先把数据收集进来
那这些数据可能是来自于
我们企业内部
来自我们的客户关系管理
来自我们的交易系统
来自我们的生产线流程
也有可能你可以从外部
获得很多数据源
比如说开放数据
比如说你可以从数据的中介
数据的聚集者那边买来数据
你可以去社交网络
去爬来数据
所以这些外部的数据源
可以革命性的去改变
你的数据分析
你的商业智能
那么数据的类型呢
也是从结构化进入到了半结构化
甚至是非结构化
我这里可以列举一些
典型的数据
我们的企业拥有的数据
比如说日志分析
日志就是一种
非常典型的半结构化数据
大家知道我们大数据
第一个上市的公司
叫做在美国上市的公司
那它这家公司呢
事实上就强调这么一个Log analysis
第二类就是文本的分析
事实上同数据仓库的
结构化的数据
进入到了文本的分析
事实上是商业智能的一个
非常典型的一个跃迁
通过文本分析
我们可以了解
我们的用户的它的精神状态
叫做情感分析Sentiment analysis
通过文本分析
我们可以了解我们怎么能够
跟用户进行交互
我们通过文本分析
可以做问答系统
可以做客服
所有这些
都展开了一个全新的窗户
第三种呢就是图片和视频的数据
通过对图片和视频的数据
我们可以获得
更多的对客户的洞察
那这里面又需要
像模式识别
像计算机视觉
像深度学习等等这样一些
新的一些技术
还有我们现在大量的数据
事实上是有时空标签的
比如说我们的物联网数据RFID
比如说我们的微博数据
它都是有时空标签的
那么下面我们怎么能够利用
这些时空的标签
来对它产生价值
还有我们传统的数据
是以表格的形式存在的
而现在很多的数据
是以网络
是以图的方式存在的
比如说社交网络数据
怎么能够通过
像pagerank这样的一种方式
来去发现每一个节点的影响力
我怎么能够发现一个网络的
控制中心 这些大V是谁
所有这些呢需要图分析
需要网络来分析
所有这些新的类型的数据
组成了我们大数据的
这么一个拼图
那么这里面我们强调了
数据的重要性
这张PPT,slide
我把感叹号都换成了问号
为什么呢
我是想要从另外一个角度
去看我们如何去看待大数据
比如说我们刚才说的N=all
我们需要全量的数据
而在我们的现实生活当中
要拿到全量数据是非常困难的
有时候事实上
也并不一定需要全量数据
我给大家举几个例子
第一个是不是更多的数据
一定就比采样的好
未必
举一个很简单的例子
中国960万平方公里的领土
新疆 西藏 青海 内蒙古
四个省或者自治区
占到了中国领土的一半以上
那我是不是说
拿到了这四个省
或者自治区的数据
就能够去推知整个中国的
这么一个状态呢
事实上它还不如采样好
还有我们经常说原始数据
raw data
而raw data事实上
是一个矛盾修辞
因为数据是不可能
像矿产这样一种物理存在那样
是原始的
因为这涉及到数据的产生者
采集者
它本身的文化背景
它的价值取向
所以原始数据
本身就是一个矛盾修辞
而数据当中有信号
也有噪声
在大数据里面
我们面临的两难
第一个我们认知到大数据本身
就是充满着噪声的
充满着数据源的污染
而在另外一个角度上面来说
我们大数据强调的是
我要倾听每一个个体的声音
有一些很少发声的事件
可能是一个人他做了一个动作
通过传统的方法
他会别认作是黑天鹅事件
被认作是噪声
而在大数据里面
我们不能忽略
这样的一些信息
所以他同时又是可贵的信号
而采样的时候
经常会发生采样的偏差
采样偏差并不是大数据的问题
在传统的数据分析里面
也有很多
我给大家举一个非常简单的例子
那么比如说一个笑话
电视台在火车上面
春运的时候去采访
得出来了一个结论是说
所有的农民工都买到了火车票
这就是一种采样的偏差
那么在现实生活当中
事实上这样的采样偏差
也是大量的存在
又给大家举一个例子
在二战的时候
联军他要对飞机
他容易被受到易损的部分
容易被攻击的部分呢
他要对它进行一次调研
他发现飞机绝大多数的弹孔
都是在机翼上
所以他得出了一个结论
我要对机翼进行加工
但事实上
这里面已经发生了
一次采样的偏差
为什么呢
因为击中座舱的这些飞机
都没有飞回来
你并没有对那些飞机进行采样
在大数据里面
采样偏差就更多了
因为它数据是可能来自于
不同的数据集
而不同的数据集
它有不同的采样的规范
那么这样使得采样偏差
这样一种可能性就会更大
所以我这里面想要讲的
就是并不是说
更多的数据一定就更好
有时候采样可能是
更好的一种选择
而采样的话
也是容易发生错误
那么我们现在刚才也说到
大量的数据是来自于外部
我们要通过数据的交易
交换和共享来获得这些数据
那么这里面
就涉及到这些数据
它是有权利的
数据的产生者
或者是拥有者
他有数据的产权
而使用数据的时候
你要必须得注意
数据的隐私权
即使是他暂时许可了你使用
你也得关注
我这许可的时间和范围
有时候我可能还得提供
数据的拥有者
让它来能够对我的使用
进行审计
让它要有知情权
那如果说进行数据的交易的话
还有一个数据定价的问题
所有这些都是
更多的数据带来的问题
那么另外呢
我们数据的生命周期
要对它进行管理
大家知道数据从产生到运输
到存储到分析
再到反复的分析
它是有个生命周期
那这里面很重要的
就是我要去考虑
这个数据
它到底是来源于什么地方
这里面一个英文的单词
叫provenance
也就是说数据的出处和来源
但是我也不能仅仅关注
数据的出处和来源
因为在整个数据生命周期当中
数据的形式它的内涵
不停的在发生变化
所以我要去了解数据的整个世系
它的一个家谱
另外呢我们大数据的思想说
我们数据拥有了以后
我就不再删除了
因为数据总是有价值的
但事实上
并不是说所有的数据
它永远都有价值
到一定的时间
它可能变成了你的成本
变成了你的负担
给大家举一个例子
现在互联网公司
他通过cookie
他能够采集你上网的很多行为
那有些互联网公司
他甚至会把你的鼠标的
运行的轨迹都会采集下来
为什么
他希望了解你在浏览的过程当中
你感兴趣的地方在什么地方
那这些数据是不是
要永远的保存呢
未必
因为过了一年以后
他的整个网页的
它的layout
事实上已经变化了
那你这些鼠标的
移动的轨迹的数据
就没有任何意义
所以我们这里面
一直强调的是数据
它在产生的时候是价值最大的
你一定要在数据
产生的一小时之内
一天之内 一周之内
把它处理完
如果在这些时间段里面
你没有处理的话
也许你以后永远
都不会对它进行处理了
它事实上已经变成了你的负担
事实上我们经常说
一个72小时理论定律
也就是说我们参加了一次学习会
那么最好的去巩固去温习的时间
就是在72小时之内
而72小时以后的话
你可能永远再不会去碰
这个内容了
事实上道理是一样的
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接