当前课程知识点:大数据技术与应用 > 吴甘沙:大数据分析师的卓越之道 > 数据的准备 > 数据的准备
我们刚才讲了数据采集方面
在大数据时代
有一些什么样的新的一些内涵
那么我们下面再去看一下
数据准备
我还是想要重复
刚才三大思想当中
一个所谓的的我们拥抱混杂性
而不需要精确性
那这么一个东西
我们还是要反复对它进行批判
因为在大数据里面
数据质量还是重中之重
曾经一个非常著名的
一个调研机构
对很多大数据的分析师
进行了一次调研
那么他们期待的一个
有一个问题
叫做The Single Biggest Problem of Big Data
是什么对你来说
他们期待的结果是说
数据太大了
但事实上让他们大跌了眼镜
因为回答说数据质量不好
这么一个答案的人
是回答数据大的人的两倍以上
所以在大数据里面
数据质量还是非常重要
所以我们对大数据
要有一个所谓的有罪推定
大数据天生自然的
就是充满了噪音
充满了偏差
甚至是污染的数据源的
这是不可避免的
那么既然有了这么一种assumption
那你下面的目标就非常的明确了
你就是去可以对噪声进行建模
可以对信号进行建模
而且呢你要根据不同类型的数据
来决定你这模型的复杂度
你这模型太复杂了
你可能是overarch
你可能产生了一些数据里面
本身并不存在的结果
所以呢这里面
需要我们对数据质量
做很好的去处理
那么我们解决数据质量的问题
往往有这两种手段
一种手段叫做数据的清洗
和数据的验证
Data Cleansing和validation
而另外一种手段呢
叫做Data Curation
叫做数据治理
数据治理里面
很重要的一块叫Data Wrangling
那这些东西
在大数据的这么一个
context里面
有很多新的内涵
比如说数据清洗
大数据的量非常大
怎么去清洗呢
这里面有很多错误的数据段
有很多丢失的数据段
有很多相互矛盾
或者不满足我的数据约束的数据
而量又非常大
怎么办呢
可能我们先必须从一个
小的数据集开始
慢慢的再把它扩大到
更大的数据集
另外一个有趣的问题是说
我这样一种数据清洗的过程
能不能自动化起来
通过机器学习的方法
这是现在我们研究的前沿
另外一个很重要的
就是我这个数据清洗的
这样一种手段或者是过程
事实上是可以跟我们数据分析
过程的最后一个阶段
解释和可视化结合起来
我可以通过可视化的方式
来去发现数据集里面的anomaly
或者发现数据集里面的outlier
根据这些outlier
再进一步去跟踪
去trace down到哪些字段出了问题
这又是一个现在研究的
一个前沿的热点
这是关于数据的清洗和验证
而另外一个就是数据的curation
数据的治理
所谓数据治理
或者wrangling
就是我要把数据处理成
下一步分析
能够自然而然的去使用的
这样一种格式和状态
那么这里面也有很多新的工作
比如说automated learning
通过自动的学习
来去发现数据当中
尤其是非结构化数据当中
原有的一些结构出来
能够把一些entity
一些具体的数据的语意
能够发掘出来
然后呢进行相应的transformation
大家知道
今年获得图灵奖的叫做Michael Stonebraker
这个人事实上是一个
非常典型的知行合一的
这么一个科学家
他在数据库和大数据的
这个研究当中
做出很多贡献
而且呢每一个贡献呢
他都有相应的创业公司
他一共建造了九家创业公司
而他最近的一家公司
就是在做data wrangling
所以大家可以想见
数据质量是多么的重要
而数据准备
除了关注数据质量之外
另外一个要关注的
就是数据的表示
也就是说数据
以一种什么样的状态存在
它是有利于下一步的分析
数据的表示很重要的
就是要降低下一步分析的复杂度
第一个非常重要的复杂度
就是计算和通讯的复杂度
怎么来降低
计算和通讯的复杂度呢
我给大家举一些例子
第一个我们大数据
天生就是大
同时呢又是稀疏
同时呢又是高维
维度高
同时每一个维度又比较大
那这意味着什么呢
意味着我们对这些数据呢
是可以做特殊的处理
为什么大数据是稀疏呢
我给大家举一些例子
你比如说商品的推荐
它是一个巨大的矩阵
矩阵的一维呢是所有的用户
另外一维呢是所有的商品
那大家很容易想象的到
并不是说
每一个用户都购买了所有的商品
所以这个矩阵里面
大量是零
那这就是一个稀疏的矩阵
那么对于这样一种
稀疏的数据来说呢
很重要的就是我要用稀疏的方式
进行去处理
你比如说我们大量的线性代数
能够通过稀疏线性代数的
这样一种手段
这样一种数据结构和算法
进行处理
另外一个大数据大
怎么办呢
我可以去压缩
大家知道
大数据在流动的时候
是非常占用带宽的
那么我一个很直观的想法
就是用计算
来去置换带宽
同时大数据存储的时候
很占用磁盘
那怎么办呢
我可能对于那些冷数据来说
也就是说放在那边
可能是几个月
都不会碰一下的数据
我可以通过压缩
更高 更复杂度的压缩来去置换
还有在我们的数据分析里面
一个非常典型的一个做法
就是我把表格数据
按照列来存储
也就是说一个列
所有的数据我都放在一起
这跟我们传统的想法
也是不相吻合的
我们在学数据库的时候
这个表格
我们经常是说
一行的数据
针对这同一个用户的
这一行的数据
我都存在一起
这样的好处是在于
我在进行交易的时候
事务性交易的时候
我在改变不同的字段的时候
是非常容易的
而我们分析往往是
并不会改变这个数据
我是对很多用户的同一个字段
进行分析
而这时候
我把数据按列来存储
带来了很多的好处
而按列来存储
带来的一个额外的好处
就是它的压缩率提高了
为什么呢
因为同一个列
它的一个数据类型是一样的
它要么都是整数
要么都是浮点
要么都是字符串
而我们传统的存储
按行来存储的话
它可能有各种不同数据类型
所以它的压缩率就变得很低
所以这里面就去解决了
数据计算和通讯的
这样一种复杂度
另外一个解决的方式
就是通过近似的计算
叫approximate computation
近似计算最典型的一种案例
就是Bloom Filter
大家都非常熟悉
我可以损失几个百分点的精确度
但是通过这样一种方式的话
我使得它的一个计算的复杂度
降低了几个数量级
所以这又是我们在数据表示当中
可以考虑的
除了这个计算和通讯的
复杂度之外
那么我们可能还要
需要去解决一些其他的复杂度
比如说统计的复杂度
我们刚才说过大数据
都是高维度的
有很多的不同的维度的特征
而你一旦把这些特征再组合起来
去考虑的话
你会发生维度的爆炸
那怎么办呢
其实你可以通过降维的方式
通过聚类的方式
来去解决这样一种统计的复杂度
还有我们数据
为了能够更好的进行处理的话
有时候我们可能还是需要采样
那么采样的话
我们经常听说就是我们要做
random 的采样
当然我也想强调一点
random 的采样
并不是说
用统一的这么一个采样率
我可能根据不同的组的数据
用不同的权重进行去采样
这在我们现实生活当中有很多
你比如说我要去调查
去预测总统的这么一个
支持率的时候
我可能会根据不同种族的人
不同年龄段的人
他的针对他的投票的可能性
来去不同的做不同采样
但是往往你也需要做一种
非随机的采样
为什么要做非随机的采样呢
是因为这么一个数据的样本
它到底是落在哪个组里面
你往往是不知道
你比如说我一个人有艾滋病
他不会跟别人说
或者说我这个人
到底是应该落在
哪一个技能的组里面
并不是表面上就很直观的
那你可能需要有一些
新的采样的方式
比较典型的就是所谓的
snowball 雪球采样
你先发现一个
在隐藏组里面的一个样本
然后寻找跟这个样本相似的
这些样本滚雪球这样
把它把这些数据
能够采样出来
那采样里面呢
事实上跟另外一个
相关的领域相关
这个领域是现在非常火的领域
叫做compressive sensing
也就是说你在你对这个数据集
能够对它进行compressing
把很大的一块数据
变成很小的一块数据
但是你不会去丢失它的信号
你还能够根据这个小的数据
把它还原成大的数据
这也是现在研究的
一个非常重要的热点
那么最终我还是强调
你未来计算是一种
什么样的模式 范式
那决定了你现在数据的表示
应该是什么样子
比如说我们未来的计算
是数据并行的
那你现在的数据表示
一定是以表格这样一种方式存在
如果你未来的计算是图计算
那你现在的数据一定是以网络
或者是图的方式存在
这里面要吻合起来
关于数据表示
我最后想提的一点
给大家推荐的
就是这么一个UIMA
Unstructured Information
Management Architecture
这是一个开源项目
但是在现在很多的数据分析的
大项目里面都得到了使用
它能够使得你各种类型的数据
很好的存在在这么一个架构里面
以适合不同分析的需求
最有名的项目就是IBM的沃森
大家都知道
他在美国的这么危险的
这么一个项目里面
有点类似我们中国的开心辞典
在这么一个项目里面
战胜了人类的对手
而他的大量分析
就是建筑在这么一个UIMA
所容纳的各种的数据表示之上
所以这个是值得大家关注
-完整讲座
--完整讲座
-李国杰:面向大数据的数据科学--课后习题
-数据思维方式的改变
-数据的假设与采集
--数据的假设与采集
-数据的准备
--数据的准备
-数据的分析
--数据的分析
-数据的解释与验证
--数据的解释与验证
-吴甘沙:大数据分析师的卓越之道——课后习题
-个人介绍
--个人介绍
-硅谷热门公司
--硅谷热门公司
-大数据简介
--大数据简介
-大数据平台系统
--大数据平台系统
-工业实践
--工业实践
-结尾
--结尾
-董飞:硅谷公司的大数据实战分析--课后习题
-数据系统架构历史
--数据系统架构历史
-从sql到nosql
-数据库系统实现变革
-负载融合
--负载融合
-数据系统架构成本
--数据系统架构成本
-杨光信:数据系统架构——课后习题
-什么是可视化
--什么是可视化
-网络可视化
--网络可视化
-大数据带来的新挑战
-大数据网络可视化的若干案例
-时磊:大数据网络可视化—— 课后习题
-网络安全概述
--网络安全概述
-大数据安全分析平台
-大数据安全应用
--大数据安全应用
-大数据平台安全
--大数据平台安全
-彭元:网络安全与大数据——课后习题
-人工智能系统的本质功能模型
-隐性智慧,显性智慧
-人工智能:能与不能
-人工智能的技术现状
-机制主义人工智能模型
-信息转换和智能创生定律
-人工智能与大数据
--人工智能与大数据
-钟义信:“人工智能与大数据”的创新研究——课后习题
-什么是机器智能
--什么是机器智能
-大数据的重要性及特点
-大数据中的因果关系与关键技术
-大数据与机器智能
--大数据与机器智能
-大数据思维
--大数据思维
-讲座问答环节
--讲座问答环节
-吴军:数据为王和机器智能的时代——课后习题
-大数据概述
--大数据概述
-大数据相关新趋势
--大数据相关新趋势
-大数据技术创新1
--大数据技术创新1
-大数据技术创新2
--大数据技术创新2
-大数据技术创新3
--大数据技术创新3
-大数据商业价值和前景
-大数据机遇和挑战
--大数据机遇和挑战
-苏中:从大数据到认知计算——课后习题
-金融大数据概述
--金融大数据概述
-用户个人信息分类
--用户个人信息分类
-金融大数据法律框架
-实际案例和业界实践
-核心风险点
--核心风险点
-王新锐:金融大数据的法律实践——课后习题
-互联网与商业化
--互联网与商业化
-大数据与计算广告
--大数据与计算广告
-计算广告介绍
--计算广告介绍
-数据交易
--数据交易
-刘鹏:互联网变现与计算广告——课后习题
-从记账技术到区块链
-区块链确保数据真实性
-区块链确保数据安全性
-区块链衡量数据价值
-区块链的应用和总结
-杨保华:区块链与数据科学——课后习题
-个性化推荐系统
--个性化推荐系统
-推荐系统的召回与排序
-智能制作之个性化海报
-线上推荐系统其它要素
-杨紫陌:个性化内容推荐——课后习题
-个人介绍及用户理解背景
-用户理解与用户画像
-案例1:用户属性识别
-案例2:自然人识别
-案例3:WOI与社交关系识别
-陆祁:用户行为大数据——课后习题
-内容智能生态——数据、算法、应用
-大数据在内容分析的应用
-IP价值评估系统
--IP价值评估系统
-爱奇艺的剧本评估
--爱奇艺的剧本评估
-爱奇艺的智能评分
--爱奇艺的智能评分
-阳任科:大数据与AI的内容分析——课后习题
-外卖行业及场景简介
-餐饮及外卖行业大数据应用框架
-案例分析:智能营销场景的用户画像
-案例分析:智能助手场景的菜品画像
-王栋:美团外卖的大数据应用——课后习题
-旅行业务的特点
--旅行业务的特点
-美团旅行业务的用户画像构建
-用户画像的应用案例
-住宿需求预测问题
--住宿需求预测问题
-营销补贴策略建模
--营销补贴策略建模
-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题
-互联网金融背景介绍
-互联网金融科技
--互联网金融科技
-数据智能的三个案例
-技术展望
--技术展望
-陈彧:美团点评金融服务的大数据与人工智能——课后习题
-数据的进化历程
--数据的进化历程
-阿里DMP平台介绍
-核心技术及案例
--核心技术及案例
-数据应用
--数据应用
-毛波:阿里全息大数据构建与应用——课后习题
-在线营销
--在线营销
-竞价机制
--竞价机制
-数据价值
--数据价值
-韩定一:在线营销中的竞价机制与数据价值——课后习题
-竞价排名搜索
--竞价排名搜索
-主要技术问题
--主要技术问题
-点击率预测概述
--点击率预测概述
-点击率预测实践
--点击率预测实践
-龚笔宏:大数据在工业界中的经典案例分享——课后习题
-即时配送业务的背景及挑战
-案例1:订单分配策略
-案例2:供需平衡策略
-未来展望
--未来展望
-郝井华:即时配送中的人工智能——课后习题
-什么是数据驱动营销
-LTV留存分析
--LTV留存分析
-RFM会员体系
--RFM会员体系
-消费者微群画像
--消费者微群画像
-渠道倾向性分析及行业竞争分析
-机器学习潜客挖掘模型
-- 机器学习潜客挖掘模型
-陈辉:数据驱动营销——课后习题
-金融大数据时代
--金融大数据时代
-大数据客观信用
--大数据客观信用
-我国的金融环境
--我国的金融环境
-客观信用的实践
--客观信用的实践
-应用案例与成果
--应用案例与成果
-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题
-外部链接
--外部链接