数据的准备慕课视频播放-大数据技术与应用-MOOC慕课视频教程-柠檬大学

我们刚才讲了数据采集方面

在大数据时代

有一些什么样的新的一些内涵

那么我们下面再去看一下

数据准备

我还是想要重复

刚才三大思想当中

一个所谓的的我们拥抱混杂性

而不需要精确性

那这么一个东西

我们还是要反复对它进行批判

因为在大数据里面

数据质量还是重中之重

曾经一个非常著名的

一个调研机构

对很多大数据的分析师

进行了一次调研

那么他们期待的一个

有一个问题

叫做The Single Biggest Problem of Big Data

是什么对你来说

他们期待的结果是说

数据太大了

但事实上让他们大跌了眼镜

因为回答说数据质量不好

这么一个答案的人

是回答数据大的人的两倍以上

所以在大数据里面

数据质量还是非常重要

所以我们对大数据

要有一个所谓的有罪推定

大数据天生自然的

就是充满了噪音

充满了偏差

甚至是污染的数据源的

这是不可避免的

那么既然有了这么一种assumption

那你下面的目标就非常的明确了

你就是去可以对噪声进行建模

可以对信号进行建模

而且呢你要根据不同类型的数据

来决定你这模型的复杂度

你这模型太复杂了

你可能是overarch

你可能产生了一些数据里面

本身并不存在的结果

所以呢这里面

需要我们对数据质量

做很好的去处理

那么我们解决数据质量的问题

往往有这两种手段

一种手段叫做数据的清洗

和数据的验证

Data Cleansing和validation

而另外一种手段呢

叫做Data Curation

叫做数据治理

数据治理里面

很重要的一块叫Data Wrangling

那这些东西

在大数据的这么一个

context里面

有很多新的内涵

比如说数据清洗

大数据的量非常大

怎么去清洗呢

这里面有很多错误的数据段

有很多丢失的数据段

有很多相互矛盾

或者不满足我的数据约束的数据

而量又非常大

怎么办呢

可能我们先必须从一个

小的数据集开始

慢慢的再把它扩大到

更大的数据集

另外一个有趣的问题是说

我这样一种数据清洗的过程

能不能自动化起来

通过机器学习的方法

这是现在我们研究的前沿

另外一个很重要的

就是我这个数据清洗的

这样一种手段或者是过程

事实上是可以跟我们数据分析

过程的最后一个阶段

解释和可视化结合起来

我可以通过可视化的方式

来去发现数据集里面的anomaly

或者发现数据集里面的outlier

根据这些outlier

再进一步去跟踪

去trace down到哪些字段出了问题

这又是一个现在研究的

一个前沿的热点

这是关于数据的清洗和验证

而另外一个就是数据的curation

数据的治理

所谓数据治理

或者wrangling

就是我要把数据处理成

下一步分析

能够自然而然的去使用的

这样一种格式和状态

那么这里面也有很多新的工作

比如说automated learning

通过自动的学习

来去发现数据当中

尤其是非结构化数据当中

原有的一些结构出来

能够把一些entity

一些具体的数据的语意

能够发掘出来

然后呢进行相应的transformation

大家知道

今年获得图灵奖的叫做Michael Stonebraker

这个人事实上是一个

非常典型的知行合一的

这么一个科学家

他在数据库和大数据的

这个研究当中

做出很多贡献

而且呢每一个贡献呢

他都有相应的创业公司

他一共建造了九家创业公司

而他最近的一家公司

就是在做data wrangling

所以大家可以想见

数据质量是多么的重要

而数据准备

除了关注数据质量之外

另外一个要关注的

就是数据的表示

也就是说数据

以一种什么样的状态存在

它是有利于下一步的分析

数据的表示很重要的

就是要降低下一步分析的复杂度

第一个非常重要的复杂度

就是计算和通讯的复杂度

怎么来降低

计算和通讯的复杂度呢

我给大家举一些例子

第一个我们大数据

天生就是大

同时呢又是稀疏

同时呢又是高维

维度高

同时每一个维度又比较大

那这意味着什么呢

意味着我们对这些数据呢

是可以做特殊的处理

为什么大数据是稀疏呢

我给大家举一些例子

你比如说商品的推荐

它是一个巨大的矩阵

矩阵的一维呢是所有的用户

另外一维呢是所有的商品

那大家很容易想象的到

并不是说

每一个用户都购买了所有的商品

所以这个矩阵里面

大量是零

那这就是一个稀疏的矩阵

那么对于这样一种

稀疏的数据来说呢

很重要的就是我要用稀疏的方式

进行去处理

你比如说我们大量的线性代数

能够通过稀疏线性代数的

这样一种手段

这样一种数据结构和算法

进行处理

另外一个大数据大

怎么办呢

我可以去压缩

大家知道

大数据在流动的时候

是非常占用带宽的

那么我一个很直观的想法

就是用计算

来去置换带宽

同时大数据存储的时候

很占用磁盘

那怎么办呢

我可能对于那些冷数据来说

也就是说放在那边

可能是几个月

都不会碰一下的数据

我可以通过压缩

更高更复杂度的压缩来去置换

还有在我们的数据分析里面

一个非常典型的一个做法

就是我把表格数据

按照列来存储

也就是说一个列

所有的数据我都放在一起

这跟我们传统的想法

也是不相吻合的

我们在学数据库的时候

这个表格

我们经常是说

一行的数据

针对这同一个用户的

这一行的数据

我都存在一起

这样的好处是在于

我在进行交易的时候

事务性交易的时候

我在改变不同的字段的时候

是非常容易的

而我们分析往往是

并不会改变这个数据

我是对很多用户的同一个字段

进行分析

而这时候

我把数据按列来存储

带来了很多的好处

而按列来存储

带来的一个额外的好处

就是它的压缩率提高了

为什么呢

因为同一个列

它的一个数据类型是一样的

它要么都是整数

要么都是浮点

要么都是字符串

而我们传统的存储

按行来存储的话

它可能有各种不同数据类型

所以它的压缩率就变得很低

所以这里面就去解决了

数据计算和通讯的

这样一种复杂度

另外一个解决的方式

就是通过近似的计算

叫approximate computation

近似计算最典型的一种案例

就是Bloom Filter

大家都非常熟悉

我可以损失几个百分点的精确度

但是通过这样一种方式的话

我使得它的一个计算的复杂度

降低了几个数量级

所以这又是我们在数据表示当中

可以考虑的

除了这个计算和通讯的

复杂度之外

那么我们可能还要

需要去解决一些其他的复杂度

比如说统计的复杂度

我们刚才说过大数据

都是高维度的

有很多的不同的维度的特征

而你一旦把这些特征再组合起来

去考虑的话

你会发生维度的爆炸

那怎么办呢

其实你可以通过降维的方式

通过聚类的方式

来去解决这样一种统计的复杂度

还有我们数据

为了能够更好的进行处理的话

有时候我们可能还是需要采样

那么采样的话

我们经常听说就是我们要做

random 的采样

当然我也想强调一点

random 的采样

并不是说

用统一的这么一个采样率

我可能根据不同的组的数据

用不同的权重进行去采样

这在我们现实生活当中有很多

你比如说我要去调查

去预测总统的这么一个

支持率的时候

我可能会根据不同种族的人

不同年龄段的人

他的针对他的投票的可能性

来去不同的做不同采样

但是往往你也需要做一种

非随机的采样

为什么要做非随机的采样呢

是因为这么一个数据的样本

它到底是落在哪个组里面

你往往是不知道

你比如说我一个人有艾滋病

他不会跟别人说

或者说我这个人

到底是应该落在

哪一个技能的组里面

并不是表面上就很直观的

那你可能需要有一些

新的采样的方式

比较典型的就是所谓的

snowball 雪球采样

你先发现一个

在隐藏组里面的一个样本

然后寻找跟这个样本相似的

这些样本滚雪球这样

把它把这些数据

能够采样出来

那采样里面呢

事实上跟另外一个

大数据技术与应用课程列表：

李国杰：面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰：面向大数据的数据科学--课后习题

吴甘沙：大数据分析师的卓越之道

-数据思维方式的改变

-数据的假设与采集

-数据的准备

-数据的分析

-数据的解释与验证

-吴甘沙：大数据分析师的卓越之道——课后习题

董飞：硅谷公司的大数据实战分析

-个人介绍

-硅谷热门公司

-大数据简介

-大数据平台系统

-工业实践

-结尾

--结尾

-董飞：硅谷公司的大数据实战分析--课后习题

杨光信：数据系统架构

-数据系统架构历史

-从sql到nosql

-数据库系统实现变革

-负载融合

-数据系统架构成本

-杨光信：数据系统架构——课后习题

时磊：大数据网络可视化

-什么是可视化

-网络可视化

-大数据带来的新挑战

-大数据网络可视化的若干案例

-时磊：大数据网络可视化—— 课后习题

彭元：网络安全与大数据

-网络安全概述

-大数据安全分析平台

-大数据安全应用

-大数据平台安全

-彭元：网络安全与大数据——课后习题

钟义信：“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

-隐性智慧，显性智慧

-人工智能：能与不能

-人工智能的技术现状

-机制主义人工智能模型

-信息转换和智能创生定律

-人工智能与大数据

-钟义信：“人工智能与大数据”的创新研究——课后习题

吴军：数据为王和机器智能的时代

-什么是机器智能

-大数据的重要性及特点

-大数据中的因果关系与关键技术

-大数据与机器智能

-大数据思维

-讲座问答环节

-吴军：数据为王和机器智能的时代——课后习题

苏中：从大数据到认知计算

-大数据概述

-大数据相关新趋势

-大数据技术创新1

-大数据技术创新2

-大数据技术创新3

-大数据商业价值和前景

-大数据机遇和挑战

-苏中：从大数据到认知计算——课后习题

王新锐：金融大数据的法律实践

-金融大数据概述

-用户个人信息分类

-金融大数据法律框架

-实际案例和业界实践

-核心风险点

-王新锐：金融大数据的法律实践——课后习题

刘鹏：互联网变现与计算广告

-互联网与商业化

-大数据与计算广告

-计算广告介绍

-数据交易

-刘鹏：互联网变现与计算广告——课后习题

杨保华：区块链与数据科学

-从记账技术到区块链

-区块链确保数据真实性

-区块链确保数据安全性

-区块链衡量数据价值

-区块链的应用和总结

-杨保华：区块链与数据科学——课后习题

杨紫陌：个性化内容推荐

-个性化推荐系统

-推荐系统的召回与排序

-智能制作之个性化海报

-线上推荐系统其它要素

-杨紫陌：个性化内容推荐——课后习题

陆祁：用户行为大数据

-个人介绍及用户理解背景

-用户理解与用户画像

-案例1：用户属性识别

-案例2：自然人识别

-案例3：WOI与社交关系识别

-陆祁：用户行为大数据——课后习题

阳任科：大数据与AI的内容分析

-内容智能生态——数据、算法、应用

-大数据在内容分析的应用

-IP价值评估系统

-爱奇艺的剧本评估

-爱奇艺的智能评分

-阳任科：大数据与AI的内容分析——课后习题

王栋：美团外卖的大数据应用

-外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

-案例分析：智能营销场景的用户画像

-案例分析：智能助手场景的菜品画像

-王栋：美团外卖的大数据应用——课后习题

赵楠：商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

-美团旅行业务的用户画像构建

-用户画像的应用案例

-住宿需求预测问题

-营销补贴策略建模

-赵楠：商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧：美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

-互联网金融科技

-数据智能的三个案例

-技术展望

-陈彧：美团点评金融服务的大数据与人工智能——课后习题

毛波：阿里全息大数据构建与应用

-数据的进化历程

-阿里DMP平台介绍

-核心技术及案例

-数据应用

-毛波：阿里全息大数据构建与应用——课后习题

韩定一：在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一：在线营销中的竞价机制与数据价值——课后习题

龚笔宏：大数据在工业界中的经典案例分享

-竞价排名搜索

-主要技术问题

-点击率预测概述

-点击率预测实践

-龚笔宏：大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华：即时配送中的人工智能

-即时配送业务的背景及挑战

-案例1：订单分配策略

-案例2：供需平衡策略

-未来展望

-郝井华：即时配送中的人工智能——课后习题

[补充] 陈辉：数据驱动营销

-什么是数据驱动营销

-LTV留存分析

-RFM会员体系

-消费者微群画像

-渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-陈辉：数据驱动营销——课后习题

[补充] 艾小缤：大数据评价体系在金融、征信领域的创新

-金融大数据时代

-大数据客观信用

-我国的金融环境

-客观信用的实践

-应用案例与成果

-艾小缤：大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇：大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

数据的准备在线视频

数据的准备课程教案、知识点、字幕