当前课程知识点:大数据技术与应用 >  毛波:阿里全息大数据构建与应用 >  数据的进化历程 >  数据的进化历程

返回《大数据技术与应用》慕课在线视频课程列表

数据的进化历程在线视频

下一节:阿里DMP平台介绍

返回《大数据技术与应用》慕课在线视频列表

数据的进化历程课程教案、知识点、字幕

那个非常高兴

今天能来到清华

跟大家做一些

数据方面的一些交流

那从过去的十年

我是一直在做

数据相关的一些工作

那这十年呢

我感觉是

加起来我们回顾

之前的历史

真的比原来我们能查到

所有有历史记载的

那些年代

几十年 上百年的

那个变化发生的都多

那这个年代呢

我觉得是一个充满变化

也充满一些机会的一个时候

那所以非常高兴我们能够

能跟包括清华在内的

这些高校我们能来

互相交流

做一些校企的互动

非常的容幸

今天我给大家带来的是

阿里全息大数据的

构建与应用

那阿里

阿里集团

大家应该都知道

那个正好去年

我们也做了一次IPO

阿里集团下面

有非常多的事业部

那我们今天来的几位同学

是来自阿里妈妈事业部

阿里妈妈事业部

是负责整个阿里集团

在营销推广方面的

一个事业部

所有跟那个收入相关的

一些大的一些

那个叫业务都在这个地方

所以今天我在讲座过程中

可能会涉及到非常多的

跟我们现实中应用发生的

跟数据相关的这些东西

所以希望大家能带着问题

我们一起来交流和探讨

好不好

好 那我们进入

我们今天的分享环节

这几个词呢

会一会儿在我的讲座过程中

会得到一些体现

首先我们看一下

那个数据和大数据

那个我从2005年开始专做

在做数据这一块的领域

那之前都是讲数据

做BI分析 做数据仓库

做这种决策分析

那我也不知道是从哪一年开始

然后身边就突然冒出了一堆人

都在说数据

然后后来又都在说大数据

大概是在三年前

大概在2012年左右的时候

身边有一堆人

但是我觉得中间有

很多很多的人是

是属于跟风的

他可能要跟随一个潮流去参与

他有非常强的这个参与感

怕被别人抛下

那究竟什么是大数据

那我个人的一些理解

可能包含下面的一些特征

第一是 当然量要大是吧

你一共就几百条几千条数据

你还不好意思叫大数据

其次呢 我觉得它们要彼此关联

如果你的数据是

东边一个西边一个

这两个老死不相往来呢

我觉得也没什么意思

是单独的数据

在此我觉得场景要多样

最好你晚上在看电视

白天去打车上午在上课

然后晚上去KTV唱歌是吧

可能周末还去郊个游

所有的东西都能涵盖

这些场景的数据都在里面

最后一个

最重要的我觉得应该是

它要持续更新

就是你现在做的一个动作

能够对你未来

会利用到你以前的一些数据

对未来的一些东西

也会产生影响

就你做的动作

是能够对未来产生影响的东西

从这个角度来说

我觉得之前非常多的那些

放在那个档案馆

或者资料库里

从来没有人去翻的那些东西

我觉得就不叫到大数据

但是当一旦它们被拿出来

分析挖掘之后

我觉得才能加入这个体系

所以这是我对大数据的

四个理解

当然还有一点

有的人就是说

它要发挥价值

有个4V理论 叫value

还要发挥价值

发挥价值当然是个

最基本的要求

否则这些商业公司

没有价值的话

它是不可能去做的

那看一下我们在最近这十年

我们的这个数据的进化

就为什么就变成了这种大数据

大家都在说大数据的时代

首先这边简单概括了四个阶段

第一个阶段大家知道

在八九十年代的时候呢

可能有相当多的一些文件

那个时候数据库

都还是比较奢侈的东西

大家都是用一些文件

甚至是一些纸质的东西

非电子化的东西

在存储管理我们的数据

那到了九十年代之后呢

数据库这种东西

慢慢的流行起来

但那时候主要是商业数据库

像Oracle这样的东西

很贵很贵一套

好几万 十万块钱一套的那种

那在后来呢

可能因为它的数据量变大

计算 这种存储能力

有更高的要求

慢慢就扩展出了数据库集群

就它把可能十台机器

或者五台机器能通过一个管

上面架一个管理的一个软件

把它统一管理起来

变成一个数据库集群

在这个阶段呢

通过数据库和数据库集群呢

上面它架了一个叫BI和CRM

或者叫数据仓库的

一套解决方案

大概是 在中国大概是在

90年代后期到2005年之间

这个词是非常的热的

就数据仓库或那个BI

我记得当时就是

以电信 保险和银行这些金主

有钱的这些企业为代表的

纷纷都在起这种经营分析项目

或者商业智能项目

那养活了非常大的一批

第三方这种

这种叫中小级券商

那从2007 2008年开始

在美国大概是在

2006年的时候 领先两年左右

中国大概在2007 2008年开始

有一个词我相信

很多同学都听过

叫Hadoop对吧

Hadoop呢 然后在中国

在应该是在2007 2008年开始

就有很多的

以互联网公司为代表

就开始去探索 把它拿进

它是一道开源框架

就开始搭建自己的一套

分布式的一套数据平台

那它最大的一个优势是什么呢

它基本上

它是随着数据量

是可以计算和存储能力

是线性扩展的

这个是一个非常非常大的

一个吸引点

大家知道在传统的

那个Oracle这种数据库

包括那个就是SYbase

那一套数据库

DB2这种数据库

它一个非常大的硬伤是什么呢

它在中小数据量规模的时候

我说的是像千万 几亿行记录

这样的数据量的时候

它的表现是非常优异的

因为它有一套索引机制

但是在往上

尤其是你要分析一个月

几个月的这种历史数据的时候

它就非常的麻烦

它的那个性能会

指数级的下降

甚至完全就跑不出来了

这个点呢

可能在相当多的那个

那些中小集成商位

像电信联通

这种分析详单的时候

是吃过大苦头的

反正我当时看到

有很多公司是每到月底

下月初要出那个月详单

那些帐单的时候

他们的那些人

基本上是好几天

通宵不睡觉去做的

完全靠人肉去做

对 所以当时Hadoop

以Hadoop为代表的

这种分布式的

这种软件系统出来之后

互联网公司为什么会

第一个冲在前面

是因为互联网公司

首先数据量最大

它最大它就处理起来就最痛

最痛的人它就要最先跳起来

去做这些事情

所以2008年开始

阿里集团也是投入了

非常多的人力去做这个系统

但是我们大概

第一批测试的时候

就投入了几百台的

这样的服务器

中间有一个插曲

就是大家去搜索一下那个历史

阿里集团有一个项目

曾经叫去IOE

去IOE

I是什么呢 那个IBM

那个小型机

O是那个Oracle

以Oracle为代表的这种

商业化数据库

E是EMC的那个存储

就它是中心化存储 对

当时有一个背景是

阿里集团在IOE

这三家公司的

那个投入非常的大

Oracle当时我记得

当时我们集团是跟Oracle

签了一个无限制

license的一个协议的

就付出了非常高昂的成本

但是很遗憾它依然不能解决

我们存在的问题

尤其是我们在分析这种

大量的访问日志的时候

非常的吃力

基本上就跟钱没关系

功能都实现不了

所以我们就

当时投入了非常大的精力

从服务器到人力

去做这种分布式平台

当时走了两条路

那个第一条路是那个Hadoop

第二条路是我们自己

现在做的那套阿里云的

公有云的平台叫飞天平台

对 所以在这个阶段呢

我觉得从2008年到现在为止

我们的这种云计算

加这种端应用的模式

其实一直是从发展到现在成熟

到现在逐步的扩大

大概是在这个阶段

这是从计算领域来讲

另一个维度呢是

从那个时间来说

那最开始我觉得

大家去讲这种数据的时候

都是不定期

我想要嘛

老板想要一个分析报告是吧

那找一堆人

一堆那个产品运营

和那个技术去

把数据刨一刨

然后做一个报表出来他去看

那后来觉得这个

每次老板提了你再去做

也不太好啊

那就搞成一个

离线定期的就算了

可能是每周 每天 每月

去做这种定期的报表

离线定期这个点呢

大概是跟这个BI 和CRM

这一套大概是一个时期

然后再后来

大家觉得这种时间

还是很重要的

尤其是在一些关键点上

你的速度越快呢

你做出的决策会越快是吧

非常重要

是一些商业机会的把握

所以就推出了一些准实时的

这种数据分析

大概是在小时级 半小时级

或者是5分钟级这样的一个

一个情况

那到现在为止

大家知道很多很多的应用

你小时级 分钟级

其实是不行的

必须到秒级

最典型的是什么呢

导航 你开个车

你说我显示的是5分钟前

我在的地方

你拐弯 都不知道

早就迷路了 对不对

所以你一定是实时的 对

所以现在从技术上

和这种软件框架上

其实在实时和分布式

数据平台这两个大规模

和实时这两个维度

都已经非常的成熟了

那现在大概是这个阶段

我觉得接下去可能会

有更多的一些跟业务场景

跟生活场景相关

去做的更加体验更好

我觉得应该是

往这个方向去发展

在技术层面的话

我觉得大概是在这个

这个平台上会持续很长时间

再讲一下阿里的

那个数据进化历程

阿里是1999年开始成立的

最开始就非常分散的

老板要数据嘛就去提

然后基本上

那些开发和DBA就非常的苦

因为除了你做日常的

这种系统开发和运维之外

还得时常应付老板们

心血来潮提的一个东西

非常的苦

那后来呢

我们就做了说

既然我们老有老板要这个数据

那我们就做成定期的

定期的去

给他主动发一个邮件

或者做一个报表中心

这样的东西

这个阶段大概是

在2005到2008年

在2008年之后呢

我们其实在整个数据上

当时阿里第一次

在内部会议上提出了

我们要做一家数据公司

2008年

所以当时从公司做数据

这种团队里面

全部集中成立了一些公司级的

这种数据团队

那到现在大概是从2013年往后

其实我们会想得更清楚

我们觉得除了公司的数据之外

我们必须把这个

数据的范畴扩得更大

我们希望去聚合分享

把整个业界

把整个社会的数据都能聚起来

然后在处理之后

再分享给大家

所以从这个角度来说的话

我们做的那一套

原来Hadoop那套平台

它专攻企业内部用的

就可能不太实用

所以我们必须是

架一套公有云的平台

在用户权限和数据安全方面

要投入非常多的一些这种精力

包括一些安全规范

包括第三方的一些服务商

那现在有两个词

阿里就是内部讲的非常的多

在叫数据业务化 业务数据化

然后自己做了可能还不够

所以阿里还会通过投资并购

去补充一些短期内

可能自己的平台

还捕获不到的数据

所以前两年大家都说

看不懂阿里的投资的路线

感觉这个电影跟阿里

也没啥关系啊

那个健康也没啥关系对吧

娱乐更没啥关系

但是大家从数据角度去看

其实就都有关系了

因为这是一个人

你每天的时间

都会花在这些地方

接下来给大家分享一下

我们现在的

一些数据观点 两个

第一个叫以控制为出发点的

IT时代正在走向

以激活生产力为目的的DT

数据时代

这不仅仅是技术的升级

更是思想意识的巨大变革

这个是马云同学

在2004年的时候

在内部邮件上讲的一句话

后来当然也被扩散出来了

这个地方我觉得最核心的是

是这个

是思想意识的巨大变革

不是一个纯技术问题

那后来马总在

我记得是在北大的一次

那个公开讲座中又提到过

他说我们不仅要让

数据有智商

还要让数据有情商

第二个是数据是未来

最重要的生产要素

生产要素大家知道是什么

钢铁是生产要素对吧

石油是生产要素

水泥也是生产要素

那数据看不见摸不着

为什么是生产要素

后面我们会有一些分享

所以讲到这儿呢

我想请大家

做一个简单的互动

就是在大家心目中

认为阿里是一家

什么样的公司

空白那个地方

大家认为是一家

什么样的公司

填什么样的词

其实就是阿里

是一家电商公司

阿里也是一家平台公司

因为它不自己

自己买卖是吧

它是帮助别人买卖

这是平台

但是其实我们内部认为呢

阿里是一家数据公司

这个呢 其实在公司内部

在2008年的时候

我们就当时就

就是这么去定的

在2008年的时候

当时提了一句话叫

要做数据分享的第一平台

那后来呢

觉得分享又不太合适

觉得聚合更好一点

但是实际聚合分享都有

为什么阿里

是一家数据公司呢

看一下这点

首先大家知道阿里下面

有淘宝 天猫 聚划算 支付宝

等等等等阿里云 这些东西

那这些东西其实

大家每天上去买东西

买完之后呢

其实你这个流水

就已经过去了是吧

留下来的是什么东西

数据对吧

这个人在什么的时间内

买了一个什么样的商品

以什么样的价格

它后来的评价是好还是不好

对 留下的是这些信息数据

支付宝也是一样的

这是通过自身业务

去沉淀的数据

其次阿里以阿里云为代表的

这种基础设施会提供出来

让社会第三方的公司

或者是一些这种企业去用

他吸引第三方应用上来用

用着用着它的数据是

沉淀在平台上的

这是第二个

第三个刚才讲了投资并购

并补充一下数据

那现在可能大家能

看到的一些名字

高德 微博 优酷 快的

阿里影业 阿里健康等等

还有很多 一长串

估计有一百多个

还有就是我们今天可能会

讲的比较多的

我们讲我们在

用一种运营数据

和交换数据的方法去做

那我们的DMP平台

我们中文名叫达摩盘平台

其实就是为了这个方向

去做的一个产品

所以从这四个角度呢

阿里会去沉淀和积累

它的数据

然后通过积累的数据

再去为新的业务

为新的一些应用

去扩展它的

发挥它的价值

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

数据的进化历程笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。