当前课程知识点:大数据技术与应用 >  董飞:硅谷公司的大数据实战分析 >  大数据简介 >  大数据简介

返回《大数据技术与应用》慕课在线视频课程列表

大数据简介在线视频

下一节:大数据平台系统

返回《大数据技术与应用》慕课在线视频列表

大数据简介课程教案、知识点、字幕

下面还是要做一些

大数据的方面的

就是一些论文的介绍

我首先来看这张图

首先大家知道一个这种

这样的一个典故吧

就是说国王赏赐大臣的这个故事

是不是有很多人知道

我就简单提一下

因为可能对吧

首先它是个8×8的棋盘

它是什么呢

就是说有一天

国王觉得他要赏赐这个大臣

然后让他提任何请求

都可以答应

那么这大臣就说

我就拿这个棋盘来看

这样在第一个棋

这个棋格里面我放一个麦粒

第二个棋格里面放两个

然后你可以想象

依此类推每

每后面的一个是前面的两倍

那么我现在给大家

就直接问一个问题

你觉得放满这样一个棋

整个棋盘需要多少麦粒

大家可以

因为我觉得在这边都是高才生

有没有脱口而出了

2的64方-1

好 对

很多同学已经给出了

最精确的答案

2的64方-1 完全正确

但我想说可以再换一个问法

就是大家可以说

把这个棋盘分成两半

前面一半是4×8

后面一半也是4×8

那么前一半填满要多大

就大概就是2的32次方

2的32次方

你觉得是一个

怎么去衡量呢

4个G

有的同学已经说出了4个G

其实大家听到4个G

觉得这是一个很生活化的

因为你想

很多人说你的这个

你的这个内存有多大

动不动就说4个G 8个G

对吧

所以这个听起来

其实已经深入人心了

确实不是一个很大的数字

比如说

但是问题是64

2的64次方不一样

它是什么呢

简单的说就是4个G×4个G

是吧

在香港我也会说

这个东西到底是怎么去衡量

但是平常比如说我们经常提

什么64位的计算机是什么意思呢

它就是说你的表示的空间

就可以从1到2的64次方

比如同学们大家经常提的什么

比如手机操作系统支持64位

但其实我是觉得

现在是没有这个必要了 对吧

但是它为了有个噱头嘛

我下面再告诉大家

这个东西到底有多大

首先上面是说一个

就简单的是说

我们在计算机里面

只能去表示这个大的数据

怎么表示呢

我们从最基础的开始叫bytes

应该说再小一点它bits

然后再上面

它有一些叫KB

然后GB

然后MB GB往上走

然后到了GB就是2的30次方

然后这里当然我就不念了

就大概意思就是说

现在这个也是跟我刚才

信息爆炸一样

说每年产生的数据

是在加速的增长

我记得当时在

对 就在十年前吧

当时谷歌不是提出了

那个gmail

说这个免费的邮箱达到一个G

我们当时也觉得不可思议

因为它提出的那天是愚人节

然后但是确实是

后来真的做到了

所以你想现在这个时代

已经进入了

个人已经到了TB以上的

这个level了

我在上个月吧

我就听过斯坦福的一个讲座

他里面有个

这个(03:25)的创始人

就当时他说了一个很有意思了

他说他当时也做了一个

想做一个邮件端系统了

他说他要叫Pmail

这是并且不是现在

他是大概在五六年前

就说我要做个Pmail

大家想Pmail什么意思

就说了支持一个PB的

当然这个东西

最后你也知道

也没有听说过吧

就已经流产了

首先这个东西根本不现实

就是不够有一个

具体的应用场景

但是他当时想的就是说

我能不能利用

这种P2P的这个模式

所有的这个

世界上所有东西

都可以存为我的这个存储空间

好吧

当然我就最下面

就给大家一个

计算了一个小的题目吧

是吧

大家就是根据我的这个提示

能不能计算出来

2的64次Bytes是等于多少呢

稍微可以计算一下

就用我上面的一些那种

这种表示的符号

16个EB

16个EB

还有没有别的答案

好 没了 是吧

好 行

(04:30)

我在别的场合

经常会遇到各种奇怪的答案

果然在这里就是

没有任何的犹豫

就是怎么算呢

其实我再稍微给大家解释一下

比如说这里

一个PB是2的50次方 是吧

那好

你再上面一层就是2的64次方

是多少呢 就是EB 是吧

然后你的2的64次方就怎么拆

就拆成2的4次方×2的64次方

所以就等于16个EB

OK

下面这个我就过了

就是我们觉得

就是说有时候

你老是盯着大数据

我们反过来

就反过来想想

那小数据是什么 是吧

其实你用计算机里面

很多东西它是很务实的

你不要老是跟我谈什么

这个东西有多少价值

你先给我谈一谈

你能不能省下来

可能一个单G的成本

单G的成本它怎么计算

我这里列出来了

它叫Numberl Everybody

Should Know

这个人是谁呢

就是我下面的一个引用

是(05:26)

大家听说过这个人吗…

就是说谷歌当时提出了那个

(英文)那个主要设计者

就是…

它是谷歌院士

现在是那个谷歌大脑

跟其它的那种

最核心项目那些负责人吧

他要让我们

要让我们牢记这些数字

当然我不需要你每个什么

精确到说多少毫秒

它不是毫秒

它是叫纳秒

纳秒是10的-9次方

你可以去换算一下

但是我给大家总结一下

它俩说明什么呢

就是第一个

这个数据它有一个叫(英文)

就越靠近CPU

越靠近就是计算的这个核心的

它的储存的

就是它这个读取的速度是越快的

这是第一点

第二个你也看到

那什么是最慢的呢

那最慢的就是

比如说它写的说网络传输

是吧

就是从加州

然后到(英文)

然后再返回加州

它这个包的数据的时间

是最慢的

当然因为你们还有些别的特性

就比如说你的磁盘

磁盘是比

比网络传输要快一点

但是它比那个内存是要慢

都是在一个数量级的这个差别

但是磁盘的话它有一个特点

就假如说你是顺序读

跟顺序

就是说跟随机读是不一样了

所以这里面

又是一个数量级的差别

等回去之后

我觉得大家也可以去记一下

就有时候我也会

因为我作为面试官

我也会面很多这种(英文)

然后我就问他

你加入给你一个

比如基本的这个计算机的配置

你给我计算出来

它的(英文)是多少

比如说让它排序

排一个一个G的数据 是吧

给你一个某个特定的环境

你认为它的(英文)是多少

它都是有瓶颈的

瓶颈就局限在

比如说我刚才说的这个

磁盘它的读取的速度相关

当然比如说你可能也知道

就是同学们要再知道一点

比如说像最近有一些新的

像(SFD) 是吧

它就是一个

在随机读取的方面

效率比这种磁盘的效率

要更高一个优先级 好吧

然后当然我这里边

也随便说一个小故事

我在百度我工作过一段时间

因为国内的这个互联网

就是大家知道是这样

就是它分南北 是吧

南边是联通 是这个吗

北边是电信

反正就是分两个网关

就是两个是就是叫什么

就是井水不犯河水

你比如你在南方访问是OK的

但问题是

假如说你的数据在

有些东西是在南方呢

那就得跨网 是吧

跨网的话那就很恶心了

那就得很慢很慢

那问题是百度一个问题

你得保证这个用户体验 是吧

我要让这个北京的用户

访问的数据的东西

要跟广州用的

用户的这个访问的东西

体验要一样

所以它的数据

存在一个同步的问题

那么怎么把这个同步

比如说北京的数据

要转移到广州来呢

大家想一想

我就是说了

就是它最后怎么办了

就是把北京机房的硬盘卸下来

然后坐飞机

然后运到广州

然后把它插进去 就这样

好吧

当然现在可能是

提出什么光纤计划了

这个我不知道了

反正当时就这么干的

就像这个东西

就像那个小笑话说

怎么把大象装进冰箱一样

好 OK

我们再换一个这个讨论的话题

当你觉得这个东西

大数据这么好

能解决一切的问题吗

当然回答当然是NO是吧

那么我现在给出这样一个东西

这是谁说的

这不是我说的

这是毛主席说的

他说一切不以结婚

为目的的谈恋爱都是耍流氓

然后我们把这个东西

再推广一下

那么一切不以谈

具体场景的大数据

也是耍流氓 对吧

那我们要怎么做呢

我给了三个R

这三个R是什么呢

第一个就是说

你要解决一个正确的问题

第二个就是说

你要搭建一个正确的团队

第三个就是说

你要用一些正确的tools

工具

我们在下面也会稍微给大家

就是提到这三个方向

就比如说从第一个方向来说

我们觉得能解决哪些问题

给出一些应用场合

我给了很多例子了

就比如说像第一个方面

找工作

举一个什么呢

比如说在Linkedin的时候

他们就有很多数据产品

像再举个例子

它里面有个叫(英文)

(英文) 对吧

这样的话就是说

它就根据你的

自己的这种用户行为习惯

做些推荐

那么这些东西

都是一些大数据所驱动的

第二个是电子商务

淘宝大家肯定是

每个人都在用

然后像每年

它有一个这个11・11节

我看了一下

它的去年的那个报道

确实是非常夸张

在两分钟的时间内

就到一亿的这个成交量

然后在全天是

应该是在300亿以上

这应该说是超过了美国亚马逊

就可以说所有的这种电商

当天的总和

不包括是加了他们什么

(英文) (英文)

对吧 他们的总和

这是非常夸张的

然后第三个

还另外再说个小故事了

就是在淘宝网

他们有一个叫数据模仿这个组

就是他们就干嘛呢

就是挖掘

就是所谓从数据里面

提取一些很好玩的结论

然后他最后

我看了一个东西

让我记忆很深刻

他写了什么

说女生的胸越大越败家

是吧

然后下面是在线教育

我觉得大家听说过

一个叫MOOC这样的一个说法

那MOOC是什么意思呢

就是它英文的全称是什么呢

Massive Open Online Courses

是吧

就是Massive的意思

你想想不就是这种大数据吗

然后下面一个是移动APP

就是我觉得

我就拿这个《今日头条》

举例子了

其实它那个里面

是做这种个性化推进

也是说在第一时间内

给你一个这种

这种数据方式的这种推荐

因为而且这个人

是我当年的同事加同学

就是创办的

假如说我可能当时不出国

就是这个公司的 对吧

某某(11:38)

这个下面一个是数据化医疗

它是写着(英文)

就这个公司

是由谷歌创始人的妻子创立的

它是干嘛呢

是检验你的DNA的一个

这个片段

它就比如说

拿你的口腔的唾液

不是唾液

就是你的口腔黏膜

然后它会分析出来

你的这种DNA的一种片段

根据这个片段

它可以分析出来你的

比如说你的祖先是谁

是吧

是不是成吉思汗 OK

下面一个是互联网金融

这块也是好多好多

这种创业机会

因为我看到特别是中国

在这边有很多个这个领域了

所以我随便拿一个

像有利网也是

你想想互联网

因为金融本身它就是一个

天然的一种数字化的这种

这种特性嘛

然后在里面

因为它又具备了这种个人来说

它流动性又很好

所以它有很多个这种机会

然后我们下面

再说一些国外的公司

就是这种是

它写了叫(英文)

当然我也不可能一一介绍了

因为确实太多太多了

我又根据这个图

也分了这几个类别

比如说上面的是一个大类

我写的是叫(英文)

(英文)里面

其实就是说是面向应用的

然后上面比如说有垂直类的

有这种面向消费者类的

像消费者类

实际上有很多社交公司

谷歌 Linkedin (英文)

然后像一些(英文)

当然这个我也说的是

很多像(英文)这种公司

它在不同的 你也看到

它在不同的里面都有交叉

像在(英文)里面

也有(英文)

它是做那种

它就是叫(英文)

然后比如说它有很多应用场合

做这个它叫(英文)

还有一些等等吧

比如说做一些(英文)

就是用虚拟化

然后再下面是

我写的是叫(英文)

就这里面也有一些更底层一点的

就举个例子

像我之前说的那个(英文)

它就是一样的

就是叫(英文)

还有一些比如说做一些分析的

比如说像(英文)

(英文)

都是这种大数据的龙头

(英文)是指一些数据库领域

比如说像(英文)

然后其实在技术

就是你不要被他们吓住

因为很多时候他会说

自己说都是(英文)

但是好多都是

也是基于一些

很通用的开源的软件组建构成的

有哪些呢

我在后面也会细讲

但是就给大家先列一下

比如像这种(英文)

(英文)是一个

这种记忆学习的

在很多方面的一个应用

然后像(英文)

是它的就是这种大表

然后像(英文)

我在公司推荐的

反正就是一个(英文)

然后下面我也是需要说一下

大数据在中国的一个开发过程

因为我自己

毕竟以前在百度工作过

其实百度也是挺有意思的

因为你要知道

百度这个

它也一个(英文)在前面

对吧 就是谷歌

那么比如说某某提出了云计算

是吧

然后百度提了框计算

某某提出了这个百度大

不是

它的那个大脑 是吧

百度大脑

然后我最有意思的发现

百度居然有个叫无人自行车

我还看到过它那个(英文)

就是就在我们的会堂上

然后它自动的行使 是吧

挺有意思的

百度在进入(15:25)

确实是花了很大代价

它在硅谷就搞了一个

叫深入学习研究所

然后当时也邀请到了

就是(英文)的创始人

(安忠义)

在那边做首席科学家

我前两天在这个

因为我们公司有个

合作伙伴大会

也刚好跟他聊了一下

然后下面是阿里巴巴

其实我刚才也说了一些

像双十一 数据魔方

这里面有个叫OceanBase的

首先这个阿里云

就跟那个(英文)有点像

就是说它是这个

云计算的一个代表

但是我再说一下OceanBase

就这个跟百度是有点渊源了

因为当年百度

因为它确实是很多东西

想(英文)谷歌

谷歌提出来一个金字塔

就是它高三辆马车

然后在百度里面

它叫金字塔项目

叫Pyramid

这个东西其实就是模仿

它的那个三辆马车

搞了一个架构

但很可惜

这个东西失败了

花了两年多的时间

无数的人力这个资

对呀 就是没有弄好

但是那些人

后来又去了淘宝

然后就开发了这个OceanBase

所以我刚才说为什么

那个双十一节 是吧

背后有那么强大的

这种数据支撑

跟(英文)

你想那可是一个都不能错的

就是靠底层的话

就是靠OceanBase的这种功劳

再之后就是腾讯 是吧

腾讯 当然我也发现是吧

微信真的是太强大了

现在叫这个微信连接一切

其实我觉得它真的是一个

现在已经达到了一个level

就是说做生态系统

它自己是达到那种做地基

然后你在这上面

就相当于这一个一个的桩

所以说我觉得在微信上面

还是有很多个

可以去开发的东西

然后最下面是

我也一开始提到的这种

现在来说估值

(17:12)

估值最高的小米

雷军也说过这句话

说两年之后

小米大数据没有价值的话

可能还真就破产

但就是因为你也知道

大数据后边意味的是什么呢

意味着的就是

你要烧很多流量

烧很多机器 机房

包括还要做备份

这都是钱

所以要没有很好的

价值(基础)的话

那它每年光烧这种 对吧

这么多固定的资产的投资

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

大数据简介笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。