当前课程知识点:大数据技术与应用 >  董飞:硅谷公司的大数据实战分析 >  工业实践 >  工业实践

返回《大数据技术与应用》慕课在线视频课程列表

工业实践在线视频

下一节:结尾

返回《大数据技术与应用》慕课在线视频列表

工业实践课程教案、知识点、字幕

好 我下面再聊一些

跟工业实践相关的了

因为我觉得这块

当然也

我也不想说做的太深入

因为毕竟会涉及到一些

工作方面的事情

但是我可以给大家介绍几个

挺有意思的

我观察到的挺有意思的

几张技术的架构

首先我说一个在LinkedIn的

大家看到这个图

感觉有点恐怖是吧

这什么玩意

一大堆线连来连去的

我先说一个背景

就在LinkedIn它是很多

这种数据产品

我刚才也说到了

但数据产品呢

它有一个前端和后端

前端的话

其实也是由很多

不同的组件构成

就比如说它要用到

就我上面的那个

上面那一层写着

比如说是那个方框写着

叫(英文)

就是什么呢

就是说我每个用户的行为

我要做个记录

而(英文)是什么呢

我就简单说

你所有的 所有的操作

你要把这个操作的信息

给记录下来

当然有一些是属于(英文)

比如说你的性能指标

是吧 你的这个CPU什么

内存的一些监控

这些东西你都要去做监控

而另外一块

因为它还有很多其他的

就是系统

包括像当时也用了Oracle

因为它就是遗留的一些数据

在那个地方

然后包括什么它也开发的什么

(英文)

就这两个是LinkedIn

它自己开发的

其中(英文)是一个(英文)

然后(英文)是基于

(英文)的一个

更加强大的这种分布式

(英文)

下面是什么呢

就说一个数据他要往一个地方

流到另外一个地方

你比如说你刚才说的那个

用户的(英文)它流到哪

可能要流到这个(英文)里面

也可能被那个比如说

(英文search)里面要用

我刚才当然也说到这个

(英文)它也要用

还有最后就是像(英文)

也是一个非常重要的一个组件

然后另外像我最右边的

一个圆圈

就是说它用到一些产品里面去

就比如说你要做一个(英文)

就是说 就比如说

你有很多个用户的联系人

是吧

在LinkedIn它会给你一个

你假如说你有兴趣

有这机会去面试的话

它会发你一张图

图写的就是把你的这

图谱给画出来

就是你可以想象

你有假如说有一百个联系人

他做了一个(cluster)

做了一个聚类

然后他就把那个颜色同样的

聚在一起

什么聚在一起

就意味着比如说

那些联系最深的

可能就意味着你的联系人

是最多的

就那个领域

也许比如说大家都是清华的

都在那个group里面

就是用一个颜色来表示

(英文)

我就给大家解释什么叫做

(英文)

另外一个就是叫(英文)

就是推荐引擎的意思

当然还有很多其他的

你像搜索E-mail(英文)

这里面都有很多的数据的流转

它为什么这么复杂

就是你看那么多线

它要干嘛呢

就是说前端的数据

跟后端的数据

它就是有很多个沟通的路径

就在最坏的情况下

你可以想象前面是n

后面也是n

对吧 不就是n的平方嘛

n的平方的这个复杂度

我们是希望是尽量避免的

就特别是在我们

设计一个系统的时候

就平方的复杂度

最好就比如说一个问题

比如你去面试

说你问了半天

人家说你能不能改进

你假如说你自己的(英文)

是n的平方

你就尽量要把它降下来

当然降到什么地步最好呢

说这个答案是不一定

你得看你的这个算法

是能 能不能达到那么

那么优化

当然大家也看到这个问题了

就是说这个复杂度太高了

就是说你前面一个数据类型

跟后面一个对接的

数据类型又不一样

所以你又得相当于

给每一个可能性的连接

做一个适配

那你说对于维护人员来说

太痛苦了

假如说我后面再加一个系统呢

对吧 假如这里再加一个

那个东西

就意味着前面的东西

又得一个个的得对应过来

是吧 你得写七遍

假如说前面那个东西

那它怎么解决

我给大家看一张图

其实看这张图

其实大家就有点感觉了

对吧

它就中间做了一个

做了一个管道这样的

一个东西

它叫(英文)

其实也就是(英文)

这个项目的前身

就它认为这个(英文)

是一个非常天然性的

然后具备什么叫(英文)

就是请你不用想的太复杂

就是说你前面一条

首先你记住它是个线性的记录

是吧 它一直

会往一个文件里面追加

那这就是一个(英文)

那它的好处是什么呢

它就首先非常简单嘛

对吧

你可以想象我就从

我一边是去追加

另外一边我从哪里读呢

我就从我的它叫先进先出

或者叫(Q)这样一个模式

那么它怎么去做呢

我觉得就首先就是大家

都统一一个格式呗

统一成什么格式

就是它叫(英文)

你定义好这个格式之后

那么前端跟后端

都遵循这样一个工作流

那么它就会把这个复杂度

就从原来刚才说的n方的级别

降到了现在是多少

大家看到了吗就是2n

是吧 2n当然你可以认为就是

我们叫(英文)

我们觉得还比较理想的

所以这就是我刚才想说的

一个很好的例子

就是大家在想一个事情的时候

其实(英文)还是挺漂亮的

对吧 可以看到

然后第二个就是

那我就介绍一下在LinkedIn的

一些大致的像Hadoop的

一些用途

在LinkedIn内确实还是

用到了很多Hadoop的一些

基础的一些技术

因为第一个它用自己搭的

自己搭的这种机房

跟这个(英文)

然后当然所以说它就会

用到很多

就可以比如说自己

去做一个实验

还有hoc的意思就是说

你自己去比如说

有个小的 小的集群

你可以自己玩

然后Production的话

大多数还是

跑在这个Hadoop上面

这个也是LinkedIn的一个特点

然后的话它也具备了

一些生态系统

在LinkedIn其实它有很多

像(英文)

他们用的都是像Hive

这种这样一个工具

我自己在那边其实也写了很多

像pig方面的

这个就一些工作流

然后在LinkedIn还搞了一个

叫Azkaban

它是一个workflow

这样的一个工具

我刚说了其实一个数据格式

它用什么存储呢

它是叫用(英文)

这样的一个东西

来作为它的存储的

一个(英文)

然后最后的话

其实跟刚才那个图也很想象

就是说它数据是怎么存的

它通过这个Kafka

作为一个中介

然后在哪里流入

也可以是Kafka

也可以是其他的什么(英文)

我觉得写

因为毕竟现在也在Coursera

我也可以稍微提一些

跟我们公司相关的一些就是

我们数据产品的一些实践

就我们也是想两个问题

就是说一个是说那么这个

技术能不能帮助我们

去实现教育的规模化

第二个问题是说

技术能不能去提高

改进我们的教育产品

我给这里有一张图

就这个图什么意思

我要看 我没有写

这个横纵坐标的意思

就大概是什么呢

你可以认为假如

横坐标是老师他的

一个评价的分数

评价的分数

然后呢它的这个纵坐标

是学生评价的这个分数

就如果说它是在一条

对角线上面

就意味着什么呢

就意味着老师跟学生

它的评价是完全一致的

是吧

这就是刚才提出就你

就我们是一个设想

我们是希望说

让学生来互相评价

互相评价他的分数

当然可能有些同学可能觉得

这靠不靠谱呢

假如说那个同学学习很差

或者是他就故意想要搞我

把我的那个分数

给弄的乱七八糟 是吧

这个我觉得也是有些办法

你比如说可以通过它的

就增加一些它的权重

权重是指什么呢

比如说这个人以前

就像你的一个信用一样嘛

对吧 你以前表现的很好

这个人你的信用高

我就相信你应该会做出一个

更公正的评价

反过来你自己要评的一塌糊涂

我就认为你的不可信

但我们这个实验结果就表明

其实大多数

还是在一条直线上的

就意味着我们这个方法

还是比较靠谱的

然后另外一个就是

我们那些那种

内部的数据的那种(英文)

就这些东西你可以想象

就比如说在做一些

这种教育产品的时候

你也得去监控

比如说这一门课程每天的

这个活跃度

多少人来

包括多少人走 是吧

他什么时候走的

他是不是在比如说

开小差是在

在第五分钟的时候

因为他可能第五分钟

他觉得累了

或者是比如听了

听了像我这么长的时间的讲座

大家也觉得很累的

然后还有一些就是说什么

就比如像每天他的那个

活跃的那个什么用户量

然后包括习题

就这个是什么意思

就是说它对每个

每个那个题目的答案

它会做一个变种

我们要这种(英文)

这是什么意思

就是说我不希望

每个人看到的答案

是一模一样的

假如说(你想)就可以抄了

或者是我认为我都选A

反正你答案你都是这么定的

我要把它给打乱

但这是一种很简单的做法

但是可能稍微复杂一点

它会把那个题目的描述

稍微的改一下

对吧 你可以想象

就是也许对于有些人

他的做法是应该A正确

有些的做法应该就是B正确

它会做一些(英文)这种方式

我们也会把它那个

就是行为给记录下来

它大概的那个意思

写的就比如说

这个题目的总体的

正确率是54%

然后呢它又分析出来

有多少人选这个

比如说(英文)

或者下面一个选项

就是做一些更

更细致的一种定性的分析

并且这个第一栏

是写的是它第一次尝试的

这种正确的比例

下面是写的叫(英文)

(英文)这个成绩是多少

所以我觉得这种都是

我们可以去

就都可以去衡量的

然后第二个就是

好吧 我就透露一下

我们公司的一个

技术的架构图了

还是挺复杂的

我想怎么 怎么给大家

就是介绍起来更加舒服一点

就首先是这样

就我们 我们Coursera公司

完全是基于技术是完全基于

AWS的

就我们没有自己的机房

没有自己的这个什么服务器

或者叫运营人员

每个人都 都要负责

好多是说比如说我想

比如在AWS开一百个机器

我一秒钟我就给开了

但坏的时候

假如(有人)给我关了

我就完蛋了

比如说我现在回国

那 对吧

我们当时还发生一个事故

就是(11:20)

然后顿时就在三天的时间

花了七千刀

这是很恐怖的

怎么说呢

比如说这个架构是这样

就是说我们在前端

它会有一些

我们叫(英文)

这里面包括电脑

包括你的这个手机端

APP端 iPad之类的

它是通过这个(英文)的请求

往后推

就是说叫请求吧

那它请求到哪里呢

比如说这边有个叫(英文)

它是一个做有点像CDN

就是做这种内容 内容

(风发)的

然后它这个CDN会

后来 后面也会连接到

后面的这种AWS的组件

就包括什么(英文)

(英文)是什么简单面向对象

就你可以认为就是

就是AWS上面的一个

(磁盘)了

然后它一些通知系统

像SQS (cloudsearch)

然后的话我来给大家

看一下这个

就这个是这样

就说前端也分

应该说分中间层吧

就是它是(英文)

这个ELD的意思是

叫(英文)

就它作为一个负载

负载均衡

你可以想想它这个后面

就会对应到这个

不同的 不同的模块

然后呢它也是通过

我们一个架构叫SOA

SOA的意思是叫

(英文)

就是对于每一个模块要独立化

它是一个正常运行的一个服务

那么在这个里面

当然也就分什么

它有些是(英文)

有些是(英文)

就什么意思就是说

对于有些东西

我就保证我直接(英文)

要立即返回

这就叫 这就叫(英文)

有些就是我不需要这样

我可能是每隔假如说

可能一个小时

我才需要一次

这个也有可能

比如说你的

我想想什么例子呢

对 就比如它那个(英文)

我不需要说每分钟

我都得知道

可能每个小时

甚至一天我才要知道一次

你昨天的运行效果是什么

这中间它是怎么去

去传递这个消息呢

是通过叫(英文)

就(英文)又是一个

它是一个叫什么基于

(英文)协议的这样的

一个通讯机制

它能够做到了

好多是说用(英文)

用这种非常通用的这种接口

比如说原来(英文)

大家应该要知道的话

它有一种什么(英文)

这种方法

就非常标准的

所以这种标准就意味着

所有的组件都用同样的

同样的协议去通讯

又简单又方便

然后的话我们

像我在的组就是

我是负责这种(英文)的

一些架构

所以我是负责相当于

最右边那一端的

就那一端的话

有很多东西的

就从数据的存储来说

我们有放在(英文)

这种简单 简单对象的

有放在第二层是写着(英文)

(英文)是在AWS上

它叫(IDS)

最近放

比如说我们一些源信息

像课程的那种内容

这种就应该说短期时间内

是不会变的

然后第三块是叫(英文)

我们把一些就是用户的行为

就比如说有多少人来

每天有多少活跃量

然后它干了什么

上了什么课

上了(英文)哪个

哪个 (英文)

我们就把它记录在

(英文)里面

然后最后我们再把这个信息

做一些整合

放到叫EDW

就是我们的这种(英文)

(英文)意思就是说

把很多未处理的什么

原始的这种(英文)

通过整理然后放进一个

非 有良好的(英文)

这样一个数据存储中心

它来干嘛呢

比如说你是(英文)

你就直接上去去查就行了

你就不用管就原始的数据在哪

就也帮助他们去提炼这种价值

就另外一端我也是稍微提一下

其实我们还是很注重

很注重什么

很注重第三方的东西

就第三方的话

就当然第三方就不是说

免费的了

对吧 你比如说我也用到

叫(英文)跟(英文)

就这些东西其实我觉得

在很多(15:36)公司

大家要知道

很多时候

我们不是靠技术来取胜的

而是靠什么 靠速度

靠你的对于商业产品的

这种理解

我们应该尽量的把时间

花在什么 刀刃上

那其他的东西怎么办

你就尽量的去用一些

已有的服务跟组件

如果说没有开源是可以

大家觉得开源搞不定

或者是有些公司

愿意提供这个服务的

你花一点钱

这我觉得还是可以去理解的

因为你想提供服务

所以说你也应该相信他

对吧

OK 刚才也说到一个

(英文)的一个概念

就最后的话就是我们

也是一个(英文)

就是讲最后Coursera用到的

所有的技术

看起来是个大杂烩了 是吧

我也不用它每个来介绍

就比如说我们举一个小例子

比如说那个大家看那个

小的金鱼那个东西

大家知道叫什么吗

对 它叫(英文)

对 这个我觉得挺有意思的

因为我觉得去年

好像是一个非常流行的

一个组件

就大概干嘛

就它是一个

轻量级的容器

就以前大家比如说

听过这个(虚拟机)是吧

就比如说你在一个Windows上

要装另一个系统

或者说你在(英文)系统上面

要装一个Windows系统

你怎么办

就是要装一个那种叫虚拟机

当然这个虚拟机你也知道

这个会很影响你的性能的

因为它就是 对 就是很慢

但是(17:01)

它就把这个东西做的

非常的轻量化

所以 所以这就是它的

一个优势

对 当然了我觉得这个里面

是不用说每个都得知道

只是说如果说

你要用到比如说

举个例子像前端的

比如说像play

play是(英文)的

一个前端的框架

就假如说你又要用前端

你又要用(英文)

那你怎么选呢

你最好还是选择像play

这种框架

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

工业实践笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。