当前课程知识点:大数据技术与应用 >  杨光信:数据系统架构 >  负载融合 >  负载融合

返回《大数据技术与应用》慕课在线视频课程列表

负载融合在线视频

下一节:数据系统架构成本

返回《大数据技术与应用》慕课在线视频列表

负载融合课程教案、知识点、字幕

第三个变革就是我刚才提到的

刚才也提到一些这种(英文)

实际上我这儿用了一个词

就是这种叫(英文)

实际上就是把各种不同的(英文)

把它给融合在一块去

那么实际上我们看一下

为什么会有这样的一些需求实际上

这个图我不知道后面能不能看的清楚

就是说如果我们去做一个

基于数据的驱动的这样的一个业务

或者一个应用的话

我们实际上我们最初的这样一步

可能就是我要去分析

这个业务到底是什么样的叫(英文)

那么在这个基础上我们再去了解

我们到底有哪些数据可以去用

然后有了这数据

可能以为数据是比较相关的

然后有的数据

可能不一定有太多的关系

但是我们需要把这个数据去

对它有一个理解

就是我们能够用的数据

或者能够收集到的数据

然后在这个基础上

再去把这个数据去做各种准备

或者是比如这种转换清洗

然后等等这样的一些处理

然后有了这些东西之后

我们再去在这个上面建我的模型

比方说你是一个预测的

这样的一个模型

或者是一个分类的

这样的一个模型

或者等等

然后有了这个模型

模型完了之后

你再去跑一些结果

结果可能要去评估

评估完了可能你要去

决定用这个结果的基础上

你再去做实施

在这个过程中间

你会产生大量的数据

也会用到大量的数据

然后这个数据

也会在实施的过程中间

产生了一些在互联网上叫(英文)

实际上在传统的这个领域

可能你要去通过

这种不断的市场调研然后等等

各种的反馈能够去把这个数据

再把它收集回来

然后再用到下一轮的

这样的迭代过程中间去

因为这个数据驱动

这个业务是很多情况下

你要不断的迭代不断要

所以形成这样的一个

有了这样一个模型

然后你去(英文)(英文)完了之后

得到一些新的一些数据

然后在这个基础上

再去做新的(模型

然后在一轮一轮的

这样把这个效果才会越来越好

所以形成这样一个闭环

另外我刚才提到就是说

以前它这个实效性的要求

并不是那么的高

就可能我有一个(英文)

(英文)上去之后

我可能它的这个效果或者它的反馈

我可能要过好长时间

才能够收集回来

那么在这种情况下

我把两套系统分开弄

实际上也是个比较好的选择

那么实际上

在互联网这个应用里头

这个就是我刚才提到的

比如大家在京东上去买东西

你可能前几秒

或者是前一段时间看的一些东西

会影响它后来出来的给你推荐的

或者甚至搜索的这样一些结果

完了之后那么在后台

这个东西在怎么怎么实现

这个图有点大可能字有点小

实际上就分成几个部分

就是说你用户在这个前端的

比如APP也好或者在PC上也好

你的这个点击会通过这样的一个

点击流这样的一个系统

会不断的收集到

我们这个系统里头去

点击流当然去了之后它有两个方向

一个就是说我们进入到一个实时的

这样的一个队列里头

另外一个进入到hadoop

这样的一个固定的这样一个存储

这个存储系统之后

我们在这个基础上用这些数据

然后会做一些这种长期的叫offline

或者是离线的这样一些

我们叫线下的offline

这种数据这样的一些(英文)

就是说我在去在上面

做各种特征的提取

然后在上面做各种各样的

这种离线数据的一些分析处理

然后这个实时的数据

它也会进到实时的

这样的一个(英文)里头去

然后在这个上面的这些处理

所有的这些处理这样的一些结果

然后会放到这个线上的

这样的一个叫(英文)里头

它就是包括各种各样的

比如这个商品的信息用户的信息

包括用户的这种行为的一些信息

然后这些

还有其他电商里面的一些(英文)点

比如说这个店铺

然后他的个人品牌

然后各种各样的

就是构成一个非常丰富的

这样一个数据库

然后你用户来了之后

它会根据他当时的

比如说你的时间地点

然后你个人的ID等等

这样的信息然后再去

这个比如说商品数据库里头

去取出一些东西出来

然后从推荐引擎

它的这样一些排序一些处理

然后最后把你看到的

这样的一些结果

这就是最后生成

这样看到这样的一个结果

所以基本上这个数据的反馈

或者loop它的这个实效

它是已经可以做到

这种秒这种级别了

那么就是说你如果在这种情况下

你需要去把这种处理

然后把它分开

然后比如说我今天点的这个东西

我要明天才能看得见

这个效果就打了很大的折扣对吧

所以这种情况下就是说

在这种互联网

当然还有很多类似的

比如说我刚才

提到的这种新闻推荐

包括很多这种搜索系统里头

实际上也有类似这样一些问题

就说你可能搜索的这些词

你点这样的一些东西

可能会影响你后面的这样的一个

它的搜索结果的展现

就等等类似于这样

有很多这样的一些(案例)

那么你如果没有

一些新的系统的支持的话

要做到这个事实际上是很难

非常非常困难的

那么现在呢因为没有

实际上没有一个很完善的

这样的一个系统

能够去真正的说

我能够去把这个点击流

这样一些实时的数据

然后和这个离线的这些数据

能够融在一块

能够让它能够

有一个很好的处理平台

所以现在有很多(英文)

但是在这个

实际上在这个工业界

又有很多这样的一些研究

就是怎么能够去让这个东西

能够看起来

做技术人可能都有这个洁癖对吧

我不要搞那么多不同的(英文)

然后把它们好像

把它揉在一块一样能够去

希望说内部它有一个比较(英文)

或者是一个比较干净的这样一个结构

这个方面呢可能是在这个SAP

它有一个系统叫(英文)

(英文)我2009年的时候

应该它那个(英文)刚在那做的时候

我在那个团队

当时做的它的这个分析的

这样的一个引擎

(英文)怎么做的呢

它就是说它实际上

也是跟前面提到(英文)

它的这种想法类似

它实际上就是说你的

这些(更新)能够很快的完成

然后呢我的这些(英文)的这些东西

如果都在同一个(盒子)里头

然后让它能够互相的不影响

然后而且能够

让这两类不同的操作

都能很快的完成

实际上它当时就想做这么个事

这个(英文)这个名字是怎么来的

给大家讲一个故事

这个叫(英文)(英文)是谁呢

(英文)是SAP的创始人

今年大概有70多岁了

所以这是他当时

他在这儿力推的这样一个项目

应该来说现在(英文)在SAP里头

可能他当时做这个东西的原因

就是想去代替oracle

因为有个笑话就是SAP卖一套系统

他们说oracle挣的钱比SAP多

所以就是因为

他有很多客户

都是指名道姓的就是说

我们就要用oracle

然后完了之后

我们这个SAP当时就看到这点说

我们要取代新一代

这个叫(英文)这种BI这种情况下

我们可能需要去做一个

这种自己的数据库

然后当时就那么就是采取这种

实际上这样最新的

这样的一个硬件的环境

但是(英文)也比较贵

它是那种用的是

我记得最初的时候

用的是这个HP的数据服务器

一台大概也在好几十万美金

到上百万美金这样一个级别

现在可能价格有一些变化

那么对于这样一个结构

它实际上也是类似的

就是说它里头有一个

实际上是两个不同的引擎

一个是它这个(英文)这样的东西

实际上是一个(英文)

一个压缩的一个列存储的

这样一个引擎

另外一个就是(英文)的

这样一个引擎

然后实际上它这个新的数据

它会先让(英文)引擎在处理上

它会建立一个数据的这样的一个结构

然后在很多(英文)终于过来以后

它会把这个(英文)这个东西

和那个列存储

那个里头的结果合并起来

最后把这个一块送出来

这个实际上就实现了刚才两个操作

就是(英文)和(英文)这个东西

都能够在很短的时间内完成

然后另外一个它是

对外是同一个大的盒子

它内部的引擎还是分开的

这是在(英文)那么对于互联网

互联网就是说大家可以现在搭一个

比较大的这样的一个系统的话

它会用到很多这样的一些(英文)

你有离线的你有在线的

但是没有这样的一个很好的系统

能够把这两个事在一个盒子

或者一个(英文)做的情况下

人们就想了很多招

就是这个做了一个(英文)

它就是说它有一个离线的

这样的一个叫(英文)就是(批处理)

有一个它叫(英文)

实际上就是处理的快速的数据

然后中间也是通过

这种应用逻辑这种方式

能够去把这两个不同的

这样的一些结果

能够把它给结合起来

我不知道(英文)这个名字怎么来的

但是你如果横着看的话

它可能这一撇这一撇这一捺

可能这么来的

所以这个就是说

在现在的互联网的应用里头

它会去通过这样的一个方式

实际上你不能说这个结构不好

但是它实际上就是说

它中间是有很多问题的

什么问题

就是你比如应用的这种逻辑

你实际上要在这个(英文)上面去写一遍

然后也需要在(英文)里头这个(英文)

或者(英文)再去写一遍

实际上就导致了一个问题

同样的事情你要做两遍

因为你的逻辑变了

你可能需要去(英文)

然后在不同的平台去(英文)

然后一般情况下可能很少有人

当然我们现在很多情况下

提到(英文)这种(英文)或者是(英文)

但是很多情况下就是说

你对于这个(英文)的东西也非常了解

然后对(英文)也非常了解

这个对人的这种要求

是非常非常高的

所以这种情况下对于系统的这种

也就是说同样的事情你要做两遍

这个对于开发工作量的

对于后续的这种维护的这种成本

都是一个大的问题

所以基本上就是说

当然没有办法

你现在就是只能有这个东西可以用

你没有别的东西可以用

除非你说在这个平台方面

有很多很多这样的

就说能够天然的

考虑这样一些问题

比如说跟(英文)一样

但(英文)它也不是一个开源的东西

这个是对OLXP这样的一些东西

那么我刚才提到的

是这两类OLTP OLAP

那实际上就是说我们现在看到的

更多越来越多的这种

数据处理方面的一些任务

比如说这种现在非常火的这些AI的

或者是(英文)

或者(英文)这样一些东西

实际上还有大量的这种(英文)这种

就是科学计算方面的一些东西

包括图的包括这种(英文)的这种数据

然后甚至包括这种搜索

这样一些东西

它实际上就是说目前这个状况

他们仍然是非常非常割裂的

就是从系统这个层面来讲的话

非常非常割裂的这样一个状态

就是很多不同的系统

你要做这个事

那么这个系统做这个事

那个系统做那个事

然后你很难把这个揉起来

这个中间那么就是说

像刚才(英文)提到的问题一样

你很多东西

你要做到很好的实效性

你要做到很好的这个

系统的可维护性

然后这个工作量还要少

实际上是很难很难的

那么就是说

如果能有一个OLXP的这样一个系统

能够去把所有的事都把它做得很好

而且也不用在不同的系统之间

来回去捣腾数据

这个对于整个应用的这种效率开发

应用开发的这种效率等等

各方面的一些东西

包括系统的可维护性

实际上是非常非常大的一个促进

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

负载融合笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。