当前课程知识点:大数据技术与应用 >  时磊:大数据网络可视化 >  大数据带来的新挑战 >  大数据带来的新挑战

返回《大数据技术与应用》慕课在线视频课程列表

大数据带来的新挑战在线视频

下一节:大数据网络可视化的若干案例

返回《大数据技术与应用》慕课在线视频列表

大数据带来的新挑战课程教案、知识点、字幕

刚才讲了很多都是网络可视化

我为什么网络可视化讲了很多

因为虽然我们是大数据

但是我感觉最核心的

还是怎么样把网络可视化做好

大数据带来新挑战

但是问题是

现在还没有很多人做的很好

我这里更多是

提出一些挑战新的点

然后给一些例子

但是不能表示这个我们都能做好

因为这个都非常难

再一个我讲

我们现在所谓的大数据

或者大网络都不大

最多我们做到

可能也就是几百万再多一点

对 更大的网络

其实现在数据也没有那么多

但是其实我们的网络可视化

有很多

如果你能在百位上做

在千位上再做

也不是很难的事情

待会儿会讲到 对

首先我再概览一下

就是网络可视化

之前20多年

做了这么多网络可视化

其实已经很成功了

首先我们有很多布局算法

和布局的不同的方法

就是不同的想布成什么样

然后我们有做很多系统

比如说(英文)

然后最近这是欧洲做(英文)

然后像(英文)做

在斯坦福

(英文)做了(英文)

现在(英文)很多

这些系统都可以用来做可视化

而且很简单

(英文)可能写个一百行

就可以做一个网络可视化

然后在这之上开发了很多产品

这些产品其实都卖了很多钱

所以相当成功

但是在大数据上

确实面临了很多挑战

然后有一些挑战

其实现在也很难解决

我这也试图就是抛砖引玉了

就是试图把它总结一下

在大数据上

我们网络可视化有什么难点

但是我要从这个

大数据网络的特征出发

我试图把它

按照我们那个四个V来概括

首先这个简单 规模大

这个很简单

就是大数据首先说的都是规模大

在这个网络里也是这样

首先我们有三亿微博用户

我们想一下

如果把这个三亿微博数据的

微博用户的这个好友关系

画一个图那怎么画

首先我感觉很少人能画出来

当然首先数据拿不到了

但是在这个远远大于16次方

就100万以上节点的一个

画这么大图的一个布局的时候

就遇到很多挑战

第二个是说

我这个三亿用户

它不光是一个小人那么简单

这每个人有很多复杂的

丰富的属性

也就是用户档案

比如说这个美国微博用户

可能连接到这个淘宝上

或者阿里巴巴

每个人估计至少有100维信息

100维的这个特征 少说 对

然后这些多变量的节点的属性

其实关联关系也有属性

我跟某个人是好友

但是可能我只发了一条(英文)

我只转发他一个文章

但另外转发了100个文章

他那有100个文章

可能里头还有内容

内容对应的(英文)

那个(英文)

还对应其它的一些人

但这个是非常多变量

异构的一个节点变的属性

这个其实对应的我们那个是

我们叫(英文)

第三个是这是更难的

就是说这些网络还在变化

比如说微博网络

写的我哪天跟哪个朋友

可能关系不好了

我们就可能断开了

然后后来哪天

我突然做了一个报告

又来了很多粉丝

那我网络又增长

所以随时间变化

这些动态性导致可视化就更难了

然后再比如说

我们的一个传感器网络

在野外可能哪天被一个

那个什么野兽攻击了

那我网络就坏了

然后哪天可能我又修复

它又好了

所以这个动态性又非常重要

有时候是致命的

另外一个我这是比较新的一个

我叫(英文)

是说我看这么多网络

我算了一下这些网络的(边)

除以节点数

在很大的网络上

这个数目都很小

就是说一般的这个大网络

都是比较(英文)的

然后有一个数据比较(英文)

就是稀疏

再一个价值也很稀疏

就是说我有二百个链接

但可能这里面

只有十个链接对我很重要

怎么去挖掘出这个

大数据网络上的

有价值的关系

这也是很难的一个点

就是这三个我都有一些解法

这个我暂时还没有什么解法

OK

所以这个其实我试图把它

(英文)这4个V

就是(英文)

正好还能(英文)上

所以这还是挺有意思的

然后再来说一下技术上的挑战

就是说我看到这个大数据网络

有这些特征

但技术上为什么这些特征

导致我这个网络可视化难以做

首先这个规模大了以后

如果超过10的8次方节点

我就很难存储到我的

这个自己的机器上去

大家可能说我现在服务器

这个内存都几个T

几百个T 没关系

但是我们可视化

需要加载到用户的电脑来看

所以你不可能把所有数据

都传给它

否则它可能网络就

就是它的看

因为看了你的可视化

导致它的机器崩溃了 对

再一个这个还是好说

可能到就是我们的

实际上我们的这个难点

还不在存储

计算 在计算上

我们一旦超过10的五次方

就是十万个节点的时候

我算这个布局很慢

可能需要花十秒钟 甚至更长

也就是说用户看你这个图

我要等一分钟

那显然是不太可能的

这个时间也不是很

其实对我来说也不是很难

更难的是

一旦我画一个图

这个图超过了一百节点

用户已经很难理解它的效果了

就是很难理解它的含义

比如说这个只有可能2000个

或者一万个节点

大家看到只能告诉我一个词

就是什么一般用(英文)

就是头发丝

或者什么线团来表示

就是它已经

你这里边的结构已经不重要了

只能告诉我很乱很杂

所以说在网络可视化上

如果超过100个 1000个节点

就很难去看懂 难以感知

所以这个实际上是最难的点

就是怎么能通过这个线

在类型上

首先因为它是一个多属性

不同类型的节点

在我计算布局的时候

如何考虑它的异构布局

就是说不同类型的节点

它的布局位置

是不是有特殊的要求

这个现在都没有一个统一的标准

再一个难以分析

就是我怎么能够同时分析的拓扑

和它的节点上的属性

以及边上的属性都是很难

再一个第三点在速度

或者叫动态性上

我们看想一下

我要展示一个图

这是信息可视化的一个作者

(关系网络)

它随时间变化在不断变

但如果想我们是一个三亿微博

或者什么 不是三亿微博

就是一千个人它在变

你怎么能展示

如果还是用这种展示是否有效

显然是无法有效

因为很难的

它的变化可能会很剧烈

你如何让它不同的(07:23)

能够比较稳定

让我们能够理解

否则的话我不能…

不同时间它完全不一样

我很难理解上一时间是什么样

再一个实际上时间特征

是一个三维的

第三维属性

而我原有的XY

就是位置

只能展示两维的位置信息

而很难展示带有时间的

大于等于三维数据

这是一个很

也是一个另外一个难点

在价值上

首先如果我可视化非常复杂

你很难理解

就这个可视化

对于用户是没有价值的

再一个如果纯用手工

而不结合分析的

比如数据挖掘和技术方法

是很难从这里手工提取

即使你用可视化

也很难手工提取价值 知识

OK

所以在大数据网络可视化上

我大概总结一下

也有一些方法

我把它分成四类

还是用这个网络可视化流水线

跟刚才是一样的

只不过在不同的这个阶段

用到一些新的方法

我分成四类吧

第一类是作为图布局

就是说在大网络可视化上

大图的布局仍然是需要的

但这里我画成蓝线是说

在这上的研究已经很多了

可能这上已经不太多研究空间

但更多的是

我如何再把这个很大的网络

进行变换

变换的容易展示

另外我可以不去做完全的变换

可以从这里挖掘出有用的东西

再来展示

再一个就是说我可以通过交互

就是说我怎么能够用

比如类似我刚才那种球

双曲线浏览器旋转的方法

能够找到更有价值的位置

所以这是我可能其中这三点

分别举三个例子

首先大图布局算法

我不想再仔细看

主要来看一些这些复杂度

传统的不去算

都是ON平方以上

大图的布局算法

可以到ON

我看ON(英文)N吧

这比这再小一点 对

可以到10的5次方节点

这是一个用大图布局算法布好的

这是我一个朋友他布的 OK

所以现在我们在做的就是

更多的用数据变换

比如说可以把这个图做过滤

过滤掉不重要的

或者做采样

把它变的简单

然后我举个例子

这是我2009年做过一个工作

我把这个图数据进行层次摘要

通过聚类的方法

做层次摘要

再通过可视化方法

能够做一个图的浏览

然后这里我主要来展示一下

这个是有点复杂

这个是一个

计算机拓扑的网络结构

实际上这是

原来用的数据是我们公司内部

每个人的(10:23)之间的

一个连接情况

这是他曾经的通信情况

然后实验室最顶层

有成千上万个节点

但是我通过聚类方法

把它聚成十多组

这里我只选了五个重要的组

然后这里面

实际上每一个内部的节点

都有关联

但是我通过可视化的

我们叫边捆绑的方法

把它捆绑起来

如果你不捆绑

它就会长成这样 OK

就是很复杂

但是你可以通过物理捆绑

来变成这样

你也可以通过这个语义捆绑

把它只划出

聚类和聚类之间的关系

然后你在顶层看到哪个聚类

你可能比较感兴趣的

你也可以通过交互的方法

看到这个聚类

比如说你可以理解成

这是我们年级有五个班

不同的同学之间的关系

我对这个班感兴趣

我可以通过交互方法

能够浏览到这里面去

然后进一步

如果我又对这个班里这个

比如说这是一个小组感兴趣

可以去看这个小组里的关系

OK

然后如果你看完你还可以回来

就是有点像那种

就是层次的一个浏览

OK

这是通过交互看一个大图的

其中一个方法

第二个

刚才是说做变换

把这个很大的图

做成一个树状的一个聚类结构

然后我从顶层

只看到这棵树的部分面貌

就是第一层面貌

然后我可以通过交互

去层次浏览

看到这个图的内部结构

以及其它子结构

这是其中一种方法

另一种方法

是我通过图挖掘方法

首先我想一下我想要什么

然后再通过挖掘方法

直接生成这个可视化结果

这是我们做的一个例子

这个数据是论文之间的引用

这个大家都能理解

然后这里关系是

如果A引用了B

那我就画一个

B到A的一个线

就是表示B的论文

影响A的论文

所以这实际上是一个

论文影响力的网络

实际上这是其中我一个

原来一个老师他做的一个论文

影响力比较大

来我们看他的论文影响了谁

然后这些论文又进一步影响了谁

如果我们都画出来

是一个很复杂的网络

但是我们通过一个挖掘算法

试图最大化

我们能看到的一个流动

这属于数据发掘方法

之后我会稍微提到一点

得到这么一个结果

我们管它叫影响力图谱

OK 第四个方案

就是刚才我一二四 四种方案

这四种方案

是一个用交互的方法

来展示大数据网络的

一个可视化的一个方法

这个我就不再展示

这个(英文)

因为刚才已经展示过

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

大数据带来的新挑战笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。