当前课程知识点:大数据技术与应用 >  时磊:大数据网络可视化 >  大数据网络可视化的若干案例 >  大数据网络可视化的若干案例

返回《大数据技术与应用》慕课在线视频课程列表

大数据网络可视化的若干案例在线视频

下一节:网络安全概述

返回《大数据技术与应用》慕课在线视频列表

大数据网络可视化的若干案例课程教案、知识点、字幕

讲一下其中一个

基于图压缩的一个

用网络可视化展示大数据的

一个算法

首先我的一个出发点是

我其实2010年和2012年

得了两次那个(英文)

其中2011年没得

我也去参加了

但是我做到的一个结果就是这个

但是它的题目

是网络流量可视化

就是给你一些数据

就是实际上它可能是偏真实

但是它加了 掺杂了一些

使得你不能就是反向得到

那个原始的就是流量

就是保密

就是但是它其实是蛮真实的

一个网络

它是从一个局域网里

得到所有的流它可以

比如说我们现在用这个

(英文)

那些一些流的格式

那些流的格式作为原始数据

你通过可视化方法

以及分析方法

能够找到里面哪一些重要

而且有安全隐患一些事件

最开始我是2011年做的这个工作

就是做了这么一个东西

我就用这个分析

然后发现我怎么也找不到

因为这个实在太复杂

虽然我也提交

后来没有得奖

然后原因是这个网络

节点实在太多了

节点上也有一些属性

我实在是看不懂

然后后来我用我之前那个

我们叫(横色)聚类的方法

做了这么一结果

但还是很难看懂

所以后来我就想

这个怎么能够做好

后来就发现有一个

这个安全流量领域

有这么一个特点

就是这些拓扑

都是有很多冗余的

所以我们就做了一个

叫图压缩的一个方法

这个方法非常简单

就是我们叫

图信息的(无损)压缩

我们看这么一个图

这是原始的一个图

我们可以无损的压缩成这样

什么意思 就是这些点

就是这些

可能有些攻击别人的

是一个扫描

扫描别人的一个

叫这个被攻击的节点

他攻击别人

然后那些节点

实际上只被这个人攻击

所以那些节点在网络里

它的拓扑是等价的

然后我如果把这些点合并起来

画成一个点

那就会非常清晰

清楚看到这里的一个拓扑

以及攻击的一些事件

然后我们其实就做了

这么一个方法

这个方法实际上用一个算法

来算出哪些节点

可以压缩在一起

后来发现这个算法会非常简单

就这样我们把这个图

画成一个邻接矩阵

然后我们看这个邻接矩阵里面

每一行

每一行实际上表示

一个点和谁连接

然后这哪些行是一样的

这一样的行

实际上它在网络拓扑是等价的

我就把这个压缩起来

这个有什么好处

首先它是确定性的

再一个它没有参数

不需要收任何参数

它的复杂度是线性的

而且它是可扩展的

就是我可以简单扩展到

(有相有全)的图

因为如果无相无全

它那些这个

就是有边的位置都是1

如果有(全)就是2和3

你可以把它做成一个(英文)

就是一个向量

来做它的相似度

或者它的等价性判断

然后也可以很简单

做一个近似压缩算法

就是说我可以算

每个节点的这个

边的这个向量

它的一个(英文)

比如说我可以算那个

(英文)这个(英文)

可以算其它的(英文)

我只用一个参数

就是我的近似度

就是可以确定

我能压缩的比例

然后但是还有很多的好处

就是它的算法

虽然会不是线性

但是也可以做到还是蛮快的

大概是OKN 对

然后我们的一个实际做

用挑战赛的数据集

做了一个实验

就是发现用我们的压缩以后

压缩率都很高

大概在很多数据集上做到95%

就是说原来是一万个点

现在只剩二百个点 OK

然后速度会快很多

因为原来一万个点

你布局可能要十秒

现在我压缩以后再布局就非常快

这是一个例子

刚才那个图就长成这样压缩以后

然后在这上

我们通过一些可视化方法

比如说有一些节点是完全近似

就是完全一样拓扑的

有一些节点是不完全一样的

它可能是一个近似压缩

然后我可以通过颜色

来表示它的不同的近似度

然后这是原始的图

我们经过压缩以后变成这样

我们还允许用户手动

把一些已经压缩的节点

再压缩起来

它还可以做成那样

然后我们用这个

再去做2012年挑战赛

就得了一个奖 OK

那后来我们用另外一组数据集

这是一个数据中心的网络图

原来是长这样

我最开始用一个过滤方法

就是我找到这里度最大

就是连接节点最多的一些机器

把它留住

而连接很少的就过滤掉

然后变成这样一个拓扑

但是这个拓扑

实际上跟原来的拓扑

(04:46)就是差异很大

但另外一个

我首先把它压缩一下

然后再去做过滤

得到那样一个图

跟这个拓扑很像

然后就是先压缩再过滤的方法

会比直接过滤的方法要好很多

然后这是原始方法

和我之前做层次聚类

以及用这个压缩方法

以及手动去组合压缩

共用的方法的一个比较

OK 所以这是一个例子

然后第二个例子

是一个多维的一个网络可视化

首先先讲一下

就是所谓多维网络数据

也就是高维网络数据什么意思

很简单

就是节点上带一些属性

比如看这是我们的一个网

校园里的一个社会网络

节点上带各种属性

比如它的不同的角色

有它的国籍等等

然后所以多属性网络

我们定义为拓扑结构

加上节点的数据

多维节点数据

异构网络在这之上

就是节点有不同类型

不同类型的节点有不同的属性

这些属性可以有共通的属性

也可以有不一样的属性

那还是一个例子

校园社会里可以有老师和学生

老师有一些属性

学生有一些属性

然后拓扑结构加节点类型

再加节点的属性

就组成了一个异构网络

异构网络

其实跟我们原计算机网络

这个概念是共通的

所以计算机网络也是说

我一个计算机网络里

节点可以是手机

可以是计算机

也可以是路由器

所以它是异构的

而在我们图数据上

如果抽象成图数据

一般我们来看成是一个

多属性的一个

带颜色的一个图

就是用颜色来表示这个多属性

说一下我们这个

所谓洋葱图的可视化

就是我通过多层压缩

刚才那只是一层

就只用拓扑压缩是一层

但我们现在是

先通过节点属性压缩

再通过拓扑压缩

再通过拓扑加属性压缩

一层一层去剥开这个图

这是刚才讲过的一个例子

然后这是论文网络

实际上论文网络

另外一个类型是它的一个

在微博转发的一个

一个转发网络

这都是所谓影响的网络

我发了一个微博

它影响到了谁

刚才论文引用原始图是长这样

实际上我们是做了一个

最核心的是做了一个矩阵的分解

然后矩阵分解目标是

最大化这个图中的流动

这个可能感兴趣的同学

可以看我们的这个论文

里面有定义我们的问题是什么

然后我们的目标是什么

最终我们得到的就是

给定一个论文

我可以帮你总结

这个论文影响到了

哪些重要的论文的集合

那些论文集合在说什么事

然后把这些结果

跟传统的一些聚类方法

以及图挖掘的方法做个比较

这是我 第一个是我们的结果

底下是一些传统的聚类方法

或者可视化结果不好

或者它的摘要结果不好

然后我们的结果是

当然这是只是可视化评价

我们的论文里还有

基于我们定义的一个

基于流的最大化的

一个评价的一个指标

这是我们不光可以做

论文的影响力

还可以做作者的影响力

这是我把(韩嘉卫)老师

所有的论文

它影响了哪些作者

做了一个总结

会发现韩嘉卫老师

其实影响了三类人

分别是对数据库的人有影响

中间这个

对这个AI人工智能

和数据挖掘也有影响

另外对网络

好像也有一定影响

这个我不太清楚

但是有一点有趣的是说

它只有对这个数据库的影响

它是一个双向

就是说它影响数据库

这些人的论文

然后那些人的论文也影响了他

所以它本质上

还是在一个数据库的领域

OK

最后一个例子可能简单一点

就是我们在做动态网络可视化

就是刚才讲到

这个网络会动态变化

其中一个

这是一个论文网络

这是我们可视化会议上

每个年代的

不同年代它的论文合作关系

这个合作关系是一个动态变化

那一种方法

是我每一年我都画一个图

就长这个

但这个你是显然很难分析

对吧

也有一种方法

就是视频的方法

它是不断变化的

但是你很难记住第一年

如果有两年

可能你还能记住

如果有15年

你可能看到第三年

就已经忘了第一年

所以怎么去分析

一个动态变化的一个情况

那实际上2011年

有一个(英文)

把那个所有的方法

分成了九宫格

它都是要做

所有的方法都一定要做数据变换

不同是要基于时许

或者图拓扑做变换

它还画了一个九宫格

时许成为拓扑

然后我的方法是

有幸被选为一个代表

然后我就大概

用两分钟介绍一个这个

我的方法核心就是

我们不去展示

所有的这个动态网络

而是展示以某人为中心

我只关心

比如说只关心我发的论文的情况

我发的论文和我的合作网络

是怎么变化的

然后这个问题相对简单一点

然后设计了

我叫1.5维的一个

网络可视化的一个隐喻

是这个意思

中间这个一个山状的

或者一个河流状的

这代表我的论文的情况

或者说我的任意的

跟网络的情况

这个外轴是时间

也就是说我

比如说我的论文发表

或者我的手机短信的情况

在中间几个月是比较多

后头就少了

然后其它那些人

是跟我有关系的人

跟我有连接的

在哪个时间有连接

这是中间

这是我的一个发送

接受的一个时许的变换

这是跟我直接相连的

这是跟我间接相连的

然后这是直接相连的这些

比如说发短信的用户

他跟我在哪个时间

就是连到我这个中心这个线上

哪个时间

就是它是在哪个时间发的

然后我的直接相连的邻居

它们之间也会发一些短信

但是这些短信

我们就不会表示它的时间信息

然后这个

中间这个曲线

也可以用竖状的

也可以用横着的

或(英文)

也可以用一个螺旋线来表示

然后我用一个例子来表示

为什么我们这个可视化会有用

然后这个例子非常有意思

而且这个数据是非常难得的

现在已经很难找到

这就是其中中国某个地区

一个地级的市

它所有的短信发送的情况

以及时间

然后我们试图通过这个可视化

来找到哪些人是在发垃圾短信

哪些人是正常用户

因为实践发现

80%的短信现在都是垃圾短信

这些还是五年前

可能到现在可能更多

然后当然大家会问

可以用一些分析

比如说(技术学系)的方法

能够找到一些(英文)

用这些(英文)可以分类

哪些是垃圾短信 哪些不是

但是有一个问题

如果分类这个人是

但是一般这个电信局

还会再分析一下

要去再去手工查一下

他会直接根据算法

所以在这个时候

我们的可视化非常有用

再一个我们可视化有用的是

能够判断哪个(英文)

是不是对这个分类是有效果

虽然我们这个设计这个网络

可视化的隐喻

我们来看一下

在这个隐喻表达下

正常用户

和垃圾短信发送者有什么区别

首先我们看到

左边是垃圾短信发送者

它给 中间是垃圾短信发送者

旁边是其它的

跟他有关系的人 用户和手机

这些特征是它每个时间

只给某一个用户发一条短信

而且就不再发了 只发一条

但是对于正常用户

会有其中他一些好友

在不同时间都给他发送短信

或者他都给他发送短信

就是不只是发一条

因为垃圾短信发送者

每次是扫描一个

扫描一个号段

它不会再扫描

然后第二个特征是

仅有一个单向连接

就是垃圾短信发送者

我发送给你的

你一般不给我回了

一般不会回复垃圾短信

一般是这么理解的

然后普通人

如果我的朋友

我给他发一个短信

他一般会回我 对

就是说其实他不回我

我有十个朋友

至少有一个人会回我

他不会是都是这个

我给他发了有去无回这种通讯

第三个特征是说

垃圾短信发送者

这些是扫描的号段

这些人互相都不认识

可能是号段连接

但是没什么关系

但是对于我右边这个

我的正常人

我的朋友之间(英文)

就是也可能有一个

这个叫三角关系

就是他们两个也会认识

一般情况下

不可能说我发的这些人

都是一个(星状)结构

第四个是说

我们看中间是一根棍

这垃圾短信发送者

这是其中一个小时

十分钟吧

每一分钟他发十条

这是编成发 编好了的

但是正常用户

他不会有这种(英文)

因为手动发

不可能那么精准 OK

所以通过这个

我们叫1.5维的一个

动态网络可视化

展示了垃圾短信发送者

一个个人中心的网络的四个特征

和正常用户是显著不同的

这是我们的一个

今年是在(英文)

发表的一个文章

之前是发表在(英文)

所以我最后总结一下

就是我今天主要讲的是三块

可视化 网络可视化

和大数据网络的可视化

然后总结就想说一点

就是传统

我之前讲网络可视化的时候

都在讲怎么去布局

怎么去做渲染

就是说怎么把它画出来

但是现在最新我们在做的方法

可能更多的不是传统意义上的

可视化领域

而更多是在数据上

怎么把这个网络做更好的变换

让它能够看懂

就是人的可视化以后能够看懂

再一个说

怎么能挖掘出

更有意思的一些(英文)

然后再去做展示

所以更多的在这个

前头的数据变换以及挖掘上

另一个是怎么能够

做更好的一个交互

当然这一点现在还很欠缺

尤其这个交互

跟我刚才提到的

人的怎么接受这个信息

如何去分析用户一个可视

感知的一个特征

再去定制以及设计这个

很自然的一个图交互

这是一个

两个比较难的难点

这是刚才讲到的一些

发表一些就是相关的论文

有一些综述论文

有一些技术论文

就今天这是大部分

大数据技术与应用课程列表:

李国杰:面向大数据的数据科学

-完整讲座

--完整讲座

-李国杰:面向大数据的数据科学--课后习题

吴甘沙:大数据分析师的卓越之道

-数据思维方式的改变

--数据思维方式的改变

-数据的假设与采集

--数据的假设与采集

-数据的准备

--数据的准备

-数据的分析

--数据的分析

-数据的解释与验证

--数据的解释与验证

-吴甘沙:大数据分析师的卓越之道——课后习题

董飞:硅谷公司的大数据实战分析

-个人介绍

--个人介绍

-硅谷热门公司

--硅谷热门公司

-大数据简介

--大数据简介

-大数据平台系统

--大数据平台系统

-工业实践

--工业实践

-结尾

--结尾

-董飞:硅谷公司的大数据实战分析--课后习题

杨光信:数据系统架构

-数据系统架构历史

--数据系统架构历史

-从sql到nosql

--从sql到nosql

-数据库系统实现变革

--数据库系统实现变革

-负载融合

--负载融合

-数据系统架构成本

--数据系统架构成本

-杨光信:数据系统架构——课后习题

时磊:大数据网络可视化

-什么是可视化

--什么是可视化

-网络可视化

--网络可视化

-大数据带来的新挑战

--大数据带来的新挑战

-大数据网络可视化的若干案例

--大数据网络可视化的若干案例

-时磊:大数据网络可视化—— 课后习题

彭元:网络安全与大数据

-网络安全概述

--网络安全概述

-大数据安全分析平台

--大数据安全分析平台

-大数据安全应用

--大数据安全应用

-大数据平台安全

--大数据平台安全

-彭元:网络安全与大数据——课后习题

钟义信:“人工智能与大数据”的创新研究

-人工智能系统的本质功能模型

--人工智能系统的本质功能模型

-隐性智慧,显性智慧

--隐性智慧,显性智慧

-人工智能:能与不能

--人工智能:能与不能

-人工智能的技术现状

--人工智能的技术现状

-机制主义人工智能模型

--机制主义人工智能模型

-信息转换和智能创生定律

--信息转换和智能创生定律

-人工智能与大数据

--人工智能与大数据

-钟义信:“人工智能与大数据”的创新研究——课后习题

吴军:数据为王和机器智能的时代

-什么是机器智能

--什么是机器智能

-大数据的重要性及特点

--大数据的重要性及特点

-大数据中的因果关系与关键技术

--大数据中的因果关系与关键技术

-大数据与机器智能

--大数据与机器智能

-大数据思维

--大数据思维

-讲座问答环节

--讲座问答环节

-吴军:数据为王和机器智能的时代——课后习题

苏中:从大数据到认知计算

-大数据概述

--大数据概述

-大数据相关新趋势

--大数据相关新趋势

-大数据技术创新1

--大数据技术创新1

-大数据技术创新2

--大数据技术创新2

-大数据技术创新3

--大数据技术创新3

-大数据商业价值和前景

--大数据商业价值和前景

-大数据机遇和挑战

--大数据机遇和挑战

-苏中:从大数据到认知计算——课后习题

王新锐:金融大数据的法律实践

-金融大数据概述

--金融大数据概述

-用户个人信息分类

--用户个人信息分类

-金融大数据法律框架

--金融大数据法律框架

-实际案例和业界实践

--实际案例和业界实践

-核心风险点

--核心风险点

-王新锐:金融大数据的法律实践——课后习题

刘鹏:互联网变现与计算广告

-互联网与商业化

--互联网与商业化

-大数据与计算广告

--大数据与计算广告

-计算广告介绍

--计算广告介绍

-数据交易

--数据交易

-刘鹏:互联网变现与计算广告——课后习题

杨保华:区块链与数据科学

-从记账技术到区块链

--从记账技术到区块链

-区块链确保数据真实性

--区块链确保数据真实性

-区块链确保数据安全性

--区块链确保数据安全性

-区块链衡量数据价值

--区块链衡量数据价值

-区块链的应用和总结

--区块链的应用和总结

-杨保华:区块链与数据科学——课后习题

杨紫陌:个性化内容推荐

-个性化推荐系统

--个性化推荐系统

-推荐系统的召回与排序

--推荐系统的召回与排序

-智能制作之个性化海报

--智能制作之个性化海报

-线上推荐系统其它要素

--线上推荐系统其它要素

-杨紫陌:个性化内容推荐——课后习题

陆祁:用户行为大数据

-个人介绍及用户理解背景

--个人介绍及用户理解背景

-用户理解与用户画像

--用户理解与用户画像

-案例1:用户属性识别

--案例1:用户属性识别

-案例2:自然人识别

--案例2:自然人识别

-案例3:WOI与社交关系识别

--案例3:WOI与社交关系识别

-陆祁:用户行为大数据——课后习题

阳任科:大数据与AI的内容分析

-内容智能生态——数据、算法、应用

--内容智能生态——数据、算法、应用

-大数据在内容分析的应用

--大数据在内容分析的应用

-IP价值评估系统

--IP价值评估系统

-爱奇艺的剧本评估

--爱奇艺的剧本评估

-爱奇艺的智能评分

--爱奇艺的智能评分

-阳任科:大数据与AI的内容分析——课后习题

王栋:美团外卖的大数据应用

-外卖行业及场景简介

--外卖行业及场景简介

-餐饮及外卖行业大数据应用框架

--餐饮及外卖行业大数据应用框架

-案例分析:智能营销场景的用户画像

--案例分析:智能营销场景的用户画像

-案例分析:智能助手场景的菜品画像

--案例分析:智能助手场景的菜品画像

-王栋:美团外卖的大数据应用——课后习题

赵楠:商业思维与大数据技术在美团旅行业务中的结合

-旅行业务的特点

--旅行业务的特点

-美团旅行业务的用户画像构建

--美团旅行业务的用户画像构建

-用户画像的应用案例

--用户画像的应用案例

-住宿需求预测问题

--住宿需求预测问题

-营销补贴策略建模

--营销补贴策略建模

-赵楠:商业思维与大数据技术在美团旅行业务中的结合——课后习题

陈彧:美团点评金融服务的大数据与人工智能

-互联网金融背景介绍

--互联网金融背景介绍

-互联网金融科技

--互联网金融科技

-数据智能的三个案例

--数据智能的三个案例

-技术展望

--技术展望

-陈彧:美团点评金融服务的大数据与人工智能——课后习题

毛波:阿里全息大数据构建与应用

-数据的进化历程

--数据的进化历程

-阿里DMP平台介绍

--阿里DMP平台介绍

-核心技术及案例

--核心技术及案例

-数据应用

--数据应用

-毛波:阿里全息大数据构建与应用——课后习题

韩定一:在线营销中的竞价机制与数据价值

-在线营销

--在线营销

-竞价机制

--竞价机制

-数据价值

--数据价值

-韩定一:在线营销中的竞价机制与数据价值——课后习题

龚笔宏:大数据在工业界中的经典案例分享

-竞价排名搜索

--竞价排名搜索

-主要技术问题

--主要技术问题

-点击率预测概述

--点击率预测概述

-点击率预测实践

--点击率预测实践

-龚笔宏:大数据在工业界中的经典案例分享——课后习题

[补充] 郝井华:即时配送中的人工智能

-即时配送业务的背景及挑战

--即时配送业务的背景及挑战

-案例1:订单分配策略

--案例1:订单分配策略

-案例2:供需平衡策略

--案例2:供需平衡策略

-未来展望

--未来展望

-郝井华:即时配送中的人工智能——课后习题

[补充] 陈辉:数据驱动营销

-什么是数据驱动营销

--什么是数据驱动营销

-LTV留存分析

--LTV留存分析

-RFM会员体系

--RFM会员体系

-消费者微群画像

--消费者微群画像

-渠道倾向性分析及行业竞争分析

--渠道倾向性分析及行业竞争分析

-机器学习潜客挖掘模型

-- 机器学习潜客挖掘模型

-陈辉:数据驱动营销——课后习题

[补充] 艾小缤:大数据评价体系在金融、征信领域的创新

-金融大数据时代

--金融大数据时代

-大数据客观信用

--大数据客观信用

-我国的金融环境

--我国的金融环境

-客观信用的实践

--客观信用的实践

-应用案例与成果

--应用案例与成果

-艾小缤:大数据评价体系在金融、征信领域的创新——课后习题

[补充] 郑宇:大数据驱动智能城市

-外部链接

--外部链接

讨论专题

-课程总结讨论单元1/2

-课程讨论总结单元2/2

大数据网络可视化的若干案例笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。