当前课程知识点:微软亚洲研究院大数据系列讲座 >  第四讲:城市计算中的大数据研究(上)(郑宇) >  基础技术(fundamental techniques) >  基础技术(fundamental techniques)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频课程列表

基础技术(fundamental techniques)在线视频

基础技术(fundamental techniques)

下一节:城市规划(urban planning)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频列表

基础技术(fundamental techniques)课程教案、知识点、字幕

大家好,我是微软研究院的郑宇。

在这次课中,我将介绍为了开展城市计算研究

需要学习的技术。

这是城市计算的框架。实际上,我们可以

从不同的层面或者不同的视角来开展城市计算相关的工作。

这里有两篇英文和中文的综述论文。

如果你们对城市计算的框架、

概念或者挑战感兴趣,你们

可以参考这两篇综述论文或者来听我们的第二次课。

如果你们对城市传感感兴趣,你们可能需要了解

传感网络和移动传感。你们需要知道

传感器网络中的数据

是如何产生和收集或者通过移动电话传输的。

最近,出现了称为群体感知或者叫

基于众包的感知的新兴概念和技术。

群体感知有两种类型。

一种类型称为被动感知,另一种类型称为参与式感知。

在被动感知中,人们在不知道数据是什么的情况下

被动地生成数据。

例如,

人们乘坐地铁时需要刷卡进出地铁站。

刷卡数据是被动产生的。

但是,我们可以聚合不同人产生的数据

来搞清楚地铁系统中的流量。

之后,我们可以分配正确的资源或者对地铁进行重新调度

以更加有效地搭载更多的乘客。

这就是所谓的被动感知。在另一个

称为参与式感知或者主动感知的场景中,

人们主动提供他们的数据。他们知道

数据是什么,也知道任务的目的。让我们来看看,

他们提供了GPS手机的

移动速度。随后,我们聚合个人用户的信息。

然后,我就可以理解整个城市的交通模式。

人们知道他们的信息会被用来

帮助理解交通状况。这就是所谓的参与式感知。

关于数据管理技术,

我们需要了解空间数据库和空间-时间数据库。

我们需要学习一些索引结构,如我们提出的KD树。

关于三维数据,

如空间-时间数据,其中两个维度是空间信息,

一个维度是时间戳。我们有多个版本的R树或者

三维R树。有一本可以作为参考的空间数据库的书。

通常有两类查询。

一类是最近邻查询。例如,在这幅图中,我们

想要找出距离红色的点最近的点。

或者,我们可以找到范围查询。这意味着

找出这个范围中的对象。

在空间-时间数据库中,存在一类

称为轨迹的更复杂的数据结构。怎样

有效、高效的管理轨迹

是一个问题。有一篇论文,题目是

《轨迹数据挖掘》,里面展示了其中提到的框架。

如果你们对这个领域感兴趣,你们可以看看这篇论文,

其中可以找到更多信息。还有一本书,书名是

《空间轨迹计算》,其中介绍了

轨迹数据管理、数据挖掘的基本技术

及其在社交网络、交通分析、

位置不确定性或者旅行规划中的高级应用。

如果你们对数据分析层感兴趣,我们需要一些基本的数据挖掘和

机器学习知识,如回归、频繁模式挖掘、序列

模式挖掘、聚类、分类、概率图模型、矩阵

分解、张量分解等。

我们还需要一些高级技术,如

跨域数据融合。

稍后我会详细介绍这些内容。我们需要优化

技术,如线性规划、L-1最小化、

L-2最小化。我们需要可视化技术来把

在数据中发现的知识可视化。

在城市计算中,我们很可能需要交互式

可视化技术或者可视化数据分析。

这意味着我们

从基本的可视化中发现了一些线索,然后使用

这些线索进一步处理数据并生成可以进一步可视化的新知识。

所以这是一个全新的过程。

这里,我把

跨域数据融合方法分成三类。

你们可以去看下面这篇综述论文以获得更详细的信息。

让我们来看看第一类。

第一类跨域数据融合方法

使用一个任务不同阶段的不同数据集。

例如,在城市噪音项目中,

我们首先使用主要道路对城市进行分块。

然后,我们把311数据投影到这些区域中,形成了一个三维区域。

其中,第一个维度表示区域,第二个维度

表示噪音分类,第三个维度

表示时间段。每条数据表示

一个特定时间段中

对一个特定区域的一类噪音的311投诉的数量。

在另一个项目中,我们想要识别城市中的功能区域。

首先,我们使用路网数据把一个城市划分成不相交的

区域。然后我们把城市中的出租汽车的轨迹数据

和兴趣点的数据投射到这些区域中去。

然后,我们使用LDA变体

图模型来推断一个区域的函数分布。

这两个项目都使用了基于阶段的数据融合技术。

第二类跨域数据融合

方法把

不同数据源的特征合并在一起。一个合并特征

的简单方法是直接拼接

从不同数据源中提取的特征并把它们放到

一个特征向量中。然后,这个特征向量可以用于分类或者聚类。

但是,这个方法被证明

在很多机器学习任务中并不是很有效。

这是由于不同数据集的数据表示、分布和尺度都是不同的。

更高级的技术是使用深度神经

网络来学习一个

中层的特征表达。这个中层的特征表达

将被用于分类或者其他机器学习任务。

这种方法被证明比原始的拼接方法要有效得多。

有很多使用

深度神经网络来

从不同数据集中学习特征表达的例子。

你们可以参考这篇论文来了解更多关于这个部分的细节。

第三类

跨域数据融合方法考虑每个数据集的语义。

这类数据融合方法包括

四个子类。第一个子类

称为多视角学习。这意味着我们

把不同数据集看成是同一个对象的不同视角。

通过融合不同对象的视角,我们

能够更好地理解对象。协同训练

是一个多视角学习的例子。这个特定区域中第二个跨域数据融合

方法的子类

称为基于概率依赖的方法,如图模型。

这里,每个节点表示一个变量,

边表示概率依赖。

第三个子类称为基于相似度的方法,

如联合矩阵分解、

联合张量分解或者可感知情境的

张量分解。这里我们理解

不同条目或者不同对象之间的相似性。所以,我们想要

基于一个对象

和其他对象之间的相似性填充这个对象的缺失值。

第三类是基于转移学习的方法。我们想要把

A领域中的知识转移到

B领域,如从交通数据中转移到空气质量数据中。

在后面的课程中,

我会介绍每类基于语义理解的数据融合方法

的具体例子。

我希望你们会一直和我们在一起。

这次课就到这里。

如果你们对城市计算感兴趣,你们可以搜索“城市计算”或者访问

我的主页,也可以阅读下面这些综述论文。

谢谢大家。

微软亚洲研究院大数据系列讲座课程列表:

第一讲:大数据研究现状及未来趋势(洪小文)

-什么是大数据(What is big data?)

--什么是大数据(What is big data?)

-为什么大数据是当前热点(Why big data is a nature phenomenon?)

--为什么大数据是当前热点(Why big data is a nature phenomenon?)

-新的计算基础设施和工具(New Infrastructure and tools)

--新的计算基础设施和工具(New Infrastructure and tools)

-课程简介(Course Introduction)

--课程简介(Course Introduction)

-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

-大数据与传统商业智能的区别(Big data:different from traditional BI)

--大数据与传统商业智能的区别(Big data:different from traditional BI)

-Quiz

--Quiz--作业

第二讲:互联网搜索中的大数据研究(宋睿华)

-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

-探寻搜索的多个维度(finding dimensions for queries)

--探寻搜索的多个维度(finding dimensions for queries)

-Quiz

--Quiz--作业

第三讲:社会计算中的大数据研究(谢幸)

-背景介绍(background)

--背景介绍(background)

-用户移动规律的理解-1(user mobility understanding-1)

--用户移动规律的理解-1(user mobility understanding-1)

-用户移动规律的理解-2(user mobility understanding-2)

--用户移动规律的理解-2(user mobility understanding-2)

-用户画像与个人隐私-1(user profiling and privacy-1)

--用户画像与个人隐私-1(user profiling and privacy-1)

-用户画像与个人隐私-2(user profiling and privacy-2)

--用户画像与个人隐私-2(user profiling and privacy-2)

-Quiz

--Quiz--作业

第四讲:城市计算中的大数据研究(上)(郑宇)

-城市计算中的大数据研究简介(introduction to urban big data)

--城市计算中的大数据研究简介(introduction to urban big data)

-概念,框架和挑战(concepts,framework and chanlleges)

--概念,框架和挑战(concepts,framework and chanlleges)

-基础技术(fundamental techniques)

--基础技术(fundamental techniques)

-城市规划(urban planning)

--城市规划(urban planning)

第四讲:城市计算中的大数据研究(下)(郑宇)

-识别特定区域(indentify functional regions)

--识别特定区域(indentify functional regions)

-城市空气质量与大数据研究(urban air quality meets big data)

--城市空气质量与大数据研究(urban air quality meets big data)

-能源交通和环境污染(traffic energy and pollution)

--能源交通和环境污染(traffic energy and pollution)

-大数据在城市噪音处理中的应用(diagnose urban noise with big data)

--大数据在城市噪音处理中的应用(diagnose urban noise with big data)

-Quiz

--Quiz--作业

第五讲:软件分析中的大数据研究(张洪宇)

-软件分析的概念(the concepts of software analytics)

--软件分析的概念(the concepts of software analytics)

-软件分析的实例(examples of software analytics)

--软件分析的实例(examples of software analytics)

第六讲:大数据分析可视化研究(刘世霞)

-传统的数据可视化(Traditional information visualization)

--传统的数据可视化(traditional information visualization)

-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

-Quiz

--Quiz--作业

基础技术(fundamental techniques)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。