当前课程知识点:微软亚洲研究院大数据系列讲座 >  第四讲:城市计算中的大数据研究(下)(郑宇) >  识别特定区域(indentify functional regions) >  识别特定区域(indentify functional regions)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频课程列表

识别特定区域(indentify functional regions)在线视频

识别特定区域(indentify functional regions)

下一节:城市空气质量与大数据研究(urban air quality meets big data)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频列表

识别特定区域(indentify functional regions)课程教案、知识点、字幕

大家好,我是微软研究院的郑宇。

在这次课中,我将介绍大数据是如何帮助

改进城市规划的。

在上一次课中,我分享了一个关于使用

大数据来收集城市路网中有问题的设计的故事。

在这次课中,我们会继续展示另一个例子。

这就是如何发现城市中的功能区域。

在这个项目中,我们的目标是利用两部分数据

识别城市中的功能区域,

如教育区域、商业区域。

一部分数据是人的移动性数据,另一部分数据是兴趣点的数据。

这幅图展示了北京的功能区域,其中红色的区域是

教育和科学区域,

黑色的区域是商业区域。

我想强调的是,区域的功能并不是单一的。

区域的功能是复合性的。区域是多种功能的混合体。

例如,一个给定的区域可能80%是教育区域,10%

是商业区域,10%是居住区域。这基本上是

不同功能的分布。

为了方便你们理解,我只说这是

教育区域。但是实际上,

颜色相似的区域

具有相似的功能分布。

换句话说,即使一个区域被标识为一个功能区域,

那也不意味着这个区域的每个部分都是

教育区域。所以,我们需要进一步识别

一个给定功能的核密度。例如,

这幅图展示了商业区域的

核密度分布,其中颜色越深的地方

是商业区域的概率就越高。

了解了这类信息之后,我们就可以更好地

规划我们未来的城市。通常,城市

是不同于很多年前所做的规划的,

因为城市是自包含的。

一些规划并不是那么好。有时候我们会改变政策。所以,

当我们设计下一个班班的城市规划时,我们需要知道现在的

城市状况。但是,由于我刚才提到的原因,

依靠人并不能知道现在的城市状况。首先,一个区域的功能并不是单一的,

而是复合的。一个区域的功能是

多种功能的分布。第二,即使一个区域

有一项核心功能,那也不意味着这个

区域的每一个部分都是为这项功能服务的。所以,我们需要进一步

识别每一项功能的核密度分布。这是富有挑战的事情。

我们需要对城市规划进行研究。

这些信息也能够为商业选址提供帮助。

例如,如果我想开一家超市,

我就想知道哪里是居住区域

以及哪里是居住区域的核心。

现在,你们可能同意识别城市的

功能区域是重要的,但是为什么我们需要

两部分数据呢?这里,我给你们一些例子。首先,

使用兴趣点数据无疑是非常重要的。

例如,如果我们看到,清华大学和北京大学位于这个区域,

我们很可能就知道这肯定是教育区域。

但是,只使用兴趣点数据是不够的。

这里是另一个例子。

在兴趣点数据库中,这两家

餐馆都被记录为中餐馆,但是显然它们的

含义是不同的。这家中餐馆

位于居住区,服务周边的居民;而这家中餐馆则

位于商业区域或者观光区域。

所以,即使兴趣点的分类相似,

它们的语义也可能完全不同。

我们可以使用人的移动性数据

来区分同类的兴趣点。

显然,这家中餐馆的人流量非常小,它主要面向

周边的居民;但是在这个案例中,人们

可能从城市的不同区域来到这个地方。

所以,我们有明显的区分。第二,

区域之间的人的移动性可能是有区别的,

根据人的移动性模式。如果我们看到,

大部分人在上午9点离开一个区域,

并在下午6点左右返回这个区域,

那么我们也许会猜测,这个区域当然是一个居住区域。

在介绍方法论之前,

我想向你们展示一些关于主题模型的信息。

一个主题模型表示

一个带主题分布的文档。

例如,这是一个关于猫和狗的文档。

其中80%的内容是关于狗的,20%的内容是关于猫的。

进一步地,一个主题可以表示为

一个单词的分布。例如,

当你提到狗的时候,很可能我们会看到一些

关于狗粮、骨头的单词。

主题模型将一个文档表示为一个

主题的分布,而一个主题又能进一步被表示为一个单词的分布。

这里我们做了一个映射。

我们把一个区域看成一个文档,把这个区域的功能

看成文档的主题。

区域内的移动性模式,例如,

当人们离开一个区域时,当人们进入一个区域时,他们

要去的区域和离开的区域

看成是文档中的单词。兴趣点数据,

如一个区域中有多少剧院、超市

被看成是像关键词和

作者单位这样的元数据。使用LDA变形模型,

我们把人的移动性和兴趣点数据作为模型的输入。

模型的输出是

每个区域的功能分布。

这是一个无监督的学习方法。

如果想了解更多信息,你们可以看看LDA模型。

这里我想多说一些关于移动性模式的内容。

人们从r1到r2时,会产生一个迁移,

就像这个。

这里,移动性

模式实际上是由区域之间的迁移表示的。

然后,我们可以聚合这些

往返于任何两个区域之间的人的迁移

并形成区域之间的模式。

我们可以把一天分成12个时间段。

对于每个时间段,我们可以构建

一个区域之间的迁移矩阵。

现在我们可以作出一个到达

长方体和一个离开立方体。

让我们来看看到达长方体。

每个切片实际上,这里的一个切片,人们

会从这里移动到这里,从这里到这里。每个单元

表示一对区域之间的迁移,每个切片表示

一个时间段,就像这个。

每个条目表示在一个特定时间段内

两个区域之间的迁移的数量。

同样的,我们可以理解

离开立方体的含义。

现在,给定一个区域,我们可以

从到达长方体和离开长方体中分别提取

离开模式和到达模式。

这里,每个条目

表示一个模式的发生数量。例如,

有12个人

在这个时间段离开r2,达到r1;

有24个人在t2这个时间段离开r1

到达rn。

这就是矩阵的含义,

我们可以把每个条目看作一个单词,

把模式出现的数量看成单词出现的数量。

然后,记住我们有兴趣点的数据库。

我们可以提取每个兴趣点分类的兴趣点数量。

例如,

这里有10家餐馆、两家剧院,

这部分信息可以被看成是作者

单位和关键词。我们把他们放在一个文档里面。

然后,我们可以把它们放到LDA模型中。

在第一步之后,每个区域都是由

一个函数的分布表示的。然后,我们可以根据

区域的功能向量对区域进行聚类。

接着,我们可以聚合同一个聚类中的区域。

例如,在这个例子中,我们可以把6个黑色的区域聚合成一个更大的区域。

这意味着我们对更好、更大的区域有了更好的理解。

现在,我们可以对每个聚合的地方应用核密度估计,

基于那个地方的人的移动性。然后我们可以

生成结果。例如,这幅图展示了北京的

外交和使馆区域。一个区域的颜色越深,

这个区域是外交区域的可能性就越大。

这幅图展示了北京的名胜古迹区域。

我们可以根据每个区域的

主题分布、移动性模式

以及兴趣点来对这个区域进行标记。

这不是自动生成的。我们需要

基于主题分布、

单词分布和兴趣点数据来理解这个区域的含义。

最终,我们基于人的感觉和数据分布

生成了9类区域。

我们使用跨越两年的

三个数据集对我们的方法进行了评估。

这里是我们使用的一些统计数据。

我们比较了我们的方法和两种基线方法,

一种基线方法是只是用兴趣点数据,

另一种方式是只使用移动性数据。

这是我们的方法,同时使用两个数据集。这是只是用移动性数据的LDA。

这是一个非常简单的方法,这意味着我们只使用

兴趣点数据。我们可以

为每个区域做TF-IDF向量并对其进行分类。

我们可以通过比较

根据连续两年的数据生成的结果

来评价我们的方法。例如,区域A被认为是

一个新兴的居住区域,

使用黄色表示。然后,这个区域变成了灰色,这意味着它变成了一个

建设区域。这种变化的原因在于这个区域中正在建造北京最高的建筑物。

所以,这个区域周边的人的移动性模式发生了变化,

而我们的方法正确地捕捉到了这种模式。

第二个例子是B,

它被认为是一个绿色的,也就是公园区域,然后它变成了一个黑色的

区域,也就是商业区域。

这是2008年北京奥运会期间重建的前门公园。

现在,你们可以看到这个区域中有

成百上千的商店和餐馆。

它真正变成了一个居住区域。

我们可以把我们的结果与北京的土地使用规划相匹配。

这是望京区域,它被规划为居住区域。

在我们的结果中,这个地方大部分

是黄色的,意味着是

新兴的居住区域,这是对的。但是我们还在这里

识别出了一些紫色的区域,这表示

新兴的商业区域。

这没有错,但是我们应该让政府知道这个变化,

以便它们能够在未来的规划中考虑这一变化。

谢谢大家。

如果想要了解更多关于城市计算的信息,你们可以访问这个主页

或者在互联网上搜索“城市计算”。

谢谢大家。

微软亚洲研究院大数据系列讲座课程列表:

第一讲:大数据研究现状及未来趋势(洪小文)

-什么是大数据(What is big data?)

--什么是大数据(What is big data?)

-为什么大数据是当前热点(Why big data is a nature phenomenon?)

--为什么大数据是当前热点(Why big data is a nature phenomenon?)

-新的计算基础设施和工具(New Infrastructure and tools)

--新的计算基础设施和工具(New Infrastructure and tools)

-课程简介(Course Introduction)

--课程简介(Course Introduction)

-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

-大数据与传统商业智能的区别(Big data:different from traditional BI)

--大数据与传统商业智能的区别(Big data:different from traditional BI)

-Quiz

--Quiz--作业

第二讲:互联网搜索中的大数据研究(宋睿华)

-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

-探寻搜索的多个维度(finding dimensions for queries)

--探寻搜索的多个维度(finding dimensions for queries)

-Quiz

--Quiz--作业

第三讲:社会计算中的大数据研究(谢幸)

-背景介绍(background)

--背景介绍(background)

-用户移动规律的理解-1(user mobility understanding-1)

--用户移动规律的理解-1(user mobility understanding-1)

-用户移动规律的理解-2(user mobility understanding-2)

--用户移动规律的理解-2(user mobility understanding-2)

-用户画像与个人隐私-1(user profiling and privacy-1)

--用户画像与个人隐私-1(user profiling and privacy-1)

-用户画像与个人隐私-2(user profiling and privacy-2)

--用户画像与个人隐私-2(user profiling and privacy-2)

-Quiz

--Quiz--作业

第四讲:城市计算中的大数据研究(上)(郑宇)

-城市计算中的大数据研究简介(introduction to urban big data)

--城市计算中的大数据研究简介(introduction to urban big data)

-概念,框架和挑战(concepts,framework and chanlleges)

--概念,框架和挑战(concepts,framework and chanlleges)

-基础技术(fundamental techniques)

--基础技术(fundamental techniques)

-城市规划(urban planning)

--城市规划(urban planning)

第四讲:城市计算中的大数据研究(下)(郑宇)

-识别特定区域(indentify functional regions)

--识别特定区域(indentify functional regions)

-城市空气质量与大数据研究(urban air quality meets big data)

--城市空气质量与大数据研究(urban air quality meets big data)

-能源交通和环境污染(traffic energy and pollution)

--能源交通和环境污染(traffic energy and pollution)

-大数据在城市噪音处理中的应用(diagnose urban noise with big data)

--大数据在城市噪音处理中的应用(diagnose urban noise with big data)

-Quiz

--Quiz--作业

第五讲:软件分析中的大数据研究(张洪宇)

-软件分析的概念(the concepts of software analytics)

--软件分析的概念(the concepts of software analytics)

-软件分析的实例(examples of software analytics)

--软件分析的实例(examples of software analytics)

第六讲:大数据分析可视化研究(刘世霞)

-传统的数据可视化(Traditional information visualization)

--传统的数据可视化(traditional information visualization)

-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

-Quiz

--Quiz--作业

识别特定区域(indentify functional regions)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。