当前课程知识点:微软亚洲研究院大数据系列讲座 >  第四讲:城市计算中的大数据研究(下)(郑宇) >  城市空气质量与大数据研究(urban air quality meets big data) >  城市空气质量与大数据研究(urban air quality meets big data)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频课程列表

城市空气质量与大数据研究(urban air quality meets big data)在线视频

城市空气质量与大数据研究(urban air quality meets big data)

下一节:能源交通和环境污染(traffic energy and pollution)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频列表

城市空气质量与大数据研究(urban air quality meets big data)课程教案、知识点、字幕

大家好,我是微软研究院的郑宇。

在这次课中,我将介绍大数据

如何帮助应对空气污染。

我们都知道,现在空气污染是

一个全球性的问题,特别是在发展中国家。

很多城市都建立了空气质量监测站来

向人们报告每个小时的环境空气质量。建立这样的

监测站从土地使用、资金以及

部署和维护所需的人力资源来说都是非常昂贵的。

然而,城市中的空气质量在不同时间和不同地点差异极大。

这是北京的真实数据的回放。

其中,每个条目,

每个图标表示一个空气质量监测站,

图标上的数字表示空气质量指数。

数字越小,表示空气质量越好;数字越大,表示空气质量越差。

绿色表示空气质量非常好,红色表示空气质量非常差。

就像我们看到的,即使是在同一

时刻,不同站点的空气质量

也可能显著不同,因为空气质量受到

多个复杂因素的影响,如交通

流、建筑密度、土地使用和

细粒度的气象状况。在城市不同部分中,

这些信息可能完全不同。问题在于,

如果没有监测站,我们就真的不知道一个地方的空气质量。

例如,这个地方的空气质量怎么样?

我们不能做线性差值来计算这个地方的空气质量

因为我们可以看到,城市中的空气质量是高度

非线性分布的。我们也不能使用

监测站的平均读数来表示这个地方的空气质量。

为了解决这个问题,

我们使用两部分数据来推测整个城市的

实时、细粒度的空气质量。

第一部分数据是

已有的监测站的实时的和历史的空气质量。

第二部分数据包括

五个额外的数据源。

它们是气象数据,如刮风、温度、湿度等;

交通流数据,如一个路段上行驶速度;

人的移动性数据,如进入和离开

一个空间的人数;

兴趣点数据,如一个特定区域的餐馆的数量、

工厂的数量和建筑物密度。

路网结构,

如一个特定区域的路口的数量、信号灯的数量和

高速公路的长度。所有这些数据

都与空气污染相关。

使用机器学习和数据挖掘算法,可以

在我们在一个地方观察到的数据

和这个地方的空气质量之间建立一个网络。

因此,我们可以获得这样的细粒度的

空气质量信息。这里,细粒度是指1公里*1公里的方形区域。

有了这样的信息,我们

就真的可以影响人们的决策指定,如

什么时候去哪里徒步旅行,以及什么时候关窗户?

同时,这也是朝着找出空气污染

的根本原因前进了一步,因为我们需要在

找出空气污染的根本原因之前知道哪里被污染了。

让我来简要介绍一下我们的方法。首先,我们

把城市分隔成不相邻的网格,这里我们使用

1公里*1公里的方形区域作为一个基本单元。

假设一个网格中的空气质量是相同的,

而不同网格中的空气质量是不同的。进一步的,

假设一个网格中的空气质量可以由

与它相邻的八个网格中的空气质量推断出来。这意味着

这九个网格形成了每个网格能够影响的区域。

对于每个网格,我们从刚才提到的

五类数据源中提取出了五类特征。

例如,

对红色区域的网格提取出了

气象特征。我们还从每个网格的影响区域中

提取出了交通特征。

有了这些特征,我们就可以

把这个问题表示为一个多分类的分类问题。

进一步来说,我们面临数据稀疏性的问题。

那就是,一个城市只有大约20或者30个站点,

如果把整个北京分隔成1公里*1公里的

网格,我们就要推断2000个网格的空气质量。

怎样只使用20个网格的信息来推断2000个网格的信息呢?

这就是数据的稀疏性问题。

这里,我们利用一个协同训练的框架

做一个半监督的学习模型

来通过学习非监督的数据提高推断效率。

具体来说,我们想要推断的是

空气污染的类别,如好、中等、差和非常差等。

这幅图展示了

气象特征和

PM 10的浓度之间的相关性。

我们想使用这类图来检查

所识别的特征和要检测的空气污染之间的相关性。

例如,每一列

代表一个特征,每一行也代表一个特征。

例如,在这幅子图中,我们可以看到,这里

横轴表示

风速,因为这里我们可以看到风速,

纵轴表示湿度。

每幅图表示我们从数据中观察到的一个实例,

其中绿色的方块表示好的空气,看看这里。

显然,我们发现,风速越高的时候,

也就是在这个部分的右边,

我们看到更多绿色的

方块。这意味着我们观察到更好的空气质量。

相反的,当湿度越高的时候,

我们将看到更多紫色的三角形。

这意味着我们观察到了更差的空气质量。

这幅图展示了我们从气象数据中识别的特征

与空气质量是如何相关的。

这幅图展示了我们的模型的原理,

其中黄色的圆形表示政府建立的

空气质量监测站。蓝色的圆形

表示我们要预测的位置。我们不知道

这个位置的空气质量。每个切片表示

一个时间戳,如下午2:00、下午3:00、下午4:00。

首先,一个位置的空气质量存在

时间上的依赖,这一依赖由虚线箭头表示。

这很直观。让我们来看看,如果

这个时间这个位置的空气质量不好,

那么下一个小时,

这个位置的空气质量也不会好。这就是

时间上的依赖。其次,

不同位置的空气质量之间

存在空间上的依赖,因为空气污染物可能

从一个地方扩散或者吹到另一个地方。

空间上的相关性由红色箭头表示,就像这个。

为了对一个地方的空气质量建模,我们需要考虑

一个位置的空气质量在时间上的相关性以及

不同位置之间的空气质量在空间上的相关性。

记住我们有

五类

数据集。这些数据集有不同的属性,一些属性是静态的,一些

属性在时间上是动态的。我们不同用相同的方法来对处理这些属性。

给你们举一个非常简单的例子。

一个建筑物周边的路网

不会随时间变化很快,但是这个建筑物周边的

温度和人的移动性模式却可能每个小时都发生变化。如果

我们简单地把动态特征和静态特征放在一起,

一些静态特征就可能被忽略。因为不论一个建筑物周边的

空气污染条件如何,这个建筑物周边的路网都不会发生变化。

这里我们有两个分类器。

一个是空间分类器,考虑

路网结构数据和兴趣点数据来对

不同位置的空气质量在空间上的相关性建模。

其次我们有空间分类器,考虑

如交通、气象和人的移动性模式

等动态特征对一个位置的空气质量

在时间上的相关性建模。

然后,这两个分类器

会在协同学习的框架中有一个相互强化的学习过程。

你们可以看看

下面的这篇论文来了解更详细的内容。

这幅图展示了

时间分类器的结构,它基本上是一个线性链条,

条件随机场,

其中的隐藏状态是

空气污染等级,如差、好

或者中等。这些观察的是我们从每个位置检测的特征,如

气象数据、行驶速度或者人的移动性模式。

有了在一个位置观察到的数据,我们就可以推断这个位置的状态序列。

这就是时间分类器的工作方式。

在这张幻灯片中,我将介绍

空间分类器的工作方式。其中蓝色的点表示站点,

红色的点表示想要预测的位置。

我们把想要预测的位置和站点进行配对。

这里我们选择了三个站点。然后我们分别计算了

这三个站点与待查询点之间的特征差异,如

它们的位置之间的欧式距离,

网络特征之间的皮尔森相关以及

他们的兴趣点的分布之间的皮尔森相关。

然后,我们把这些特征之间的差异

和这些站点的一类空气质量放在一起,作为

神经网络模型的输入。

输出是我们想要预测的

in this location we're going to predict.
这个位置的空气质量的分类。

在做推断时,我们需要随机地比较

这个位置和多个站点的集合。

但是,需要确认不同的集合对之间

没有明显的重叠。

对于每对集合,

我们都会生成不同的差异,

并把他们放到分类器中生成额外的推断。

对于每类推断,我们都会有一个结果。

然后,我们看到推断结果中不同类别的分布。

接下来,我们可以产生一个概率。

训练过程是在不同站点之间进行的。

这意味着,我们对每个站点都有标签。

我们可以比较一个站点

和其他任何三个站点,计算

它们之间的差异,把差异放到模型中并训练模型。

为什么要把一个站点和多个站点的集合进行配对呢?

因为我们需要推断一个位置的空气质量,

而我们又没有距离这个地点非常近的站点。

所以,我们需要学习

它们的地理特征之间的差异。

这就是

我们需要将一个站点和多个站点的集合进行配对

来做学习过程的原因。

这个动画正好展示了推断的过程。

这是一个训练过程,其中蓝色的点表示标记过的数据,

灰色的点表示未标记的数据。我们只有很少的

标记过的数据。我们可以基于有限的数据训练两个分类器:

时间分类器和空间分类器。然后,我们可以

使用这两个模型分别推断未标记的数据。

有了非常有信心地推断得到的数据,例如,我们可以设置

一个阈值。如果一个实例的概率,

被分到了

比一个比阈值(如0.9)更高的分类中,

然后我们就把它们带回来。我们

对这个推论非常有信心。对于

空间分类器,我们做了类似的事情。我们带回了

非常有信心的推断得到的数据集,等等。然后,我们

使用一个新的数据集训练这两个模型。

接下来,我们重新推断了未标记的数据,

直到未标记的数据全部被用完或者

推断的准确度不再有提升。

在推断过程中,给定未标记的数据,

这意味着给定了我们划分的网格的特征。首先

从未标记的数据中提取五类特征,然后把

不同的特征放到不同的模型中去。我们可以得到

一个推断结果的集合,这就是

不同类别的空气污染等级的概率分布。

然后我们找出最大化两个概率的乘积的分类。

我们如何评价我们的方法呢?

我们基于超过40个城市的数据来评价我们的方法。

我给你们一个例子。

这里每个蓝色的点表示一个空气质量监测站。

我们可以故意移除一个站点,假设不知道这个站点的

空气质量,然我

推断这个站点的空气质量。然后,我们使用

这个站点的真实读数来检测预测的准确性。

每个小时对每个城市的每个站点做一次这样的预测。

然后,基于过去一年的数据,

我们的方法在统计上的准确程度是什么样的。

使用这种评价方法,

我们在北京获得了80%的准确度。80%意味着什么呢?

如果只使用环境理论中的传统的扩散模型,

我们只能获得60%的准确度。

现在,通过汇集

各种各样看上去并不直接相关的数据,

就能获得比传统方法高20%的准确度。

这是一个非常显著的提升。这就是大数据的价值。

目前,我们有一个网站和一个移动客户端

来为用户提供细粒度的空气质量信息。

如果你们是英语用户,你们可以搜索“Urban Air”;如果

你们是中文用户,你们可以搜索“小鱼天气”。这个应用程序有什么特殊之处呢?

你们可以通过点击地图来查看任何位置的空气质量。

我们还可以展示

空气污染的预报。我是指未来48小时的

空气质量预报。

我会在后面的课程中展示更多关于空气质量预报的详细内容。

我们还有一个网站,这里,提供41个城市的

空气质量和空气质量预报。

如果想要了解更多关于城市空气项目的信息,你们可以搜索“城市空气”

并访问这个主页。主页上有我们论文、幻灯片

和免费的数据集。

如果想要了解更多关于城市计算的信息,你们可以在互联网上

搜索“城市计算”或者访问我的主页。

谢谢大家。

微软亚洲研究院大数据系列讲座课程列表:

第一讲:大数据研究现状及未来趋势(洪小文)

-什么是大数据(What is big data?)

--什么是大数据(What is big data?)

-为什么大数据是当前热点(Why big data is a nature phenomenon?)

--为什么大数据是当前热点(Why big data is a nature phenomenon?)

-新的计算基础设施和工具(New Infrastructure and tools)

--新的计算基础设施和工具(New Infrastructure and tools)

-课程简介(Course Introduction)

--课程简介(Course Introduction)

-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

-大数据与传统商业智能的区别(Big data:different from traditional BI)

--大数据与传统商业智能的区别(Big data:different from traditional BI)

-Quiz

--Quiz--作业

第二讲:互联网搜索中的大数据研究(宋睿华)

-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

-探寻搜索的多个维度(finding dimensions for queries)

--探寻搜索的多个维度(finding dimensions for queries)

-Quiz

--Quiz--作业

第三讲:社会计算中的大数据研究(谢幸)

-背景介绍(background)

--背景介绍(background)

-用户移动规律的理解-1(user mobility understanding-1)

--用户移动规律的理解-1(user mobility understanding-1)

-用户移动规律的理解-2(user mobility understanding-2)

--用户移动规律的理解-2(user mobility understanding-2)

-用户画像与个人隐私-1(user profiling and privacy-1)

--用户画像与个人隐私-1(user profiling and privacy-1)

-用户画像与个人隐私-2(user profiling and privacy-2)

--用户画像与个人隐私-2(user profiling and privacy-2)

-Quiz

--Quiz--作业

第四讲:城市计算中的大数据研究(上)(郑宇)

-城市计算中的大数据研究简介(introduction to urban big data)

--城市计算中的大数据研究简介(introduction to urban big data)

-概念,框架和挑战(concepts,framework and chanlleges)

--概念,框架和挑战(concepts,framework and chanlleges)

-基础技术(fundamental techniques)

--基础技术(fundamental techniques)

-城市规划(urban planning)

--城市规划(urban planning)

第四讲:城市计算中的大数据研究(下)(郑宇)

-识别特定区域(indentify functional regions)

--识别特定区域(indentify functional regions)

-城市空气质量与大数据研究(urban air quality meets big data)

--城市空气质量与大数据研究(urban air quality meets big data)

-能源交通和环境污染(traffic energy and pollution)

--能源交通和环境污染(traffic energy and pollution)

-大数据在城市噪音处理中的应用(diagnose urban noise with big data)

--大数据在城市噪音处理中的应用(diagnose urban noise with big data)

-Quiz

--Quiz--作业

第五讲:软件分析中的大数据研究(张洪宇)

-软件分析的概念(the concepts of software analytics)

--软件分析的概念(the concepts of software analytics)

-软件分析的实例(examples of software analytics)

--软件分析的实例(examples of software analytics)

第六讲:大数据分析可视化研究(刘世霞)

-传统的数据可视化(Traditional information visualization)

--传统的数据可视化(traditional information visualization)

-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

-Quiz

--Quiz--作业

城市空气质量与大数据研究(urban air quality meets big data)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。