当前课程知识点:微软亚洲研究院大数据系列讲座 > 第四讲:城市计算中的大数据研究(下)(郑宇) > 大数据在城市噪音处理中的应用(diagnose urban noise with big data) > 大数据在城市噪音处理中的应用(diagnose urban noise with big data)
大家好,我是微软研究院的郑宇。
在这次课中,我将向你们展示大数据
和计算技术怎样帮助诊断城市中的噪音。
这个项目是在纽约市发起的。
纽约市是一个有着多种噪音源的城市,
如交通噪音、嘈杂的音乐噪音和建筑噪音。
城市中的噪音
不仅会降低人们的工作效率,
在长期看来,还会损害人们的身体和精神健康。
为了应对城市中的噪音,我们首先需要知道噪音在哪里。
其次,我们需要知道噪音是什么。第三,我们需要知道为什么会有噪音。
然而,这三个问题并不容易回答,
其原因有下列三点。
首先,噪音随时间变化非常快,
就好像这个声音会在几秒钟之内消失。
而且,我们现在这个地方的噪音状况
会与仅仅几百米之外的地方显著不同。
所以,如果想要使用
传感器来监测城市中细粒度的噪音状况,
我们需要在每一个几百平方米的区域
或者更小的区域中都部署一个传感器。
因此,为了监测纽约市的噪音状况,
我们需要部署几百万个
传感器。这对城市来说是巨大的负担,
因此是不可行的。其次,噪音
污染的大小不仅取决于使用分贝表示
声音水平,而且取决于人们对噪音的容忍度。
我现在说话的声音,
现在可能不会被认为是噪音。
但是,在晚上你们要睡觉的时候,
如果我还是像这样说话,那就可能被认为是可怕的噪音了。
也就是说,很小的噪音
在人们要睡觉的时候可能会被认为是较重的噪音污染。
这时候,人们期望一个安静的环境。
传感器的数据无法告诉我们这部分关于人们的容忍度的信息。
第三,噪音是
多种声音源的混合体。我们需要知道一个
特定地点的噪音的组成。
例如,早晨在这个地方,
80%的噪音来源于交通,10%的噪音
来源于建筑施工,10%的噪音来源于嘈杂的音乐。
仅仅知道这类信息,政府还不能采取一些
措施来处理噪音污染。如果你们只是告诉政府这个地方很吵,
但是不知道为什么,那么政府什么也做不了。
传感器数据
并不能真的告诉我们这部分信息。
这就是我们只使用传感器无法应对城市中的噪音的原因
和挑战所在。
很幸运,在纽约市,我们还有其他的数据集。
这些数据集被称为311。
也许你们知道911。那是在遇到紧急情况时应该拨打的电话号码。
311是一个平台,人们可以向这个平台投诉关于
令他们感觉讨厌的东西,但是这些东西并不
需要马上处理。这些数据被称为投诉数据。
在投诉时,人们需要提供
地点、时间和投诉的类别。
这幅图展示了311数据中投诉的
噪音的分布,其中条的高度
表示人们在一个地区拨打311电话的次数,
条的颜色表示
噪音污染的子类,如交通
噪音、建筑噪音和嘈杂的音乐噪音。
这个数据非常好。
实际上,这是使用人作为传感器得到结果,也称为群体感知。
这是城市感知中非常热门的话题。
群体感知可以帮助我们收集数据。
其基本的想法是每个人
都是一个智能传感器,可以提供
关于他们自己以及他们周边的环境状况的信息。
然后,他们向一个后台系统报告数据。
我们收集不同人的数据并把数据聚合在一起,
分析整个城市的噪音状况。这被称为群体感知或者人作为传感器。
这些数据非常好,甚至比原始的传感器数据还要好,
因为它们是由人产生的。
进一步来说,一个地区的311呼叫数越多,
这个地方就可能越吵。
其次,在一段很长的时间中
收到的311呼叫的数量可以表示这个地方的
噪音的组成。例如,
如果在过去一年收到了100个311呼叫,
其中50%是有关建筑噪音的,50%是关于嘈杂音乐噪音的。
所以,合理的噪音的组成是
建筑噪音和嘈杂音乐噪音各占50%。
这个数据非常好,反映了人们的容忍度,
而且是关于人的真实测量。
但是,这个数据非常稀疏。因为我们无法保证任何时间、任何地点
都有人报告每一种噪音。有时人们不在家,
人们太忙或者太懒而没有打电话,
但是这并不意味着那里没有噪音。我们真的做了一些
测量,有一些地方很少有
311投诉但是却非常吵。
我们需要填充311数据中的缺失值。
为了解决这个问题,我们把311
数据和其他三个数据集结合在一起。
这三个数据集是路网数据、兴趣点数据
和签到数据。利用这些数据,我们希望推断细粒度的
噪音状况。你们看,在不同时间段内为每个区域
生成一个噪音指数。
为什么这三个数据集会有用呢?因为它们都与噪音相关。
首先,路网越密集的区域
可能会有更大的交通流量,因此会产生交通噪音。
有很多酒吧和
餐馆的区域更有可能产生嘈杂的谈话和
派对以及嘈杂的音乐噪音。
签到数据是从
Foursquare和Gowalla社交媒体服务中收集的,人们可以在
到达一个区域的时候在Foursquare和Gowalla上做一个标记。
这是一类人的移动性数据。我们知道,
在一个给定的时间段内,人们在什么时候去一个地方以及有多少人在那里。
签到数据也与噪音相关,因为如果有很多人到一个地方去,
那么这个地方的大声说话的噪音、派对的噪音和交通噪音
都很可能比其他地方要高。人
也是噪音的来源。通过结合三个数据集,我们
可以更好地推断整个城市的噪音状况。
在我们的方法中,我们首先
使用主要道路、高速公路和主干道来划分一座城市。
例如,纽约市被主要道路
分成大约500个区域。
然后,我们可以构造一个张量来容纳
311数据,其中第一个维度
表示区域。这里有多个区域。
第二个维度
表示噪音的类别,如建筑噪音、嘈杂
的音乐噪音和交通噪音。第三个维度表示时间段,
如下午2:00、下午4:00、下午6:00。张量中的
每个条目表示在一个特定时间段内
收到的来自一个特定区域的
一个特定类别的
311呼叫的数量。
当然,就像我提到的,
这个张量非常稀疏。其中有很多没有值的缺失条目。
因为我们不会在任何地方、任何时间都有人
报告每一类噪音。如果能够填充
一个张量中的缺失值,我们就可以知道
在一个给定时间段内
哪里有噪音。基于噪音指数对地区排序,
通过把311呼叫的数量标准化,
我们还可以计算每个区域、每个单元
的噪音的组成。
问题是我们怎么样正确、准确地填充缺失值。
有一个称为张量分解的简单方法。
我的意思是,本质上是基于张量分解的张量补全。
一个张量可以被分解为三个
低阶矩阵和一个核心张量。然后,通过把低阶矩阵
与核心张量相乘,可以
填充张量中的缺失值。这里的第一个条目
表示最小化张量分解的错误,另一个条目表示
为避免过拟合而对项目做正则化处理。
但是,数据非常稀疏。
根据纽约市的311数据,只有2%
的条目是有值的,98%的
条目都是缺失的。我们
怎么样使用2%的条目的信息来
填充98%的条目的缺失值呢?
只使用张量分解方法是无法解决这个问题的。
我们需要其他信息。
前面的幻灯片中已经提到过把311数据放到张量中。
我们还基于兴趣点数据和路网数据
生成了另一个矩阵。其中,每一行
表示一个区域,每一列表示
一个特征。特征可以是区域中的路口的数量、
不同等级道路的长度,不同类别的
兴趣点的数量,如
有五家餐馆和两家电影院。
所以,矩阵中
两行
之间的距离表示两个区域的
地理特征的相似度。假设具有相似的地理特征
的两个区域
具有相同的噪音模式。从直观上来说,
如果两个区域的兴趣点分布相似,都有
餐馆,相似数量的电影院,
以及相似的路段相交,
那么这两个区域可能会在相同的时间段内产生相似的噪音状况。
其次,我们有社会化媒体的签到数据。我们作出另一个矩阵,
其中每一行表示一个时间段,每一列表示一个区域。
矩阵中两行之间的距离
两个时间段中
人的移动性模式的相似度。
这里,每一个条目表示
在这个特定时间段内这个区域中的签到数量。
两列之间的距离表示
两个区域中人的移动性模式相似度。
这可以帮助推断311数据中的缺失值。
例如,早高峰时段和晚高峰时段的
噪音模式是相似的。这个区域和那个区域会有相似的
模式,因为人们会以相似的模式到达和离开这些地方。
第三,我们用一个圆形来表示一次311呼叫,
我们来看看这一类311呼叫会怎么样和其他类的
311呼叫同时出现。然后我们可以作出
一个不同类的311呼叫的相关矩阵。
有时,在观察到一类
311投诉时,很可能我们会看到另一类311投诉。
例如,嘈杂的说话声和嘈杂的音乐通常是
相关的。如果我们看到了嘈杂的音乐,
很可能我们可以推断还有嘈杂的说话声。
然后,通过把三个矩阵和张量关联起来,我们可以
在一个协同过滤的框架中一同对它们进行分解。
其中,这个项目表示最小化一个张量的
分解错误,这个表示最小化矩阵X的
分解错误,这个表示最小化矩阵Y的
分解错误,这实际上
是一种对角线,因为这是一个方阵。
我们想要保证,
两个类别的相似度越高,它们之间的距离就越小。
接下来是正则化。
我们可以仔细看看
矩阵分解过程。首先,这个张量可以被
分解成三个低阶矩阵
和一个核心张量,就是这个。
矩阵X可以被分解成两个低阶矩阵
R和U的乘积,
这个和这个。
因为它们共享了一些维度,如张量有区域维度,
这里,矩阵X有区域维度;矩阵Y有时间段维度,
张量A也有时间段维度。
所以,分解之后它们共享一些分量。例如,这里我们有
R矩阵,这里我们有R矩阵。我们有
T矩阵。我们有T矩阵。
请注意,矩阵X、矩阵Y和矩阵Z 不是稀疏的。
它们是从其他数据源生成的,所以
它们要密一些,比张量A
更密。矩阵X更密表示X可以
帮助生成低阶矩阵R
的更准确的估计,矩阵T也是类似的。
如果有更好的R和T的估计,
我们就可以把它们相乘来填充A的缺失值。
这就是我们可以更好地估计张量A的
缺失值的原因。这是从算法的角度来看的。
从我们刚才提到的语义的角度,因为
这三个数据集都与
噪音状况相关,而且它们不是稀疏的,
所以,这些数据集中的信息
可以被传播到张量A中
来帮助填充缺失值。
你们可能想知道,你们怎么知道
地理特征与噪音状况是相关的呢。我们只
使用了一些例子。这幅图展示了
分布,实际上是大声说话这个分类的
311呼叫的热力图。其中,颜色越浅的区域
收到的311呼叫的数量越多。
这幅图展示了地理数据的分布,
我是指食品分类的兴趣点数据。你们可以看到,区域之间
有很多相似之处。食品类的兴趣点越多,
我们就可以看到的关于大声说话的投诉就越多。
这幅图展示了对嘈杂音乐的投诉的分布,
311分布的热力图。这是娱乐类的
兴趣点的分布。我们可以看到,区域之间存在一些相似之处。
有很多娱乐类的兴趣点的区域更有可能
产生嘈杂的音乐。这就是为什么我说
地理特征和噪音状况是相关的。
我们有一些可视化来支持我们的洞见。
这幅图展示了
签到数据和311投诉数据
之间的相关性。在左边这幅图中我们可以看到,
黑色的曲线表示一天中对车辆噪音
的投诉的变化情况。
红色的曲线表示签到,
人们的艺术和娱乐类的签到。你们可以看到,
这两条曲线非常相似,随时间变化的情况非常相似,它们的
变化模式非常相似。同样的,我们可以看到,人们
对嘈杂的音乐和派对的投诉随时间的变化情况
与人们在夜生活场所的签到随时间的变化情况非常相似。
你们可以看到,这是相关的。我们还
展示了人们在娱乐类和夜生活场所的签到的地理分布,
我们也可以在地图上展示
311的分布。特别的,这是人们关于
嘈杂音乐派对的投诉。你们可以看到,区域之间存在一些相关性。
这意味着,如果一个地区有更多人在娱乐类的地方签到,
我们就可以在这里看到更多关于嘈杂的音乐派对的投诉。
当然,它们并不是完全一样的。否则,我们就可以只使用一个数据集
来解决这个问题。所以,这就是我们要
使用多个数据集的原因。
我们使用纽约市的五类数据来评价我们的方法。
你们可以从我的主页上免费下载这些数据集。
我们评估了缺失值填充的
准确性。有两种方式来估计我们的
方法的性能。首先,我们可以故意移除张量中的一些条目,
这些条目有真实值,我们可以
用这些条目中的真实值
来测量我们的推断。我们可以看到,通过增加更多的信息,矩阵X、矩阵Y和矩阵Z,
缺失值填充的错误率下降了。
我的意思是,矩阵X、矩阵Y和矩阵Z中的信息真的是有用的。
我们还派了一些人携带噪音测量设备
在曼哈顿的70个地方记录噪音状况。
然后,我们根据实际测量得到的噪音值
对这些地方排序,我们还根据从我们的算法推断到的
噪音指数对这些地方排序。我们来看看这两个排序的相似度如何。
我们使用信息检索中的一个称为NDCG的度量。
你们可以看到,通过结合多个数据集,
我们可以获得比只使用311数据更好的性能。
如果想了解更多关于城市计算的信息,你们可以访问我的主页或者
在互联网上搜索“城市计算”。你们也可以参考
我们在ACM智能系统和计数学报上发表的综述论文。
谢谢大家。
-什么是大数据(What is big data?)
-为什么大数据是当前热点(Why big data is a nature phenomenon?)
--为什么大数据是当前热点(Why big data is a nature phenomenon?)
-新的计算基础设施和工具(New Infrastructure and tools)
--新的计算基础设施和工具(New Infrastructure and tools)
-课程简介(Course Introduction)
-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)
--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)
-大数据与传统商业智能的区别(Big data:different from traditional BI)
--大数据与传统商业智能的区别(Big data:different from traditional BI)
-Quiz
--Quiz--作业
-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)
--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)
-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)
--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)
-探寻搜索的多个维度(finding dimensions for queries)
--探寻搜索的多个维度(finding dimensions for queries)
-Quiz
--Quiz--作业
-背景介绍(background)
-用户移动规律的理解-1(user mobility understanding-1)
--用户移动规律的理解-1(user mobility understanding-1)
-用户移动规律的理解-2(user mobility understanding-2)
--用户移动规律的理解-2(user mobility understanding-2)
-用户画像与个人隐私-1(user profiling and privacy-1)
--用户画像与个人隐私-1(user profiling and privacy-1)
-用户画像与个人隐私-2(user profiling and privacy-2)
--用户画像与个人隐私-2(user profiling and privacy-2)
-Quiz
--Quiz--作业
-城市计算中的大数据研究简介(introduction to urban big data)
--城市计算中的大数据研究简介(introduction to urban big data)
-概念,框架和挑战(concepts,framework and chanlleges)
--概念,框架和挑战(concepts,framework and chanlleges)
-基础技术(fundamental techniques)
--基础技术(fundamental techniques)
-城市规划(urban planning)
-识别特定区域(indentify functional regions)
--识别特定区域(indentify functional regions)
-城市空气质量与大数据研究(urban air quality meets big data)
--城市空气质量与大数据研究(urban air quality meets big data)
-能源交通和环境污染(traffic energy and pollution)
--能源交通和环境污染(traffic energy and pollution)
-大数据在城市噪音处理中的应用(diagnose urban noise with big data)
--大数据在城市噪音处理中的应用(diagnose urban noise with big data)
-Quiz
--Quiz--作业
-软件分析的概念(the concepts of software analytics)
--软件分析的概念(the concepts of software analytics)
-软件分析的实例(examples of software analytics)
--软件分析的实例(examples of software analytics)
-传统的数据可视化(Traditional information visualization)
--传统的数据可视化(traditional information visualization)
-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)
--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)
-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)
--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)
-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)
--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)
-Quiz
--Quiz--作业