当前课程知识点:微软亚洲研究院大数据系列讲座 > 第四讲:城市计算中的大数据研究(上)(郑宇) > 概念,框架和挑战(concepts,framework and chanlleges) > 概念,框架和挑战(concepts,framework and chanlleges)
大家好,我是微软研究院的郑宇。
在这次课中,我将介绍城市计算的
概念和框架。我们还会讨论城市计算
每一层中的挑战。
我希望你们喜欢这些内容。
受到利用大数据来建设更好城市的机会的激励,
我提出了城市计算的一个部分,即让
城市传感、城市数据管理、城市数据分析
和服务提供成为一个为人们的生活、
城市运行系统和环境做出
不断重复但不显眼的改进的循环。简言之,我们想要
利用大数据来应对大城市的大挑战。
这是一个多数据源、多任务的信息系统,
其中有各种各样的数据,我们要完成
各种各样的服务或者任务。让我们来看看,为了改进
城市规划,我们需要看一看交通数据、
人口数据甚至污染数据。
所以,如何从跨越多个领域的
多个数据源中
释放知识的力量成为了一个新的挑战,这是城市计算
从本质上区别于传统的数据挖掘和机器学习任务的地方。
从2008年开始,我们在城市计算方面做了很多技术工作。
我通过一个例子来向大家展示城市计算的概念。
现在,空气污染是一个全球性的问题,特别是在发展中国家中。
很多城市都建设了地面上的
空气质量监测站,它们每小时会向人们报告一次环境空气质量。
在这幅图中,每个图标表示一个空气质量监测站,
与每个图标关联的数字是这个空气质量监测站测得的
空气质量指数。这个数字越小,表示空气质量越好;这个数字越大,表示空气质量越差。
我们可以看到,即使是在同一时刻,
不同站点测得空气质量都可能相差很大。
这个现象并不令人觉得奇怪,因为空气
质量受到很多复杂因素的影响,如交通流、
能源消耗以及建筑物、
工厂、公园或者区域的分布。
这些因素在城市中的不同部分是不同的。
所以,如果没有空气质量监测站,我们就无法准确地知道一个地方的空气质量。
例如,如果一个地方没有空气质量监测站,那么这个地方的空气质量是什么样的呢?
我们不能使用线性差值方法来计算这个地方的空气质量,
因为空气质量在城市中的分布是高度非线性和有偏的。
我们也不能使用这些站点的平均读数来表示这个
地方的空气质量。为了解决这个问题,我们通过使用
两部分大数据来推测
整个城市实时、细粒度的空气质量。第一部分
大数据是已有的站点获得的
空气质量的实时读数和历史读数。
第二部分大数据包括五个其他
数据源:气象数据,如刮风、
温度、湿度等;交通流;
人的移动性数据;兴趣点的数据,如这里的餐馆数量、
工厂数量,一个特定区域的建筑物密度;
以及路网数据,如一个给定区域有多少个路口,多少个交通信号灯,
高速公路里程是多少。
使用机器学习和数据挖掘
技术,我们可以
在一个区域中观察到的数据和这个区域的空气质量之间建立一个网络。
这里是一个全市的
空气质量的精细的结果。它是非线性的。
有了这样精细的空气质量信息,我们就可以影响
人们的决策制定,如去哪里远足,什么时候关
窗户。同时,这也是在未来找到
空气污染的根本原因方面前进了一步。
这个系统基于云和端相结合的框架,其中云端
持续收集实时数据,包括气象数据和
空气质量数据,处理数据并通过移动客户端或网站为用户提供
实时的空气质量信息。
我们有两种移动客户端,分别运行在
Windows手机和安卓手机上。
如果你们是英语用户,你们可以搜索“Urban Air”;如果你们是中文用户,
你们可以搜索“小鱼天气”。然后,你们就可以
免费下载这个应用程序。这个天气的应用程序有什么特别之处呢?
你们只需要在地图上点击,就可以得到所点击的
位置的空气质量信息,即使那里没有空气质量检测
站。我们还可以预报48小时之内
一个细粒度位置上的空气质量。
我们将在后面详细介绍这个项目。
让我们来重温一下城市计算的框架
并讨论这个框架每一层中的挑战。
城市计算的第一层中的挑战
是城市传感,它包括三个方面:
数据缺失
和稀疏性、有偏分布以及有限的来源。
让我们来看看每个方面的挑战的一些例子。
第一方面的挑战
是我们只有抽样数据,所以
基于抽样数据生成整个数据的真实分布
是一个真正的挑战。
例如,我们有出租车的轨迹数据,
但是我们想要估计路面上
所有行驶车辆的交通流。
出租车的分布可能不同于
所有车辆的轨迹分布。
所以,我们需要基于抽样数据
生成整体交通分布的能力。
在城市噪音项目中,
我们有部分用户的一些签到数据,
但是我们要获得整个城市范围内的
人的移动性模式。很显然,
这些抽样数据并不是城市范围内真实的人的移动性模式。
这就是所谓的有偏分布。
此外,城市传感中还有数据缺失和
数据稀疏性的问题。让我们来看看
城市空气项目。我们在城市中只建立了
有限数量的空气质量监测站。
但是,城市是非常大的。
我们只有从这些空气质量监测站获得的样本数据。
这些数据是非常稀疏的,但是我们想要复原整个城市的数据。
在城市噪音项目中,我们有一些用户在一些地方的
311数据,但是我们想要诊断
整个城市的噪音状况。我们面临着数据缺失和数据稀疏性
的问题。城市传感层中另一个方面的挑战是
我们只有有限的资源、预算
或者人力来鼓励人们贡献
他们的数据。有两种类型的
数据收集策略。第一种策略是静态感知,即
在固定位置部署一些传感器。这种策略的问题是在
什么地方部署站点可以最大化知识的收益。
让我们来看看,我们有500万
美元可以用来在一个城市中部署新的站点。
但是,我们想要在哪里部署站点,
以便我们能够更准确地估计
城市的空气质量呢?这是一个问题。
但是,对于基于群体感知的策略,
我们想要把正确的激励放到正确的地方
以获得更多的数据,特别是
动态激励是非常有挑战的。
这就是城市感知的问题和挑战。
城市计算的第二层的挑战
是城市数据管理,
它包括两个方面。首先,我们必须处理多模态数据,
这些数据有不同的表示形式、使用不同的单位,具有不同的密度。
第二个方面的挑战是
我们面对着动态、高速
和海量的数据。所以,我们必须考虑如何频繁地更新数据。
让我们来看一些
多模态数据管理的例子。
在城市空气项目中,我们需要使用五个不同的数据集,
包括气象数据、交通数据和兴趣点数据。
这些数据是完全不同的。它们都是多模态数据,具有不同的度量、
密度和表示方法。大部分数据都有相关联的空间和时间
信息。其中一部分是类别数据,
另一部分是数值数据。所以,在这个项目中,我们需要
快速提取给定时间段内给定区域中的各种数据。我们需要
索引结构来更好地管理多模态数据。
关于城市数据管理的第二个方面,
我们需要考虑数据的更新频率和数据量。
首先,数据更新
非常频繁。所以我们需要一些灵活的
索引结构,以便数据能够非常频繁地
更新。其次,不同数据集的更新频率是不同的。
如果我们简单的把不同类型的数据集组织
到一个数据索引结构中,
那么就会面临一些大的挑战。
当一类数据集中的一个数据片有了更新时,
我们就需要更新
整个数据结构,这将会是一个灾难。第三,
数据是海量的。我们无法在一台机器上存储所有数据。
所以如何把数据分组
并分布到不同的机器上,以便
进行并行计算是数据管理的一个新挑战。
让我们来看一个更具体的例子。
我们可能知道,传统的关联规则模式挖掘
根据超市的交易记录发现,
人们在买啤酒的时候通常会买尿布。
但是,如果有
不同领域的多个数据源,我们怎么样才能识别
它们之间的关联模式呢?这是一个新的挑战。
例如,我们有兴趣点数据、气象数据、
空气质量数据和交通数据。我们能够识别这样的
模式么?让我们来看看,如果是一个雾天,
如果行车速度小于30公里/小时,
如果给定区域的兴趣点密度大于
每平方公里50个,那么这个区域的空气质量往往是不好的。
知道这类关联模式,我们就可以真正找到
空气污染的根本原因。
这里是另一个例子。假设有用户签到数据、
公交网络数据和兴趣点数据,
我们想要研究一家星巴克咖啡店的收入,
基于我们有的数据。
例如,假如我们可以识别这样的模式,让我们来看看。
假设每周的用户签到数大于500,
星巴克咖啡店周围的人数和兴趣点密度大于30
且有至少3个地铁车站,
那么这家星巴克咖啡店每周的收入
就会超过10万美元。
知道这样的模式可以
支持新店的选址。
这类跨多个领域的关联模式背后
有巨大的价值。
识别这样的关联模式
非常有挑战有三个原因。首先,
这里面没有清晰的交易概念。
例如,超市的交易记录中
会记录人们同时买牛奶、面包和尿布。但是,这里
我们有不同的数据源,其中并没有清晰的
并发的概念。所以我们必须定义
不同数据源的并发的含义是什么。第二个原因是我们有
很多数据源,每个数据源都有很多
属性,所以不同的数据源
和不同的属性就可能有很多种组合。
这是一个非常耗时的过程。
第三,我们需要处理不同模态之间的交叉。
发现不同类别之间的交叉非常容易。这就是
传统的关联规则方法处理交易数据的方式。但是,如果
数值数据和数值数据在一起或者数值数据和
类别数据在一起,那么是什么样的呢?这是一个我们需要解决的新挑战。
城市数据管理还面临一类挑战。
城市计算的第三层中的挑战包括三个方面。
首先,传统的数据挖掘和机器学习技术通常是
处理文本和图像数据的。但是现在我们有空间和时空数据。
这是一个我们需要去探索的新领域。
其次,我们不仅需要处理一个数据源。我们有跨多个域
的多个数据源。如何从来自不同域的
多个数据集中释放知识的力量是一个新的挑战。
这也是一个端到端的服务,
需要集成不同的技术,
包括机器学习、数据管理和可视化。我们需要
把这些技术聚合在一起。这不仅仅是机器学习,也不仅仅是
数据挖掘。所以,如何有机地组织
不同学科的技术是一个新的挑战。
在城市空气项目中,我们有来自多个域的
多个数据源。我们想要把这些数据源结合在一起来
推断整个城市的细粒度的空气质量。但是,平等地
对待这些数据源并不能获得好的性能。
所以,如何聚合不同的或者说多个稀疏的数据源是
一个新的挑战。同样的,在城市噪音项目中,
我们有311的数据、兴趣点的数据、签到数据和
路网数据,我们想要推断整个城市的细粒度噪音指数。
这是同样的问题,我们如何能够
从跨不同域的多个数据源中释放知识的力量。
这里,我把跨域数据融合
方法分成三类。第一类使用
一个任务不同阶段的不同数据集。
让我们来看看,我们首先用路网将城市
分成一些区域,然后使用交通数据来分析
不同区域之间的通勤模式。这被称为基于阶段的数据融合。
第二类数据融合方法是
融合不同特征水平的数据。这意味着我们
从不同数据集中提取特征,
把数据收集在一起
作为一个新的特征向量并把他们作为
一个分类或者信息检索任务。
高级的基于特征水平的融合方法使用深度
神经网络学习从不同数据集中提取的特征的
新的表示。因此,它更高级。
第二类
数据融合方法称为基于语义含义的方法。这意味着我们需要
理解数据的语义含义。这类方法有
四个子类。
在后面的课程中,我们会用一些具体的例子
来讲解每一个子类的的方法。所以,我希望你们能够一直来听课。
城市计算的第四层中的挑战
包括两个方面。首先,它必须是城市范围内的动态的
决策制定和服务提供。它不能只是
一个路段上的服务。
这是一个城市范围内的服务,它需要影响
人们的决策制定。这很重要。我们还可以考虑
为当前的状况部署一些服务,
为预测未来使用一些服务,为理解历史使用一些服务。
这里是一些为理解当前、历史和未来的
状况提供的服务的例子。
例如,我们想要推断整个城市的细粒度的空气质量。
这可以作为一个
服务,用来理解城市中当前的空气质量。我们还可以
预测未来的空气质量。
所以,这是一种对未来的理解。有时候,我们需要
看看历史来理解我们的数据。
例如,什么是城市中空气污染的根本原因。
这是第一个例子。这里
我们想要推断整个城市细粒度的空气质量。
你们可以访问这个URL地址,
阅读下面这篇论文。
这是一个理解当前状况的服务提供的例子。
这里我们想要预测
未来48小时的空气质量。
特别是对未来6小时,
我们为每个小时预测一个空气质量值。
对未来7小时~12小时、
13小时~24小时和25~48小时,我们预测
每个时间段内的空气质量的最大值和最小值。
这就是未来状况的预测。
有时候,我们需要理解历史数据。
这里就是一个例子,
基于连续几年的出租车轨迹数据和
路网数据收集城市道路网络
中的有问题的设计。
如我们所见,几年前这片黄色的区域中存在一个问题。
因为很多人想要
通过这两个区域进入四环路。但是后来我们发现,
新修了一条路,就像这条路。
人们可以通过这条新路进入四环路。
后来这个问题就消失了。
为此,我们可以看到,
这条新路解决了两个区域的问题。
基于这类数据
我们可以理解历史状况。
这次课到这里就结束了。
如果你们对城市计算感兴趣,你们可以搜索“城市计算”或者访问我的
主页。你们也可以阅读下面这篇综述论文。
谢谢大家!
-什么是大数据(What is big data?)
-为什么大数据是当前热点(Why big data is a nature phenomenon?)
--为什么大数据是当前热点(Why big data is a nature phenomenon?)
-新的计算基础设施和工具(New Infrastructure and tools)
--新的计算基础设施和工具(New Infrastructure and tools)
-课程简介(Course Introduction)
-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)
--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)
-大数据与传统商业智能的区别(Big data:different from traditional BI)
--大数据与传统商业智能的区别(Big data:different from traditional BI)
-Quiz
--Quiz--作业
-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)
--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)
-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)
--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)
-探寻搜索的多个维度(finding dimensions for queries)
--探寻搜索的多个维度(finding dimensions for queries)
-Quiz
--Quiz--作业
-背景介绍(background)
-用户移动规律的理解-1(user mobility understanding-1)
--用户移动规律的理解-1(user mobility understanding-1)
-用户移动规律的理解-2(user mobility understanding-2)
--用户移动规律的理解-2(user mobility understanding-2)
-用户画像与个人隐私-1(user profiling and privacy-1)
--用户画像与个人隐私-1(user profiling and privacy-1)
-用户画像与个人隐私-2(user profiling and privacy-2)
--用户画像与个人隐私-2(user profiling and privacy-2)
-Quiz
--Quiz--作业
-城市计算中的大数据研究简介(introduction to urban big data)
--城市计算中的大数据研究简介(introduction to urban big data)
-概念,框架和挑战(concepts,framework and chanlleges)
--概念,框架和挑战(concepts,framework and chanlleges)
-基础技术(fundamental techniques)
--基础技术(fundamental techniques)
-城市规划(urban planning)
-识别特定区域(indentify functional regions)
--识别特定区域(indentify functional regions)
-城市空气质量与大数据研究(urban air quality meets big data)
--城市空气质量与大数据研究(urban air quality meets big data)
-能源交通和环境污染(traffic energy and pollution)
--能源交通和环境污染(traffic energy and pollution)
-大数据在城市噪音处理中的应用(diagnose urban noise with big data)
--大数据在城市噪音处理中的应用(diagnose urban noise with big data)
-Quiz
--Quiz--作业
-软件分析的概念(the concepts of software analytics)
--软件分析的概念(the concepts of software analytics)
-软件分析的实例(examples of software analytics)
--软件分析的实例(examples of software analytics)
-传统的数据可视化(Traditional information visualization)
--传统的数据可视化(traditional information visualization)
-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)
--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)
-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)
--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)
-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)
--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)
-Quiz
--Quiz--作业