当前课程知识点:微软亚洲研究院大数据系列讲座 > 第四讲:城市计算中的大数据研究(上)(郑宇) > 城市计算中的大数据研究简介(introduction to urban big data) > 城市计算中的大数据研究简介(introduction to urban big data)
大家好,我是微软研究院的郑宇。
在这次课中,我将向大家介绍大数据
能够怎样帮助应对城市中的各种挑战。
众所周知,快速的城市化
使得很多人的生活变得现代化,同时也产生了很多挑战,
如交通拥挤、能源消耗和空气污染。
城市的复杂性使得应对这些挑战看起来几乎是不可能的。
近来,传感技术
和大规模计算基础设施
的进步产生了各种各样的大数据,
从社会化媒体数据到交通数据,从地理数据到气象数据。
如果使用得当,我们可以使用这些数据去应对
城市中面临的各种挑战。受到这个机会的激励,我们提出了
城市计算的解决方案。它把城市传感、城市数据管理、
城市数据分析和服务提供变成一个
对人的生活、城市运行系统和环境进行
不断重复但不显眼的改进的循环。
这是一个多任务、多数据源的信息系统,
其中有各种各样的数据和任务。
甚至在一个任务中,我们就需要利用各种各样的数据。
让我们来看看,为了改进城市规划,我们需要
交通数据、人口数据甚至污染数据。所以,如何
从不同领域中的多个数据集中释放知识的力量
成为了一个新的挑战,这使得
城市计算在本质上有别于传统的数据挖掘和机器学习任务。
在这次课中,我会介绍城市计算的
概念、方法和应用,分别展示
城市传感、城市数据管理和城市数据分析方面的代表性研究。
这些研究的应用场景
包括交通、城市规划、环境和
能源消耗。我希望你们喜欢这些内容。
城市化的快速发展使得很多人的生活变得现代化,
但是同时也产生了很多问题,
如交通拥挤、能源消耗和空气污染。
在复杂的城市中要应对这些挑战看起来似乎是不可能的。
但是,最近传感技术和
大规模计算基础设施的进步产生了各种各样的数据,
从社会化媒体数据到交通数据,从地理数据到
气象数据。如果使用得当,
我们就可以使用这些数据来应对城市中面临的挑战。
在下面的幻灯片中,我将展示一些
城市大数据的例子。我把它们分成三类。
第一类数据是空间维度和时间维度上的静态数据。
这类数据可以分为三个子类:
点、线和图。
例如,一个兴趣点是
一个静态的数据点,其价值不随时间改变;一条路线
可以使用一条线来建模;一个路网可以使用一个图来建模。
这张幻灯片展示了两类兴趣点
数据的分布,黄色的点表示电影院,
蓝色的点表示酒吧。
你们可以看到,北京有很多酒吧,这说明北京是一个非常国际化的城市。
有了连续几年的数据,
你们可以看到一个城市的商业是如何变化的。
例如,在过去五年,北京市区
电影院的数量在持续增长,
达到260个。
这意味着越来越多的人喜欢到电影院
看电影,而不是买DVD。
通过挖掘连续几年的数据,
还可以讲出来很多这样的故事。
这幅图展示了北京的路网。
其中,红色的线表示连接北京和其他城市的高速公路,蓝色的线
表示北京的环路,
黑色的线表示北京的主干道。
有了连续几年的数据,你们可以看到一个城市的
路网是如何扩张的。
第二类城市大数据包括静态的地理位置。
但是,与每个点关联的数值
会随时间变化。我们称之为时间动态性。
传感网络数据就是这类城市大数据。
让我们来看看一些例子。
第一类例子是空气质量数据。
很多城市都设置了
地面的空气质量监测站,目的是每小时
向人们报告一次环境空气质量。
每个空气质量检测站都有静态的空间信息。
但是,每个站点的空气质量会随时间变化,如这幅图所示。
我们称它是时间动态但是空间静态的。
第二类例子
是气象数据,如刮风、温度、
湿度等。城市中有很多
气象监测站。
就像空气质量的例子,每个
站点都有固定的地理位置,但是
气象数据的读数会随时间变化。
这类城市大数据的第三个例子是
房地产市场。我们可以看到,
每个住宅地产都有一个固定的地理位置。
但是,它的价格和属性会随时间变化。
这就是时间动态性。
这幅图展示了北京的动态热图,
它描述了每段时间段内
每个区域中的出租车到达量。
颜色越深表示给定时间段内这个区域的到达人数越多。
这里有两个故事。首先,如我们所看到的,
北京北部,就是这个区域,
相对来说比北京的其他区域更受欢迎。这是北京的CBD。
通过比较
两个不同类型的日子中的相似区域,我们可以看到,
工作日比节假日有更多人
到达北京的中心区域,
因为节假日中大部分人都会离开城市旅行。
另一个例子是311数据。
你们也许都知道911,
它是美国的紧急呼救号码。311是一种
投诉数据,这意味着你可以投诉
城市中令你讨厌的东西,但是这个投诉并不是很紧急。在投诉时,
你需要提供位置、时间
和投诉的类别。这幅图展示了
与噪音相关的311投诉数据,条的高度
表示某个区域中311投诉的数量,
条的颜色代表被
投诉的噪音的类别,
如交通噪音、嘈杂音乐噪音和建筑噪音。
实际上,这个数据是把人作为传感器得到的,也称为群体感知,
即个人报告的环境状况。
接下来,通过聚合多个用户的数据,
我们可以诊断整个城市的噪声情况。
这是人作为传感器或者群体感知的一个很好的例子。
第三类城市大数据在空间维度和时间维度上都是动态的。
这类数据中数据结构
最复杂的是轨迹。
这里是一个轨迹的例子,我们有很多点。
每个点都关联了一个地理信息,
如X坐标、Y坐标和时间戳。
按照时间顺序收集这些数据,
我们就可以形成一个轨迹。
有很多来源可以产生轨迹数据,
如人的移动。
我们可以通过使用GPS记录仪来追踪我们的旅行经历。
我们还可以通过分析我们的轨迹来分析体育活动。
签到数据也是一种轨迹。
车辆的运动
也可以被记录为轨迹,如
出租车轨迹、公交车轨迹;动物的迁徙
也是一类轨迹数据,
飓风、龙卷风等自然现象的运动
也可以被看成是轨迹。让我们来看看一些例子。
geo-life是我们构造的用于
记录人的生活经历的系统。
人们可以把自己的GPS轨迹和在旅行中拍摄的照片上传到系统中。
系统会自动把照片和拍摄照片的位置排列在一起。
通过回放轨迹,人们可以在几分钟之内阅读体验,
旅行体验;人们还可以
很方便地和其他人分享他们的体验。
这幅图展示了人们在
纽约市的两类不同的兴趣点的签到情况。
这里,签到是指人们
在到达一个地方时在Foursquare这样的社交网络服务上做标记。
签到序列可以被认为是轨迹。
但是,两次连续签到
之间的时间间隔可能会很大,如几个小时。
这幅图展示了北京的3000多辆出租车
产生的GPS轨迹的热图。
这些数据不仅告诉了我们地面上的
交通模式,而且包括城市中人的移动性模式,
因为我们知道人们上出租车和下出租车的地方。
这三个月的数据中出租车的总行驶里程
是地球和太阳之间的距离的三倍。这个数字是巨大的。
如果你们对这些数据集感兴趣,
你们可以搜索“城市计算”或者到我的主页上
免费下载这些数据集。
谢谢大家!
-什么是大数据(What is big data?)
-为什么大数据是当前热点(Why big data is a nature phenomenon?)
--为什么大数据是当前热点(Why big data is a nature phenomenon?)
-新的计算基础设施和工具(New Infrastructure and tools)
--新的计算基础设施和工具(New Infrastructure and tools)
-课程简介(Course Introduction)
-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)
--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)
-大数据与传统商业智能的区别(Big data:different from traditional BI)
--大数据与传统商业智能的区别(Big data:different from traditional BI)
-Quiz
--Quiz--作业
-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)
--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)
-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)
--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)
-探寻搜索的多个维度(finding dimensions for queries)
--探寻搜索的多个维度(finding dimensions for queries)
-Quiz
--Quiz--作业
-背景介绍(background)
-用户移动规律的理解-1(user mobility understanding-1)
--用户移动规律的理解-1(user mobility understanding-1)
-用户移动规律的理解-2(user mobility understanding-2)
--用户移动规律的理解-2(user mobility understanding-2)
-用户画像与个人隐私-1(user profiling and privacy-1)
--用户画像与个人隐私-1(user profiling and privacy-1)
-用户画像与个人隐私-2(user profiling and privacy-2)
--用户画像与个人隐私-2(user profiling and privacy-2)
-Quiz
--Quiz--作业
-城市计算中的大数据研究简介(introduction to urban big data)
--城市计算中的大数据研究简介(introduction to urban big data)
-概念,框架和挑战(concepts,framework and chanlleges)
--概念,框架和挑战(concepts,framework and chanlleges)
-基础技术(fundamental techniques)
--基础技术(fundamental techniques)
-城市规划(urban planning)
-识别特定区域(indentify functional regions)
--识别特定区域(indentify functional regions)
-城市空气质量与大数据研究(urban air quality meets big data)
--城市空气质量与大数据研究(urban air quality meets big data)
-能源交通和环境污染(traffic energy and pollution)
--能源交通和环境污染(traffic energy and pollution)
-大数据在城市噪音处理中的应用(diagnose urban noise with big data)
--大数据在城市噪音处理中的应用(diagnose urban noise with big data)
-Quiz
--Quiz--作业
-软件分析的概念(the concepts of software analytics)
--软件分析的概念(the concepts of software analytics)
-软件分析的实例(examples of software analytics)
--软件分析的实例(examples of software analytics)
-传统的数据可视化(Traditional information visualization)
--传统的数据可视化(traditional information visualization)
-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)
--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)
-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)
--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)
-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)
--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)
-Quiz
--Quiz--作业