当前课程知识点:微软亚洲研究院大数据系列讲座 >  第三讲:社会计算中的大数据研究(谢幸) >  背景介绍(background) >  背景介绍(background)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频课程列表

背景介绍(background)在线视频

背景介绍(background)

下一节:用户移动规律的理解-1(user mobility understanding-1)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频列表

背景介绍(background)课程教案、知识点、字幕

欢迎参加这次“基于大规模人类行为数据的用户理解”讲座。

这次讲座是由微软亚洲研究院开设的大数据系列讲座的一部分。

在这一讲中,我将向大家介绍

用户理解这个重要的大数据应用。

我的讲座包括三个部分。

首先,我将介绍背景信息。例如,

什么是用户行为数据,用户行为数据是怎么积累的。

我还会讲为什么我们需要研究用户理解以及为什么用户理解这么重要。

在第二部分,我会介绍我们最近关于移动规律理解应用的研究工作。

例如,怎样处理用户轨迹中的数据缺失问题,

怎么样为用户推荐有趣的地点。

在最后一部分,我会展示我们近期

在用户分析和隐私保护方面的研究项目。谢谢大家,希望大家

喜欢这次讲座。

现在,我们开始讲背景部分。

在这张幻灯片中,我想借用一张流行的

信息图,

这张信息图的名字叫数据永不眠。

这张图

展示了用户产生的数据量。

例如,从图中我们可以看到,每分钟会产生超过

两亿条电子邮件消息。

我们还可以看到,Facebook上有40多亿次查询请求

和200多万次分享。

WhatsApp上有30多万次照片分享,

Twitter上有20多万条tweets。

用户在Instagram上传20多万张新照片。

还有很多在Amazon、Apple、

Yelp、Skype和Pinterest上产生的数据。

用户产生的数据量是巨大的。

我们会告诉大家如何利用这些用户数据来

更好地理解用户并帮助相关的

应用更好地为用户提供服务。

为了介绍用户数据是怎么样收集的,

我想回到二十多年之前,

那时候普适计算的概念

才刚刚被提出来。

马克.维瑟提出了普适计算的概念。

他是施乐帕克研究中心计算机科学实验室的主任。

那时候

已经有了大型机和个人计算机,

人们想知道计算的未来会是什么样的。

马克提出,普适计算是计算的未来。

那么什么是普适计算呢?

马克提出了四个原则。

首先,计算的目的为了帮助人们做其他事情。

其次,最好的计算机是安静的、无形的仆人。

马克还说,一个人能够凭直觉做的事情越多,他就越聪明。

计算机应该扩展人的潜意识。

最后,他说,技术

应该营造出平静,这一点对普适计算非常重要。

普适计算的概念提出后,

研究人员开始

构建原型。大体上,他们希望让计算机变得更聪明。

研究人员为这类设备设计了三种规格,

分别是tabs、pads和boards。

Tabs是厘米级的设备。

如智能手机和智能卡。

它们非常容易携带。人们可以把它们带到任何地方。

Pads是像笔记本电脑这样的分米级设备。

这些设备可以随身携带,但是不能装在口袋里。

Board是米级的设备。因为它们非常大,所以

无法随身携带,也不能移动。

但是,它们很适合照片分享或者游戏类的应用。

因为这些设备是可移动的,

所以一个直接的想法就是检测它们的位置

并使用它们来构建可感知情境的应用。例如,

如果知道设备的位置,我们就可以使用它们来推断用户的位置。

我们可以展示

用户周边的旅游景点信息。

1989年,研究人员构建了

“活动徽章”,它是最早的

室内定位系统之一。

这里有一张“活动徽章”的照片。

设备每10分钟发送一次红外信号,

每个房间都安装了一个或者多个检测这些信号的网络传感器,

系统使用这些信号来推断设备的位置。

随后,在1997年,英国兰卡斯特大学的研究人员

开发了Guide,它是第一个面向游客的移动电子指南。

Guide是可感知情境的应用。

它会使用无线通讯链路

尝试获取基于用户位置的

校园中相关地点的信息。

从这张图中,你们可以看到这个应用。虽然它还处于

发展初期,

但是已经和现在的很多旅游应用很相似了。

微软研究院有很多这个方向的项目。

1999年,研究人员开发了SenseCam。

SenseCam是一个可穿戴的数码相机,

其目的是被动拍照。

所以,它可以记录用户的生活。

后来有了MyLifeBits,MyLifeBits利用SenseCam产生的数据,

它被称为一生中所有东西的储藏库。

稍后,我会讲这两个项目。

Easyliving是一个关于建造智能房间的项目,

它可以同时支持工作和娱乐活动。

2000年,

研究人员开发了基于WiFi信号强度

做室内定位的Radar技术。

实际上,这一方法现在已经广泛应用于移动设备了。

还有很多受到Intel帮助的重要研究项目,

包括著名的位置实验室项目。

位置实验室的目的是构建

基于GSM基站、蓝牙和Wi-Fi信号的设备定位技术。

Mode是另一个项目,

它的目的是构建微小的、独立的、由电池供电的计算机。

所以,最重要的是如何实现机器之间的互相通信和数据交换,

并通过自组织形成

自组织网络。自组织网络可以看作是物联网的早期原型。

好了,我们已经了解了很多普适计算的项目。

其中大部分都与

传感器和情境感知相关。那么,什么是传感器呢?

让我们来看看维基百科。维基百科上说

传感器是一种测量

物理量并将其转换为能被观察者或者仪器所读的

信号的设备。

所以,传感器可以被看成是

连接物理量和数字信号的桥梁。

在现在的移动设备,如智能手机中,

已经有很多传感器。例如,智能手机能够

记录设备的时间和地点,地点可能来自GPS、

Wi-Fi、移动基站或者蓝牙信号。

智能手机中还有很多可以记录设备移动的传感器,

如加速度计、陀螺仪和数字罗盘。使用这些

移动信号,我们可以推断用户的移动和活动。

传感器还可以被用于记录环境信号。

例如,我们可以使用麦克风来检测声音信号,使用相机来

检测视觉信号。我们还可能有环境光传感器、

接近传感器、气压计、湿度传感器和温度计。

现在,让我们来看一些用户行为数据集。

Flickr上有大量的带有地理标签的照片。

通常,用户会在去其他城市旅行

或者开会的时候拍照片。

这些照片

代表了他们怎么在这些城市中旅行

以及他们怎么拍照片的行为。

所以,照片中包含了很多关于地点和用户的信息。

2014年7月,雅虎研究院宣布将为研究目的开放

大约一亿张Flicker照片和视频。

这张图展示了

Foursquare的签到数据。

你们可以看到,从2009年开始,签到数据的覆盖范围和规模

都在迅速增长。

2012年,

Foursquare上有大约两千万用户的

二十多亿条签到数据。

这些数据对研究用户的

日常活动非常有价值。

例如,

他们去餐馆,他们去逛购物中心或者电影院的行为是怎么样的?

北京有很多出租车,

据说北京有超过6万辆出租车。

大部分出租车都装有GPS。

这意味着我们可以记录这些出租车的轨迹。基于出租车的轨迹数据,

我们画出这张热点图。

从热点图中,我们可以很容易地看到主干道路网

和受欢迎的区域。我们在这方面做了很多研究工作。

从出租车轨迹中挖掘知识

对很多应用都非常有用,如城市规划、

位置推荐和拼出租车。

并不是每个人都乘坐出租车。在北京,还有很多人乘坐公共交通工具。

据报道,北京有4000多万张智能卡

或者说市政公交一卡通。

人们使用一卡通乘坐公共汽车和地铁。

由这些智能卡产生的数据

可以和出租车的数据

以及其他关于人的移动行为数据集形成互补。

这张幻灯片展示了一个

关于我们如何从这些公共交通数据集中挖掘知识的例子。

这张幻灯片中的两幅图

是基于2011年一个典型的早晨的

地铁刷卡数据生成的。

上面这幅图展示了有多少人

刷卡进入地铁站,下面这幅图展示了

有多少人刷卡离开地铁站。

可以看到,不同地铁站的刷卡进站的人数和刷卡出站的人数相差很大。

在很多地铁站,刷卡进站的人数

远多于刷卡出站人数。

这是因为

这些地铁站靠近居住区。

在另一些地铁站,刷卡出站的人数多于刷卡进站的人数,

这是因为这些地铁站靠近商业区。

好了,我们已经看了很多人类行为数据的例子。

这些数据有几个共同点。

它们都是直接或者间接由人产生的。

它们代表了一些物理世界的活动。

例如,带有地理标签的照片表示

人们在哪里拍照。位置签到表示

人们在哪里停留,如餐馆、电影院。

出租车轨迹展示了出租车

如何在城市中行驶。

智能卡记录展示了人们如何乘坐公共交通工具。

这些数据都是结构化的。例如,所有数据

都包含至少一个时间戳和一个位置标记。

位置标记可以用

经度和纬度这样的坐标或者位置名称、公共汽车站表示。

这些数据包含一定的隐私风险。

因为这些数据中包含很多与用户有关

而用户可能不愿意透露的信息。

所以,我们在挖掘这些数据的时候要非常小心。

使用人类行为数据,我们要做的就是尽量

利用做些数据来产生关于用户的知识。

然后利用这些知识来使

各种云服务

变得更加个性化并为用户提供更好的推荐。

现在,我想用几张幻灯片来展示用户理解的发展历史。

在大约70多年前的1945年,范内瓦.布什

提出了关于扩展存储器的想法。

扩展存储器是指个人可以用来

压缩和存储所有书籍、记录和通讯的设备。

扩展存储器可以被看作

最早关于数据采集的想法。

当范内瓦.布什在大西洋月刊发表的《AS WE MAY THINK》一文中

提出这个想法的时候,

后来出现了很多生活记录的项目。

这些项目基本上都受到了这个概念的启发。

MyLifeBits就是这样一个生活记录的项目。

MyLifeBits 的主要贡献者是

戈登.贝尔和吉姆.戈梅尔。

他们想要构建一个用户可以一直穿在身上、

自动拍照片和

记录传感器读数的设备。

在这张图中,你们可以看到很多

这种生活记录设备。

后来,基于在这个项目中积累的经验,

戈登和吉姆出版了《你们的生活,上传了么?》一书。

2012年,史蒂芬.沃尔弗拉姆写了

一篇著名的博文,

博文的标题是《我的生活的个性化分析?》。

史蒂芬因Mathematica和沃尔弗拉姆搜索引擎而非常有名。

我们只使用了

他的博文中的一张图来展示个性化分析的力量。

这张图是根据史蒂芬

收到的邮件、发出的邮件、

键盘敲击、会议和活动日程以及电话数量和步行数量等个人数据生成的。

如果我们来看看一天中不同时候步行的频率,

我们就可以很容易发现

史蒂芬每天起床很晚,中午有很多活动,

这也许是因为吃午饭。

下午,史蒂芬的活动量迅速减少。

如果我们看看键盘敲击的数据,我们就可以发现

史蒂芬

会工作到午夜一点或两点。

比较发出邮件的数量和按键的数量,我们可以

发现二者的一致性很好。

所以,我们可以认为他的大部分工作都是给其他人写邮件。

另一方面,如果我们看看收到的邮件的数量,

大部分邮件都是在白天收到的。

所以,从史蒂芬的个人数据中,我们可以发现很多知识。

他的博文中还有很多图表,

这些图表展示了不同类型的知识,如他的生命阶段。

实际上,这篇文章展示了这类挖掘的力量。

如果我们能够更好地理解用户,我们就能够使用

这些知识来帮助不同应用

实现个性化并提供个性化的帮助。

微软亚洲研究院大数据系列讲座课程列表:

第一讲:大数据研究现状及未来趋势(洪小文)

-什么是大数据(What is big data?)

--什么是大数据(What is big data?)

-为什么大数据是当前热点(Why big data is a nature phenomenon?)

--为什么大数据是当前热点(Why big data is a nature phenomenon?)

-新的计算基础设施和工具(New Infrastructure and tools)

--新的计算基础设施和工具(New Infrastructure and tools)

-课程简介(Course Introduction)

--课程简介(Course Introduction)

-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

-大数据与传统商业智能的区别(Big data:different from traditional BI)

--大数据与传统商业智能的区别(Big data:different from traditional BI)

-Quiz

--Quiz--作业

第二讲:互联网搜索中的大数据研究(宋睿华)

-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

-探寻搜索的多个维度(finding dimensions for queries)

--探寻搜索的多个维度(finding dimensions for queries)

-Quiz

--Quiz--作业

第三讲:社会计算中的大数据研究(谢幸)

-背景介绍(background)

--背景介绍(background)

-用户移动规律的理解-1(user mobility understanding-1)

--用户移动规律的理解-1(user mobility understanding-1)

-用户移动规律的理解-2(user mobility understanding-2)

--用户移动规律的理解-2(user mobility understanding-2)

-用户画像与个人隐私-1(user profiling and privacy-1)

--用户画像与个人隐私-1(user profiling and privacy-1)

-用户画像与个人隐私-2(user profiling and privacy-2)

--用户画像与个人隐私-2(user profiling and privacy-2)

-Quiz

--Quiz--作业

第四讲:城市计算中的大数据研究(上)(郑宇)

-城市计算中的大数据研究简介(introduction to urban big data)

--城市计算中的大数据研究简介(introduction to urban big data)

-概念,框架和挑战(concepts,framework and chanlleges)

--概念,框架和挑战(concepts,framework and chanlleges)

-基础技术(fundamental techniques)

--基础技术(fundamental techniques)

-城市规划(urban planning)

--城市规划(urban planning)

第四讲:城市计算中的大数据研究(下)(郑宇)

-识别特定区域(indentify functional regions)

--识别特定区域(indentify functional regions)

-城市空气质量与大数据研究(urban air quality meets big data)

--城市空气质量与大数据研究(urban air quality meets big data)

-能源交通和环境污染(traffic energy and pollution)

--能源交通和环境污染(traffic energy and pollution)

-大数据在城市噪音处理中的应用(diagnose urban noise with big data)

--大数据在城市噪音处理中的应用(diagnose urban noise with big data)

-Quiz

--Quiz--作业

第五讲:软件分析中的大数据研究(张洪宇)

-软件分析的概念(the concepts of software analytics)

--软件分析的概念(the concepts of software analytics)

-软件分析的实例(examples of software analytics)

--软件分析的实例(examples of software analytics)

第六讲:大数据分析可视化研究(刘世霞)

-传统的数据可视化(Traditional information visualization)

--传统的数据可视化(traditional information visualization)

-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

-Quiz

--Quiz--作业

背景介绍(background)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。