当前课程知识点:微软亚洲研究院大数据系列讲座 >  第三讲:社会计算中的大数据研究(谢幸) >  用户画像与个人隐私-1(user profiling and privacy-1) >  用户画像与个人隐私-1(user profiling and privacy-1)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频课程列表

用户画像与个人隐私-1(user profiling and privacy-1)在线视频

用户画像与个人隐私-1(user profiling and privacy-1)

下一节:用户画像与个人隐私-2(user profiling and privacy-2)

返回《微软亚洲研究院大数据系列讲座》慕课在线视频列表

用户画像与个人隐私-1(user profiling and privacy-1)课程教案、知识点、字幕

在第二部分,我介绍了我们在

用户移动规律的理解方面的研究工作,包括如何处理

用户轨迹中的缺失数据以及如何

为用户推荐感兴趣的位置。在最后一部分,我将展示我们

在用户特征研究和隐私保护方面的研究项目。

首先,我想介绍我们近期开展的

LifeSpec项目。这个项目的目标是

利用社交网络中的用户数据来探索城市生活方式的方方面面。

我们从多个社交网络收集了数据,包括

前面的幻灯片中提到过的Foursquare的中国版,“街旁”,

与推特类似的微博,

中国的图书和电影评论网站豆瓣,

以及著名的餐馆评论网站点评。

我们收集的数据覆盖了超过140万用户,

这些用户在我们的数据集中至少有两个账号。

右边这幅图展示了有多个账号的用户的比例。

从图中可以看到,

我们的数据集中的所有用户都至少有两个账号。实际上,

这是数据集收集的一项要求。

数据集中约有40%的用户

至少有三个账号。

从社交网络中,我们收集了不同类型的

用户足迹,包括推特消息、照片、签到、

电影、图书、音乐、

线下事件、在线购物历史等。由于用户可能

在其中部分社交网络中分享画像,

因此我们可以从不同网站获得公开的用户

画像,包括年龄、性别、

关系、职业、大学、高中等。我们共收集了

5300万条足迹。足迹

包括签到、电影

和音乐评论、事件和图书评论等。

我们还有300万条用户的社交关系。

足迹中约有3900万条签到数据。

这意味着足迹大部分都是

位置签到。所以,位置是我们的数据集中的一类重要数据。

我们的用户来自中国的不同城市,包括

上海、北京、广州等。这些城市的用户数量

多于其他城市的用户数量。

例如,上海约有40万用户,

北京约有160万用户,

广州约有5万用户,

其他城市都有超过1万用户。

这张表展示了不同类型足迹的数量。

让我们来看看数据集的一些简单的统计数据。

左上方的图展示了

两个城市每天的签到情况。这里我们

以北京和广州为例。

X轴表示一年中的每一天,Y轴表示

签到次数。从这幅图中,你们可以发现,

周末的签到次数要比平时多一些。

此外,全国性假期的

签到次数也会多一些,如五一假期和十一假期。

如果看看

一天中不同时间的签到次数,我们可以看到不同的模式。

例如,如果你们看看左下方的这幅图(我们仍然对比北京和广州),

你们可以看到,X轴

仍然表示一年中的一天,Y轴表示一天中的不同时间。

从图中,你们可以发现,人们在晚上的活动要少一些,

因为这个时候

他们通常要睡觉。但是比较北京和广州的数据,

我们还可以发现,北京人比广州人睡得更久。

这个观察得到了另一项

由中国医师协会开展的问卷调查的验证。

这项问卷调查的结果是在2013年世界睡眠日公布的。

从这张表中,我们可以看到,平均来说

北京人在晚上10:15入睡,

而广州人则在晚上11:00以后入睡。

所以,北京人实际上

比广州人睡的更早。

我们可以进一步研究不同城市的人的移动规律模式。

因为有用户画像,我们知道

他们来自哪里。

根据他们所在的城市,如北京、上海和香港,对人们进行划分。

我们研究不同城市的人的移动规律模式。

例如,我们研究了在北京的上海人的移动规律模式。

也就是说,他们到北京去

旅游或者出差。这些图展示了

北京、上海和香港的签到密度分布。

它们展示了不同城市的移动规律模式。你们看看这些图

左上方的图展示了在北京的北京人的移动规律,

也就是本地的移动规律。

上方的中间这幅图展示了在北京的上海人,

也就是到北京去的上海人的移动规律模式

所以,如果看看这9幅图,我们可以发现,本地移动规律

模式通常比非本地的移动规律模式覆盖

城市中更大的范围。这意味着,如果你生活在这个城市中,

你会到不是那么有名的地方去。但是,如果你到另一个地方去,

你很可能去一些旅游景点、会议中心、

机场或者火车站。从这一点来说,如果我们知道一个人是否是本地人,

我们可以使用这个

属性来帮助我们做位置预测。

在实验中

我们发现这可以提高位置预测的准确度。

现在,我们来介绍数据收集的方法。

我们根据两类自我公开信息来

连接用户在不同社交网络中的账号。

一种称为跨域发布。这意味着,用户

在一个社交网络中发布了一条信息,

并把这条消息同步到其他社交网络中。这很流行。例如,

如果你在Foursquare发布了签到信息,那么你还可以

把这个信息同步到Facebook中。

然后,根据内容、时间和位置,我们可以

知道这两个账号

是同一个人的。另一个信息来源于用户画像。

通常,用户会

在他们的画像页面公开他们在不同社交网络上的账号。

例如,用户可能会在

他们的主页上展示他们的领英、脸谱和推特账号。所以,我们也可以利用

这些信息来连接不同用户账号。

基于自我展示的信息,我们

开发了Iconnect算法。

Iconnect能够发现用户在不同社交网络中的介绍页面,

跟踪相互连接的账号,

并递归发现更多的账号和连接。

通过这种方式,我们爬取多个社交网络并收集用户数据。

我们的用户数据包括三个部分。第一部分是画像,包括年龄、性别等

个人背景资料。第二部分是足迹,

包括推特消息、签到和各种评论。

第三部分是朋友关系,即不同用户之间的关系。

收集了这些数据集之后,我们想使用

这些数据集来研究一群人的生活方式的方方面面。

因为有用户画像,所以我们能够根据

位置、大学、年龄或者公司对人们进行分组。

如果我们定义了一个组,

那么我们就可以得到这个组的所有足迹。

我们使用一棵树来表示

这组用户的生活方式的方方面面。树的根节点

表示这组用户的常见足迹或者生活方式。

子树的根节点代表

一个子群的常见行为。

这幅图展示了

北京人的生活方式。这里,根节点,

你们可以看到,可以由三个足迹表示:

白天逛街、上班和

吃快餐。北京用户的

子生活方式的子群包括

喜欢喜剧,白天和晚上都会去办公室。

对于一个更小的群体,他们

喜欢咖啡和西餐,在晚上去酒吧。

通过这种方法,我们可以

将这群用户的生活方式进行可视化。

我们还可以比较这群用户的生活方式和其他群体的生活方式。

我们设计了一个基于关系的层次化LDA

来生成这个生活方式树。

在这里,我们把每个用户看成一个文档,

把他/她的足迹看成文档中的单词。

所以,对于一群人,我们有一组文档。

对于这个文档组,

我们使用主题模型来生成主题树。因为这是层次化LDA,

所以我们可以为这棵树生成层次化结构。

在这里,关系是指

不同用户之间的社会联系,在这里就是

这些文档之间的联系。这与文档之间的引用关系是类似的。

现在,让我们来看一些例子。

在前面的幻灯片中,我们已经看了北京用户的例子。

这里我们根据用户的职业

把他们分成两组,一组称为金融

从业者,另一组称为软件从业者。

对于金融从业者,我们发现,生成树中

最常见的节点表明

他们喜欢阅读经济类的图书。

我们还看到,他们喜欢去酒吧和银行。

对于软件从业者,

在树中看不到任何经济类的图书,但是我们发现

他们中的大部分人都喜欢阅读计算机和编程类的图书。

这很自然,因为他们都是软件从业者。

他们中的一些人喜欢用户体验设计类的图书。

让我们来看看另一个关于年龄组的例子。

这里,我们根据用户的出生年份分组。

从图中,我们可以看到

90后和80后的两个例子。90后是指

出生在20世纪90年代,

80后也是类似的意思。从为90后

生成的层次结构中,我们可以看到,

他们中的一些人喜欢去咖啡厅这样的地方,

一些人喜欢看香港的文章

和玩电子游戏。

这说明这些用户很年轻。

对于80后,

他们中的很多人都喜欢火锅,其中一些人喜欢

川菜,他们会在白天和晚上去办公室。

这意味着,他们年龄要大一些,因为他们需要去上班。

总结这部分工作,

在LifeSpec项目中,我们

为发现城市的生活方式开发了一个计算框架。

在系统中,我们设计了Iconnect算法,

这个算法可以基于自我展示的信息识别相互联系的用户账号。

我们还设计了一个基于关系的分层化模型来总结用户的生活方式。

最后,我们开发了LifeSpec这个数据平台,它可以用于

科学研究和工业应用。如果你们想

使用LifeSpec的数据集来做研究,

欢迎联系我们。

微软亚洲研究院大数据系列讲座课程列表:

第一讲:大数据研究现状及未来趋势(洪小文)

-什么是大数据(What is big data?)

--什么是大数据(What is big data?)

-为什么大数据是当前热点(Why big data is a nature phenomenon?)

--为什么大数据是当前热点(Why big data is a nature phenomenon?)

-新的计算基础设施和工具(New Infrastructure and tools)

--新的计算基础设施和工具(New Infrastructure and tools)

-课程简介(Course Introduction)

--课程简介(Course Introduction)

-基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

--基础设施,机器学习和可视化(Infrastructure,Machine Learning and Visualization)

-大数据与传统商业智能的区别(Big data:different from traditional BI)

--大数据与传统商业智能的区别(Big data:different from traditional BI)

-Quiz

--Quiz--作业

第二讲:互联网搜索中的大数据研究(宋睿华)

-大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

--大规模超文本网络搜索引擎的解析(the anatomy of a large scale hypertextual web search engine)

-搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

--搜索引擎如何实现每秒数千次的查询(How does a web search engine process thousands of queries per second?)

-探寻搜索的多个维度(finding dimensions for queries)

--探寻搜索的多个维度(finding dimensions for queries)

-Quiz

--Quiz--作业

第三讲:社会计算中的大数据研究(谢幸)

-背景介绍(background)

--背景介绍(background)

-用户移动规律的理解-1(user mobility understanding-1)

--用户移动规律的理解-1(user mobility understanding-1)

-用户移动规律的理解-2(user mobility understanding-2)

--用户移动规律的理解-2(user mobility understanding-2)

-用户画像与个人隐私-1(user profiling and privacy-1)

--用户画像与个人隐私-1(user profiling and privacy-1)

-用户画像与个人隐私-2(user profiling and privacy-2)

--用户画像与个人隐私-2(user profiling and privacy-2)

-Quiz

--Quiz--作业

第四讲:城市计算中的大数据研究(上)(郑宇)

-城市计算中的大数据研究简介(introduction to urban big data)

--城市计算中的大数据研究简介(introduction to urban big data)

-概念,框架和挑战(concepts,framework and chanlleges)

--概念,框架和挑战(concepts,framework and chanlleges)

-基础技术(fundamental techniques)

--基础技术(fundamental techniques)

-城市规划(urban planning)

--城市规划(urban planning)

第四讲:城市计算中的大数据研究(下)(郑宇)

-识别特定区域(indentify functional regions)

--识别特定区域(indentify functional regions)

-城市空气质量与大数据研究(urban air quality meets big data)

--城市空气质量与大数据研究(urban air quality meets big data)

-能源交通和环境污染(traffic energy and pollution)

--能源交通和环境污染(traffic energy and pollution)

-大数据在城市噪音处理中的应用(diagnose urban noise with big data)

--大数据在城市噪音处理中的应用(diagnose urban noise with big data)

-Quiz

--Quiz--作业

第五讲:软件分析中的大数据研究(张洪宇)

-软件分析的概念(the concepts of software analytics)

--软件分析的概念(the concepts of software analytics)

-软件分析的实例(examples of software analytics)

--软件分析的实例(examples of software analytics)

第六讲:大数据分析可视化研究(刘世霞)

-传统的数据可视化(Traditional information visualization)

--传统的数据可视化(traditional information visualization)

-同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

--同质数据的可视化分析-1(Visual Analytics of Homogeneous Data-1)

-同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

--同质数据的可视化分析-2(Visual Analytics of Homogeneous Data-2)

-异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

--异质数据的可视化分析(Visual Analytics of Heterogeneous Data)

-Quiz

--Quiz--作业

用户画像与个人隐私-1(user profiling and privacy-1)笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。