课程视频慕课视频播放-新城市科学-MOOC慕课视频教程-柠檬大学

当前课程知识点：新城市科学 > 11. 计算社会科学新进展 > 11.1 大数据＋城市科学 > 课程视频

课程视频在线视频

课程视频课程教案、知识点、字幕

非常高兴

再次跟咱们理工科的同学

来交流一个新兴的交叉学科

计算社会科学

事实上这个计算社会科学本身

它之所以成为一个新的方向

也是因为到了一个新的时代

就是数字时代

然后新兴的数据资源

和新兴的研究方法

能够帮助我们去

更好地理解这个社会现象

其实我自己的很多研究

也涉及到用大数据的方法

去研究城市本身

比如说研究城市的治理

城市的参与公民的参与

包括这个城市里面的

包括我们去用这种

社交媒体的数据

去理解不同城市的市民

他们怎么去感知这个城市

然后通过这个新兴的途径

怎么去向政府表达他的诉求

然后获得政府政策上的回应

包括我们

今年也是跟北京市政府合作

其实这个实际上应该来说

跟建筑系更关联一些

回头我们也可以探讨

北京市新成立一个机构叫规自委

就是规划和自然资源委

他们涉及到

用很多的数据去测量

城市的无序的扩展

尤其是涉及到一些规划之外的

这种建筑

包括这种建构物

建筑物的整治的问题

因为这个

其实大家也都知道它的背景

这个过程中间

其实我们这个研究机构

跟他们合作用什么数据

实际上用的是12345的

热线电话的数据

帮他们去定位这些潜在的违建

或者一些新生的

但是又没有在规划之内的

一些建筑

帮助他们去识别有效地识别

其实在这个过程中间

我们也跟他们做了很多的探讨

包括我们去开发一些新的

推动研究方法进展的一些练习

比如说我们做machine learning

我们做这个有监督的机器学习

就是跟他们合作

我们拿到一些公众的投诉

这实际上是我们的

我们去了解什么地方

可能有潜在的违建

这个数据源的质量本身

比政府自己监测的还要好

因为政府

本身没有这样的信息触手

而城市的居民

他事实上是一个更广泛的

可以给政府

提供这样有效信息的一个途径

但是有很多市民的投诉

它本身不一定是

非常精准的一个判断

因为市民没有能力去判断

什么是一个违建

什么是一个非法建筑

这个时候需要什么呢

需要一个检验

那这个检验

是要由执法部门去检验的

所以规自委

他们就派很多的工作人员

就是公务员

他们去做调查做这个check

然后检验完之后

事实上他们也不可能

检验所有的公众的投诉

因为比如说我们公众的投诉

可能有十万

他可能用人力去检验的部分

可能只有八千个或者一万个

因为毕竟是很耗成本的

但是这给我们一个很好的训练集

就是我们如果

学过machine learning就知道

我们就有一个

从十万里面的一万个

是我们训练过的

我们已经实地地去test

它是不是一个真的违建

这个时候

我就相当于是给每一个案例

打了个标签

这个标签是真的违建

还是假的违建

还是说误报

我们建立一个训练集

然后再去什么呢

去predict 就是去预测

剩下的那么九万

它哪些更可能是个真的违建

我们根据它一系列特征

可以去做这个预测

其实这就是一种特别典型的

计算社会科学

应用到社会科学的研究

过程中间的一个案例了

那今天很高兴

跟大家一起来交流

就是这个计算社会科学

在最近十多年的发展

尤其它最新

大概三四年的一个进展

会涉及到一些

新的研究方法的应用

还有一些新的这种

方法论的这种争议

包括这些争议

现在是如何被解决的

以及一些经典的应用的案例

这些案例事实上都涉及到

社会现象的方方面面

很多也是跟我们的城市发展

城市的经营

包括城市的生活

就是过更好的城市的生活

密切相关的

非常欢迎大家随时提问

这样我们可以

交流得更为顺畅一些

我想主要的内容

就涉及到这么四个部分

首先跟大家一起来探讨一下

就是说到了大数据时代之后

新兴的数据资源

和分析这种数据资源的技术方法

就主要是机器学习

它如何增进我们的

社会科学研究的方法论创新

那事实上

当然这种大数据的资源和技术

也影响了社会科学

也影响了这种

比如说其他的science

或者engineer

这些学科的研究范式

具体到社会科学

事实上就是

我们提出一个新的交叉学科

这个学科

在很多国际一流的大学

已经有这样的研究所

或者他们已经训练这样的博士

或者硕士学位的项目

我们把它称之为叫计算社会科学

这种计算社会科学

它背后

实际上是有自己的方法论基础的

包括它也包括一系列

帮助我们去理解这个社会现象的

一系列的方法论

和研究方法的技术性的议题

这个可以跟大家一起来探讨一下

以及有一些话题

一些尤其是涉及到数字时代

一些新的社会现象

或者一些经济现象政治现象

特别适合用这种方法去回答

所以这也是为什么

在最近十多年

在很多的像Nature Science

这样的顶刊上

有很多发表

实际上是social science

其实它之所以是social science

是因为

social science可以用什么呢

用这些新的海量的资源数据资源

和比较科学的方法

去形成一些新的理解

帮助我们理解社会

或者经济现象的

这样一些出色的研究

在过去其实做社会科学的文章

你要发表在比较偏nature

或者science的这些期刊上

是比较不容易的

过去心理学有一些

但是像政治学经济学

社会学还是很少的

但是现在每年都有很多

每年最起码也都是十多篇

这样的体量

因为它大量地都涉及到

我们用一些更为科学的研究方法

比如说像我们利用实验的方法

在互联网的环境里面

然后通过实验去发现一些

我们关心的因果关系

而实验方法本身

它的特征就是

能更好地帮我们识别因果效应

所以社会科学

现在开始拥抱实验方法

而实验方法本身又可以在什么

在数字时代得到非常好的应用

因为过去社会科学也有人做实验

但是大量的实验

是在实验室里面

实验室里面的实验

通常会被人诟病说是

你距离社会现实太远

所以你的研究发现不具有什么呢

我们社会科学里面叫外部效度

或者在实验方法里面叫外部效度

也就是说你不能跨人群去推广

你不能跨文化去推广

或者跨这个国别去推广

但是现在

我们可以在在线的环境里面

招募大量的被试

参与我们这个实验

那这也是一种实验方法

就是社会科学里面方法论的进步

那这也是计算社会科学本身

它为了回应一些

学术上的批评的这个进步

我后面给大家讲

其实计算社会科学

面临很多的批评

所以这也是为什么

最近大概四五年

计算社会科学

也开始面临一个转向

在过去计算社会科学

比较强调什么

就是利用大数据

做大量的探索性分析

和相关性分析

但是社会科学过去

长期强调因果性知识的生产

也就是我们要搞清楚因果关系

而因果关系

的确是用传统的数据挖掘的技术

是比较难去识别的

因为数据挖掘的技术

大家知道它更多的是一个

data-driven

它不是一个theory-driven的路径

所以很多时候

形成的知识是一种描述性的

或者说是一种相关性知识

那很多社会科学家对此并不满意

所以他们批评这种研究

那所以后来

包括像哈佛大学的Gary King

他们这些学者就去探索

我们也可以用什么

用Big Data的方法

但是我们还是能够生产

过去社会科学更关心的

因果性知识

如何去实现呢

这其实是最近四五年

就计算社会科学的一个新的动态

或者变化

所以我们现在

已经形成了一些办法

也就是我们可以去

用了大数据的思维

或者大数据的这种方法

但是我们最后形成的是

严谨的因果关系

你比如我刚刚给大家讲过

我们可以在大数据的语境里面

做什么做实验

通过实验我们检验一个因果关系

这就远远超出过去

我们从

比如说从海量的数据资源里面

自动地找到一些模式

然后我们对这个模式

只是进行描述或者进行诠释

要更有意义

所以这个是涉及到计算社会科学

它的前沿的进展

当然计算社会科学

这个学科的建设

完全跟什么呢

跟我们人类进入数字时代

密切相关

也就是说没有数字化

或者数字时代的这些新的条件

计算社会科学是不大可能成熟的

发展起来的

那所以一个基本的时代背景就是

人类社会

大概从2010年左右

我们就迈入了大数据时代

而这个时代

给我们一个最大的特点就是

给我们提供了海量的数据资源

这样的数据资源

超出了过去社会科学

开展研究的能力

因为过去社会科学

其实可能跟城市研究很类似

我们大量的研究数据来自于什么

两个方法

一种方法就是去问

去做问卷调查

我也跟咱们建筑学院的老师

合作做过研究

其实到社区里面去做问卷调查

是一种常见的方法

第二种就是什么

就是找政府要

要什么要官方的数据

事实上这两种数据

大家知道它收集的时候

既有的数据准备都是很差的

很多时候做

比如说我们去社区里面问

其实是很花钱很花时间的

很花成本的

包括你去找官方要

很多时候

政府并没有统计这些数据

他们自己也没有建立一个

系统的数据采集的体系

包括数据整合的体系

那到了数字时代

其实我们就发现

我们没有准备的

突然间就新增了很多的什么呢

我们现在称之为叫数字痕迹

人们在互联网上的

或者依托于数字化的这些产品

包括互联网的应用

它形成了大量的这种数字痕迹

这些痕迹记录着

他的每一天的行为

他的各种各样的社会经济行为

这也就给我们准备了

一个非常廉价

而且体量又很大的数据资源

我们现在

之所以能有计算社会科学

就是因为

这个数据资源非常的丰富

而我们从中间能挖掘出

很多社会规律

所以这个是它的一个基本的前提

那这是我们对人类社会

目前对大数据

它的一个价值的理解

尤其在这个

其实在

因为我自己是研究政治学的

所以我更多的研究政府本身

政府用这些数据都干嘛

这个其实是应该来说

从政治学意义上

我们认为大数据的技术进步

给政府而言

就是极大地提升了政府的能力

我也不说很多

但至少从我们的实践

和我们的理论进步而言

你基本上能够看到

政府应用大数据

第一个很重要的价值就是

帮它提升它的决策的能力

因为过去其实政府本身

有很多的基于数据

来做决策的需求

但是那个时代

非常大的一个挑战是

政府本身没有数据

第二是什么呢

政府也就是采集了一些数据

数据的颗粒度并不够好

数据的质量并不够好

他很难用这样的数据

做系统性的分析

然后发现一些社会

或者经济现象的规律

然后依据这些规律来做决策

这个实际上是没有的

但是现在有了大数据

它的确强化它这方面能力

所以我们很多的政府的职能部门

它已经在基于数据

每天都在做日常性的数据分析

包括用数据做一些对未来的预测

这个对他的决策

是非常非常重要的

当然第二个就是提升他的这个

我们叫这种洞察力

这个洞察力其实在商业机构

我们知道其实用得很多

就是商业机构

它们经常拿这个来做精准营销

政府现在也学会了这个

所以政府做很多的政策执行

他现在也强调什么呢

就是精准执行

包括对不同的企业不同的工种

他给你提供差异化的服务

提供多元化的服务

之所以能做到这个

是因为他什么呢

他用数据去对这些人群进行细分

他识别不同人群的需求

或者你们的偏好

然后给你差异化的这样一个回应

包括更重要的

对政府本身而言

特别特别重要的就是

提升政府的信息流的整合

政府内部信息流的整合

因为过去

大家可能也因为

虽然不一定学社会科学

但是应该也听说过很多

跟社会科学有关的这样一些

一些新闻报道

你比如说我们过去有一些

像我们的权威媒体报道

一些地方政府的GDP数据造假

甚至税收数据造假

为什么会出现这样的现象呢

一个关键原因在于

中央没有能力去汲取所有的信息

信息是沉在下面的

中央了解各地的经济社会发展

是靠什么

是靠大家自下往上报数据

报送数据

所以我们又称之为叫报表数据

当下级政府往上报数据的时候

他有这个空间去操作数据

但是当中央从这种机制

获得不了真实的数据的时候

他的决策就会出现什么

可能会出现失重

他的判断可能会出现失误

所以这是为什么现在

中国的政府

咱们自己的政府

在中央层面

特别重视

要建一个国家级的大数据中心

他希望能够建那么一个中心之后

能够把中央政府

就能够有手段

去直接了解基层的

经济社会运行的状况

这实际上是

帮助他提升自己的信息流的优化

或者说是整合的能力

当然这是大数据的一些特征

我就不再给大家介绍了

从社会科学角度而言

其实对我们的研究

Big Data的贡献

总结起来我们有这么四个方面

一个方面就是

给我们提供海量的数据

大量的数据资源

所以后面会

一会儿会给大家介绍

在清华我们很多老师

有这样一个共同的认同

所以后来我们建了一个

计算社会科学平台

我们这个平台最主要的工作

就是给清华的老师和同学们

找数据

找你关心的

各种各样类型的数据

只要我们能拿到

我们都给它放到这个平台上面

大家可以去这个平台上下载

或者去分析这些数据

那第二个很重要的

就是数据分析学

或者我们叫各种各样的算法

因为它可以帮助我们

去把这些非结构化的数据结构化

或者从大量的数据里面挑选

对我们解释某种现象

特别有用的特征或者维度

做特征筛选

或者做一些降维的工作等等

这些都是我们过去特别感兴趣的

第三个就是给我们创造什么需求

非常重要的就是创造需求

也就是说

有一个很好的社会生态

这个生态它既给我们提供数据

也给我们提供知识需求

这样的话

我们就有动力去做研究

去服务这个

比如说数字经济的发展

或者说政府的治理

这个实际上是非常重要的

就是有这么一个生态

它给我们提供资源

而且也提供需求

第四个很重要的就是

在政府或者说是应用机构看来

特别重要的就是

我们要基于这些研究

最后形成的什么

形成的是解决某种特定问题的

一种solution

一种解决方案

你比如说我们

我从去年开始

我就跟北京市的政务服务局

我们合作

合作是干嘛呢

就是用北京市的12345的

每一天的数据

帮他们去做大数据分析

从中间找到北京市市民

对北京市城市运行

城市管理的一些诉求

或者他们的一些

他们反馈出来的城市治理的问题

这样的问题其实在过去

他如果不用这些数据的时候

其实是很慢地

才能被政府职能部门感知到

因为它有一个非常长的loop

你要把这个信息给它传递上去

很难的

更何况对市政府

一个比较高层级的市政府而言

它去了解基层的街道社区

到底它的治理状况怎么样

非常难

哪怕你再勤奋的一个市长

一个市委书记

你亲自去社区调研的能力

也是有限的

最多你只能访问十个八个

一百个社区

但是我们北京市有大量的社区

所以用这样的数据

它可以动态地

快速地帮助市政府

比较宏观的政府

去了解城市的不同区域不同时间

市民的诉求是怎么动态变化的

因为市民的诉求的变化

其实反映着

我们这个城市运行的问题

城市治理的问题

所以我们从中间

可以找到一些模式

这些模式就可以变成什么呢

政府去调整它的政策

或者调整它的法律的一些依据

你比如说今年

北京市

当然可能也

因为咱们都是学城市规划

或者什么

可能也有看过最近那个

北京市人大

刚刚修订了物业管理条例

其实物业管理条例的修订

一个很重要的原因就是因为什么

因为我们的数据发现

在今年的春季

北京市民对物业的诉求

一个突发性的增长

是很大的一个增长

而且特别严重的增长

产生于什么呢

产生于一个叫什么东西城

在政府行政部门的术语里边

它把这种称之为叫

实际上它本身

它的这个小区的物业性质

是有差异的

东西城有大量的小区属于什么

属于央产房

而央产房过去是有单位的

现在很多这种单位

都已经不复存在了

大的央企

大的甚至什么一些部委

过去都有的

现在已经被合并了

或者说已经破产了

这样一些央企

所以就现在变成

我们叫失管弃管小区

它的这个社区的物业是没人管的

那这个时候其实这种诉求

它必须需要什么呢

需要制度性地解决

它不能是

因为它不是个别的

它是个系统性的问题

所以这一次

事实上从这么一个数据里面

你可以发现一个政策执行的

这么一个挑战

也就是这个时候

我们就可以通过分析这个数据

找到它的一些模式

帮助政府去思考

新的政策应该如何制定

所以这事实上都是我们帮助

用计算社会科学的研究

去帮政府解决什么呢

解决一些实际的治理的问题

或者是服务的问题

新城市科学课程列表：

1. 新城市科学概论（1）

-1.1 城市及城市科学的发展演变

-1.2 新城市科学的提出

-1.3 相关研究机构、期刊和课程

-1.4 变化中的城市

-课后练习1

2. 新城市科学概论（2）

-2.1 城市概念的定义

-2.2 城市正在发生的变化：驱动力

-2.3 城市正在发生的变化：产品／服务

-2.4 城市正在发生的变化：城市空间

-课后练习2

3. 地理数据分析、可视化与商业智能

-3.1 为什么强调地理思维

-3.2 地理思维应用的基础

-3.3 如何应用地理思维

-3.4 课堂提问

-课后练习3

4. 新城市科学支持下的社区善治

-4.1 我所理解的新城市科学

-4.2 新城市科学的机遇

-4.3 新城市科学下的规划治理

-4.4 新城市科学下的社区实践

-课后练习4

5. 数字孪生城市：虚实相生的未来

-5.1 从数字孪生到数字孪生城市

-5.2 数字孪生城市的系统认知

-5.3 数字孪生城市的实践突破

-课后练习5

6. 机器学习、人工智能与深度学习

-6.1 前言

-6.2 机器学习

-6.3 深度学习

-6.4 城市科学当中的应用

-6.5 课堂提问

-课后练习6

7. 物联网与穿戴式设备

-7.1 前言

-7.2 物联网（1）

-7.3 物联网（2）

-7.4 基于物联网的相关案例

-7.5 基于穿戴式设备的相关案例

-课后练习7

8. 从城市数据到智慧城市

-8.1 前言

--课程视频

-8.2 智慧城市：ICT技术驱动的空间变革

--课程视频

-8.3 智慧城市：从大脑到神经系统的改造之路

--课程视频

-8.4 城市数据：从问题洞察到管理与运营工具

-8.5 课堂提问

-课后练习8

9. 让智慧城市成为触得到的幸福：美团智慧城市的探索与实践

-9.1 数据介绍

-9.2 商圈识别、分类与评价

-9.3 项目介绍与产品升级

-9.4 课堂提问

-课后练习9

10. 人本尺度城市形态：定义、理论与方法

-10.1 人本尺度城市形态：定义

-10.2 人本尺度城市形态：理论

-10.3 人本尺度城市形态：方法

-课后练习10

11. 计算社会科学新进展

-11.1 大数据＋城市科学

-11.2 计算社会科学：方法论

-11.3 计算社会科学：方法与议题

-11.4 计算社会科学：前沿应用

-课后练习11

12. 数据增强设计与未来城市空间

-12.1 未来城市：空间干预与数字创新

-12.2 未来城市：认识论和方法论

-12.3 案例分享

-课后练习12

13. 课程研讨

-课程视频

-课后讨论

课程视频在线视频

课程视频课程教案、知识点、字幕

新城市科学课程列表：

1. 新城市科学概论（1）

2. 新城市科学概论（2）

3. 地理数据分析、可视化与商业智能

4. 新城市科学支持下的社区善治

5. 数字孪生城市：虚实相生的未来

6. 机器学习、人工智能与深度学习

7. 物联网与穿戴式设备

8. 从城市数据到智慧城市

9. 让智慧城市成为触得到的幸福：美团智慧城市的探索与实践

10. 人本尺度城市形态：定义、理论与方法

11. 计算社会科学新进展

12. 数据增强设计与未来城市空间

13. 课程研讨

课程视频笔记与讨论

也许你还感兴趣的课程: