当前课程知识点:新城市科学 > 11. 计算社会科学新进展 > 11.1 大数据+城市科学 > 课程视频
非常高兴
再次跟咱们理工科的同学
来交流一个新兴的交叉学科
计算社会科学
事实上这个计算社会科学本身
它之所以成为一个新的方向
也是因为到了一个新的时代
就是数字时代
然后新兴的数据资源
和新兴的研究方法
能够帮助我们去
更好地理解这个社会现象
其实我自己的很多研究
也涉及到用大数据的方法
去研究城市本身
比如说研究城市的治理
城市的参与 公民的参与
包括这个城市里面的
包括我们去用这种
社交媒体的数据
去理解不同城市的市民
他们怎么去感知这个城市
然后通过这个新兴的途径
怎么去向政府表达他的诉求
然后获得政府政策上的回应
包括我们
今年也是跟北京市政府合作
其实这个实际上应该来说
跟建筑系更关联一些
回头我们也可以探讨
北京市新成立一个机构叫规自委
就是规划和自然资源委
他们涉及到
用很多的数据去测量
城市的无序的扩展
尤其是涉及到一些规划之外的
这种建筑
包括这种建构物
建筑物的整治的问题
因为这个
其实大家也都知道它的背景
这个过程中间
其实我们这个研究机构
跟他们合作用什么数据
实际上用的是12345的
热线电话的数据
帮他们去定位这些潜在的违建
或者一些新生的
但是又没有在规划之内的
一些建筑
帮助他们去识别 有效地识别
其实在这个过程中间
我们也跟他们做了很多的探讨
包括我们去开发一些新的
推动研究方法进展的一些练习
比如说我们做machine learning
我们做这个有监督的机器学习
就是跟他们合作
我们拿到一些公众的投诉
这实际上是我们的
我们去了解什么地方
可能有潜在的违建
这个数据源的质量本身
比政府自己监测的还要好
因为政府
本身没有这样的信息触手
而城市的居民
他事实上是一个更广泛的
可以给政府
提供这样有效信息的一个途径
但是有很多市民的投诉
它本身不一定是
非常精准的一个判断
因为市民没有能力去判断
什么是一个违建
什么是一个非法建筑
这个时候需要什么呢
需要一个检验
那这个检验
是要由执法部门去检验的
所以规自委
他们就派很多的工作人员
就是公务员
他们去做调查 做这个check
然后检验完之后
事实上他们也不可能
检验所有的公众的投诉
因为比如说我们公众的投诉
可能有十万
他可能用人力去检验的部分
可能只有八千个或者一万个
因为毕竟是很耗成本的
但是这给我们一个很好的训练集
就是我们如果
学过machine learning就知道
我们就有一个
从十万里面的一万个
是我们训练过的
我们已经实地地去test
它是不是一个真的违建
这个时候
我就相当于是给每一个案例
打了个标签
这个标签是真的违建
还是假的违建
还是说误报
我们建立一个训练集
然后再去什么呢
去predict 就是去预测
剩下的那么九万
它哪些更可能是个真的违建
我们根据它一系列特征
可以去做这个预测
其实这就是一种特别典型的
计算社会科学
应用到社会科学的研究
过程中间的一个案例了
那今天很高兴
跟大家一起来交流
就是这个计算社会科学
在最近十多年的发展
尤其它最新
大概三四年的一个进展
会涉及到一些
新的研究方法的应用
还有一些新的这种
方法论的这种争议
包括这些争议
现在是如何被解决的
以及一些经典的应用的案例
这些案例事实上都涉及到
社会现象的方方面面
很多也是跟我们的城市发展
城市的经营
包括城市的生活
就是过更好的城市的生活
密切相关的
非常欢迎大家随时提问
这样我们可以
交流得更为顺畅一些
我想主要的内容
就涉及到这么四个部分
首先跟大家一起来探讨一下
就是说到了大数据时代之后
新兴的数据资源
和分析这种数据资源的技术方法
就主要是机器学习
它如何增进我们的
社会科学研究的方法论创新
那事实上
当然这种大数据的资源和技术
也影响了社会科学
也影响了这种
比如说其他的science
或者engineer
这些学科的研究范式
具体到社会科学
事实上就是
我们提出一个新的交叉学科
这个学科
在很多国际一流的大学
已经有这样的研究所
或者他们已经训练这样的博士
或者硕士学位的项目
我们把它称之为叫计算社会科学
这种计算社会科学
它背后
实际上是有自己的方法论基础的
包括它也包括一系列
帮助我们去理解这个社会现象的
一系列的方法论
和研究方法的技术性的议题
这个可以跟大家一起来探讨一下
以及有一些话题
一些尤其是涉及到数字时代
一些新的社会现象
或者一些经济现象 政治现象
特别适合用这种方法去回答
所以这也是为什么
在最近十多年
在很多的像Nature Science
这样的顶刊上
有很多发表
实际上是social science
其实它之所以是social science
是因为
social science可以用什么呢
用这些新的海量的资源 数据资源
和比较科学的方法
去形成一些新的理解
帮助我们理解社会
或者经济现象的
这样一些出色的研究
在过去其实做社会科学的文章
你要发表在比较偏nature
或者science的这些期刊上
是比较不容易的
过去心理学有一些
但是像政治学 经济学
社会学还是很少的
但是现在每年都有很多
每年最起码也都是十多篇
这样的体量
因为它大量地都涉及到
我们用一些更为科学的研究方法
比如说像我们利用实验的方法
在互联网的环境里面
然后通过实验去发现一些
我们关心的因果关系
而实验方法本身
它的特征就是
能更好地帮我们识别因果效应
所以社会科学
现在开始拥抱实验方法
而实验方法本身又可以在什么
在数字时代得到非常好的应用
因为过去社会科学也有人做实验
但是大量的实验
是在实验室里面
实验室里面的实验
通常会被人诟病说是
你距离社会现实太远
所以你的研究发现不具有什么呢
我们社会科学里面叫外部效度
或者在实验方法里面叫外部效度
也就是说你不能跨人群去推广
你不能跨文化去推广
或者跨这个国别去推广
但是现在
我们可以在在线的环境里面
招募大量的被试
参与我们这个实验
那这也是一种实验方法
就是社会科学里面方法论的进步
那这也是计算社会科学本身
它为了回应一些
学术上的批评的这个进步
我后面给大家讲
其实计算社会科学
面临很多的批评
所以这也是为什么
最近大概四五年
计算社会科学
也开始面临一个转向
在过去计算社会科学
比较强调什么
就是利用大数据
做大量的探索性分析
和相关性分析
但是社会科学过去
长期强调因果性知识的生产
也就是我们要搞清楚因果关系
而因果关系
的确是用传统的数据挖掘的技术
是比较难去识别的
因为数据挖掘的技术
大家知道它更多的是一个
data-driven
它不是一个theory-driven的路径
所以很多时候
形成的知识是一种描述性的
或者说是一种相关性知识
那很多社会科学家对此并不满意
所以他们批评这种研究
那所以后来
包括像哈佛大学的Gary King
他们这些学者就去探索
我们也可以用什么
用Big Data的方法
但是我们还是能够生产
过去社会科学更关心的
因果性知识
如何去实现呢
这其实是最近四五年
就计算社会科学的一个新的动态
或者变化
所以我们现在
已经形成了一些办法
也就是我们可以去
用了大数据的思维
或者大数据的这种方法
但是我们最后形成的是
严谨的因果关系
你比如我刚刚给大家讲过
我们可以在大数据的语境里面
做什么 做实验
通过实验我们检验一个因果关系
这就远远超出过去
我们从
比如说从海量的数据资源里面
自动地找到一些模式
然后我们对这个模式
只是进行描述或者进行诠释
要更有意义
所以这个是涉及到计算社会科学
它的前沿的进展
当然计算社会科学
这个学科的建设
完全跟什么呢
跟我们人类进入数字时代
密切相关
也就是说没有数字化
或者数字时代的这些新的条件
计算社会科学是不大可能成熟的
发展起来的
那所以一个基本的时代背景就是
人类社会
大概从2010年左右
我们就迈入了大数据时代
而这个时代
给我们一个最大的特点就是
给我们提供了海量的数据资源
这样的数据资源
超出了过去社会科学
开展研究的能力
因为过去社会科学
其实可能跟城市研究很类似
我们大量的研究数据来自于什么
两个方法
一种方法就是去问
去做问卷调查
我也跟咱们建筑学院的老师
合作做过研究
其实到社区里面去做问卷调查
是一种常见的方法
第二种就是什么
就是找政府要
要什么 要官方的数据
事实上这两种数据
大家知道它收集的时候
既有的数据准备都是很差的
很多时候做
比如说我们去社区里面问
其实是很花钱 很花时间的
很花成本的
包括你去找官方要
很多时候
政府并没有统计这些数据
他们自己也没有建立一个
系统的数据采集的体系
包括数据整合的体系
那到了数字时代
其实我们就发现
我们没有准备的
突然间就新增了很多的什么呢
我们现在称之为叫数字痕迹
人们在互联网上的
或者依托于数字化的这些产品
包括互联网的应用
它形成了大量的这种数字痕迹
这些痕迹记录着
他的每一天的行为
他的各种各样的社会经济行为
这也就给我们准备了
一个非常廉价
而且体量又很大的数据资源
我们现在
之所以能有计算社会科学
就是因为
这个数据资源非常的丰富
而我们从中间能挖掘出
很多社会规律
所以这个是它的一个基本的前提
那这是我们对人类社会
目前对大数据
它的一个价值的理解
尤其在这个
其实在
因为我自己是研究政治学的
所以我更多的研究政府本身
政府用这些数据都干嘛
这个其实是应该来说
从政治学意义上
我们认为大数据的技术进步
给政府而言
就是极大地提升了政府的能力
我也不说很多
但至少从我们的实践
和我们的理论进步而言
你基本上能够看到
政府应用大数据
第一个很重要的价值就是
帮它提升它的决策的能力
因为过去其实政府本身
有很多的基于数据
来做决策的需求
但是那个时代
非常大的一个挑战是
政府本身没有数据
第二是什么呢
政府也就是采集了一些数据
数据的颗粒度并不够好
数据的质量并不够好
他很难用这样的数据
做系统性的分析
然后发现一些社会
或者经济现象的规律
然后依据这些规律来做决策
这个实际上是没有的
但是现在有了大数据
它的确强化它这方面能力
所以我们很多的政府的职能部门
它已经在基于数据
每天都在做日常性的数据分析
包括用数据做一些对未来的预测
这个对他的决策
是非常非常重要的
当然第二个就是提升他的这个
我们叫这种洞察力
这个洞察力其实在商业机构
我们知道其实用得很多
就是商业机构
它们经常拿这个来做精准营销
政府现在也学会了这个
所以政府做很多的政策执行
他现在也强调什么呢
就是精准执行
包括对不同的企业 不同的工种
他给你提供差异化的服务
提供多元化的服务
之所以能做到这个
是因为他什么呢
他用数据去对这些人群进行细分
他识别不同人群的需求
或者你们的偏好
然后给你差异化的这样一个回应
包括更重要的
对政府本身而言
特别特别重要的就是
提升政府的信息流的整合
政府内部信息流的整合
因为过去
大家可能也因为
虽然不一定学社会科学
但是应该也听说过很多
跟社会科学有关的这样一些
一些新闻报道
你比如说我们过去有一些
像我们的权威媒体报道
一些地方政府的GDP数据造假
甚至税收数据造假
为什么会出现这样的现象呢
一个关键原因在于
中央没有能力去汲取所有的信息
信息是沉在下面的
中央了解各地的经济社会发展
是靠什么
是靠大家自下往上报数据
报送数据
所以我们又称之为叫报表数据
当下级政府往上报数据的时候
他有这个空间去操作数据
但是当中央从这种机制
获得不了真实的数据的时候
他的决策就会出现什么
可能会出现失重
他的判断可能会出现失误
所以这是为什么现在
中国的政府
咱们自己的政府
在中央层面
特别重视
要建一个国家级的大数据中心
他希望能够建那么一个中心之后
能够把中央政府
就能够有手段
去直接了解基层的
经济社会运行的状况
这实际上是
帮助他提升自己的信息流的优化
或者说是整合的能力
当然这是大数据的一些特征
我就不再给大家介绍了
从社会科学角度而言
其实对我们的研究
Big Data的贡献
总结起来我们有这么四个方面
一个方面就是
给我们提供海量的数据
大量的数据资源
所以后面会
一会儿会给大家介绍
在清华我们很多老师
有这样一个共同的认同
所以后来我们建了一个
计算社会科学平台
我们这个平台最主要的工作
就是给清华的老师和同学们
找数据
找你关心的
各种各样类型的数据
只要我们能拿到
我们都给它放到这个平台上面
大家可以去这个平台上下载
或者去分析这些数据
那第二个很重要的
就是数据分析学
或者我们叫各种各样的算法
因为它可以帮助我们
去把这些非结构化的数据结构化
或者从大量的数据里面挑选
对我们解释某种现象
特别有用的特征或者维度
做特征筛选
或者做一些降维的工作等等
这些都是我们过去特别感兴趣的
第三个就是给我们创造什么 需求
非常重要的就是创造需求
也就是说
有一个很好的社会生态
这个生态它既给我们提供数据
也给我们提供知识需求
这样的话
我们就有动力去做研究
去服务这个
比如说数字经济的发展
或者说政府的治理
这个实际上是非常重要的
就是有这么一个生态
它给我们提供资源
而且也提供需求
第四个很重要的就是
在政府或者说是应用机构看来
特别重要的就是
我们要基于这些研究
最后形成的什么
形成的是解决某种特定问题的
一种solution
一种解决方案
你比如说我们
我从去年开始
我就跟北京市的政务服务局
我们合作
合作是干嘛呢
就是用北京市的12345的
每一天的数据
帮他们去做大数据分析
从中间找到北京市市民
对北京市城市运行
城市管理的一些诉求
或者他们的一些
他们反馈出来的城市治理的问题
这样的问题其实在过去
他如果不用这些数据的时候
其实是很慢地
才能被政府职能部门感知到
因为它有一个非常长的loop
你要把这个信息给它传递上去
很难的
更何况对市政府
一个比较高层级的市政府而言
它去了解基层的街道 社区
到底它的治理状况怎么样
非常难
哪怕你再勤奋的一个市长
一个市委书记
你亲自去社区调研的能力
也是有限的
最多你只能访问十个八个
一百个社区
但是我们北京市有大量的社区
所以用这样的数据
它可以动态地
快速地帮助市政府
比较宏观的政府
去了解城市的不同区域 不同时间
市民的诉求是怎么动态变化的
因为市民的诉求的变化
其实反映着
我们这个城市运行的问题
城市治理的问题
所以我们从中间
可以找到一些模式
这些模式就可以变成什么呢
政府去调整它的政策
或者调整它的法律的一些依据
你比如说今年
北京市
当然可能也
因为咱们都是学城市规划
或者什么
可能也有看过最近那个
北京市人大
刚刚修订了物业管理条例
其实物业管理条例的修订
一个很重要的原因就是因为什么
因为我们的数据发现
在今年的春季
北京市民对物业的诉求
一个突发性的增长
是很大的一个增长
而且特别严重的增长
产生于什么呢
产生于一个叫什么 东西城
在政府行政部门的术语里边
它把这种称之为叫
实际上它本身
它的这个小区的物业性质
是有差异的
东西城有大量的小区属于什么
属于央产房
而央产房过去是有单位的
现在很多这种单位
都已经不复存在了
大的央企
大的甚至什么一些部委
过去都有的
现在已经被合并了
或者说已经破产了
这样一些央企
所以就现在变成
我们叫失管 弃管小区
它的这个社区的物业是没人管的
那这个时候其实这种诉求
它必须需要什么呢
需要制度性地解决
它不能是
因为它不是个别的
它是个系统性的问题
所以这一次
事实上从这么一个数据里面
你可以发现一个政策执行的
这么一个挑战
也就是这个时候
我们就可以通过分析这个数据
找到它的一些模式
帮助政府去思考
新的政策应该如何制定
所以这事实上都是我们帮助
用计算社会科学的研究
去帮政府解决什么呢
解决一些实际的治理的问题
或者是服务的问题
-1.1 城市及城市科学的发展演变
--课程视频
-1.2 新城市科学的提出
--课程视频
-1.3 相关研究机构 、期刊和课程
--课程视频
-1.4 变化中的城市
--课程视频
-课程讲义
-课后讨论
-课后练习1
-2.1 城市概念的定义
--课程视频
-2.2 城市正在发生的变化:驱动力
--课程视频
-2.3 城市正在发生的变化:产品/服务
--课程视频
-2.4 城市正在发生的变化:城市空间
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习2
-3.1 为什么强调地理思维
--课程视频
-3.2 地理思维应用的基础
--课程视频
-3.3 如何应用地理思维
--课程视频
-3.4 课堂提问
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习3
-4.1 我所理解的新城市科学
--课程视频
-4.2 新城市科学的机遇
--课程视频
-4.3 新城市科学下的规划治理
--课程视频
-4.4 新城市科学下的社区实践
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习4
-5.1 从数字孪生到数字孪生城市
--课程视频
-5.2 数字孪生城市的系统认知
--课程视频
-5.3 数字孪生城市的实践突破
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习5
-6.1 前言
--课程视频
-6.2 机器学习
--课程视频
-6.3 深度学习
--课程视频
-6.4 城市科学当中的应用
--课程视频
-6.5 课堂提问
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习6
-7.1 前言
--课程视频
-7.2 物联网(1)
--课程视频
-7.3 物联网(2)
--课程视频
-7.4 基于物联网的相关案例
--课程视频
-7.5 基于穿戴式设备的相关案例
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习7
-8.1 前言
--课程视频
-8.2 智慧城市:ICT技术驱动的空间变革
--课程视频
-8.3 智慧城市:从大脑到神经系统的改造之路
--课程视频
-8.4 城市数据:从问题洞察到管理与运营工具
--课程视频
-8.5 课堂提问
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习8
-9.1 数据介绍
--课程视频
-9.2 商圈识别、分类与评价
--课程视频
-9.3 项目介绍与产品升级
--课程视频
-9.4 课堂提问
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习9
-10.1 人本尺度城市形态:定义
--课程视频
-10.2 人本尺度城市形态:理论
--课程视频
-10.3 人本尺度城市形态:方法
--课程视频
-课程讲义
-课外阅读
-课后讨论
-课后练习10
-11.1 大数据+城市科学
--课程视频
-11.2 计算社会科学:方法论
--课程视频
-11.3 计算社会科学:方法与议题
--课程视频
-11.4 计算社会科学:前沿应用
--课程视频
-课程讲义
-课后讨论
-课外阅读
-课后练习11
-12.1 未来城市:空间干预与数字创新
--课程视频
-12.2 未来城市:认识论和方法论
--课程视频
-12.3 案例分享
--课程视频
-课程讲义
-课后讨论
-课外阅读
-课后练习12
-课程视频
-课后讨论