当前课程知识点:基于R语言的社会统计分析 > 第一章:绪论 > 1.1 什么是统计学? > 视频1.1
我是清华社会学系的教师我叫罗昊
欢迎大家和我一起走进慕课课堂
今天是我们基于R语言的社会统计分析的第一讲
在进入技术细节之前首先让我们来聊聊
什么是统计学
让我们来听听他们是怎么说的
大家好
我是基于R语言社会统计分析这门课的助教王碧妍
我是上学期初次接触统计学这门课的
那么最开始我是一个文科生的身份进入
那么就对数学啊这种公式的推导啊都觉得
比较为难
那么到
真正接触到这门课才发现
其实社会统计学它跟我们的生活是更为贴近的
首先它的数据收集是来源于生活
其次呢它是更偏重于教会我们分析和解读数据
大家好我是
基于R语言的社会统计分析的助教杨晨露
我觉得统计学它
不仅是一个工具它更是一个
它更是一种思维
它可以帮助我们更好地去理解我们要的
处理的问题
帮助我们把手头拥有的东西
去跟我们想了解的东西联系在一起
统计学是一个能帮助我们进行科学认识的强大工具
它能帮助我们证明或者证伪
各种各样的形形色色的观点
从他们的介绍中你可能已经发现了
统计学其实存在于我们生活的方方面面
打开电视机如果你看到国务院
发言人在答记者问
他们经常会说
我手里有一组数字
然后China Daily有的时候也会说
中国人越来越喜欢去英国玩了
每二十二个中国人
就为英国的旅游业增加了一个工作位置
那
对于我们学习社会科学的学生比如说学习社会统计学的同学
你一定熟悉有一本杂志叫American Sclologlcal Review
这是被我们奉为圣经的杂志
然后随便翻开一期我随便翻开了一期
某一篇文章的题目大致是这么翻译的
它说
非洲裔美国人西班牙裔美国人还有白人
对黑人和白人之间的不平等是否有不同的解读
这是一个社会学问题
为了回答这样一个社会学问题
给他们使用了从
1977年到2004年的
美国综合社会调查的数据
美国综合社会调查很有名叫做
General Sicial Surveys
他们用了将近三十年的数据
希望回答这么一个问题
然后翻开其他的社会科学的论文
现在有很多很多社会科学的
研究选择使用定量研究的方法
你会发现有一些
出镜率非常高的明星词汇
比如说变量 variable
相关性 correlation
回归 regression
显著性 significant
还有非常有名的P值 p-value
有的同学会说数字后面总是会带小星星
一颗星两颗星三颗星
那些星星是干什么的啊
然后还有一些同学呢可能是美剧迷
如果看过有一个电视剧叫
The Big Bang Theory生活大爆炸的话
你会深深的爱上里面的一个男神叫Sheldon Cooper
Sheldon经常爱说的
一个词
不是一个词是两个词
是statistically speaking
statistically significant
那我们这节课的目标
就是要学会这些明星词汇到底要说的是什么意思
然后
刚才说了半天其实我们并没有
对统计学下一个非常严谨的定义
统计学究竟是什么
我们可以这样理解
无论是在科学领域
还是社会科学领域自然科学领域还是社会科学领域
如果我们遇到了一个重要
而且严肃的问题
一个重要而且严肃的问题被提出来了
那么我们仅仅提供一个简单的答案是远远不够的
我光说做不做是否是不行的
在寻求这个答案的同时我们还常常需要
一系列可以被检验的证据
而且我们还希望了解
其所伴随的证明过程
其实刚才所说的这一段话讲得是
科学的一个本质
我不知道
有多少人真正思考过这个问题什么是科学
我在读博士的时候被迫修了一门课
叫做科学哲学
叫做philosophy of science
然后在学这门课的时候我不得不
很认得的思考说科学究竟是什么
大家很多同学喜欢看知乎
也有很多同学喜欢看维基百科
那你可以打开维基百科查一查科学
维基百科会告诉你说
说science is a systematic enterprise that creates
builds and organized knowledge
in the form of testable explanations
and predictions about the universe
刚才这句话我不知道你们看到了什么关键词啊
可能有人说我们看到了知识
knowledge
我们有人看到了解释 explanation
有的同学看到了更大的宇宙 universe
那
对我来说这句话里
最最有亮点最最抢眼的一句话是
testable
可验证的可以被检验的
其实统计学就为大家
提供了一套提供证据检验证据的科学方法
当然有人会说
证据一定是数字的吗
并不强求说
可以被检验的证据一定是数字的
但是现在呢
量化的证据已经逐渐的成为人们对
证据最直接的联想
当我们决定要特别认真地考虑一个问题
摆出一副深思熟虑的架势
要迎接某一个新的议题挑战的时候
大家经常要求把统计数字摆上台面
put the statistics on the table
量化的证据变得越来越重要
统计学
简单来说就是为这样的一个证明过程
提供科学方法的理论体系
简单的下定义
什么是统计学啊
牛津字典上说统计学是一门关于收集
分析解释展示
以及组织数据的学问
其实已经挺简单的一句话了
但是我还是嫌它太长了
所以我们有一个更简单的定义说什么是统计学
它是一套获取
与分析数据的方法
其实三个关键词
我们的对象是数据
对数据怎么了呢 获取和分析
那在具体一点我们把
统计分析的过程再细分
其实统计学为什么事情打基础呢
为设计为描述为推断打基础
下面我们来
分别聊一聊我们所说的设计
描述还有推断
到底是什么意思
首先谈谈设计
设计是指
对数据收集方法的计划
数据收集方法
想要收集数据了需要考虑好多好多的事情
比如说当你想组织一个社会调查的时候
你需要考虑我们到底怎么抽取数据
我们抽取访谈对象的方式是什么
我们需要找多少人呢
需要选择多少的访谈对象
我们是电话调查
还是入户深度访谈
然后如果决定用问卷的方法
你还要决定问卷是怎么设计的
方方面面都需要我们考虑
很多人都说
做统计的人其实就是算数的
其实
不是这样的
从研究设计的初期
就需要统计人员的介入
否则到后期我们发现数据质量有问题的时候我们也无力回天了
所以设计数据收集方法的设计是
统计学家要解决的一个很重要的问题尤其是我们社会科学
统计学家要解决的问题
然后第二个
我们来谈谈什么是描述
简单来说
描述就是对现有数据的总结和提炼
如果我问你说我在全班里面做一个调查
我说你开车开的最快的速度是多少
每个人都报一个速度 举手
七十八十九十
我收到的是一群密密麻麻的数字
然后我问你这些数字代表什么了呢
你总要选一个方法对刚才这么多
杂乱无序的信息进行提炼
所以
怎么样从无序的数据中
总结出有应用价值的
趋势和特点
需要很多种统计方法的支持
在第二周呢我们就会主要
讲解一下我所说的这些
描述统计的方法都有什么具体怎么做
所以有的人会说
描述实际上是一种
简化数据的手段
它信息太多了就是无序
我们需要找到
特点找到趋势
把它简化出来
好现在我们来讲一讲什么是推断
刚才讲过了设计讲过了描述
其实是
统计学里面较为简单的两个部分
推断
是我们整个统计学原理
中流砥柱是脊梁
如果你是想拿一门
统计学的硕士和博士
需要修的课程可能并没有大家想象的那么多
有两门课程是必修课
起码我上博士的时候只有两门必修课
大家可能惊讶说怎么只有两门必修课
其他我们可以去学经济统计学
卫生统计学社会统计学啊
但是核心课程两门
一门叫做概率论
probability theory
另一门就是我们现在要说的统计推断
统计推断是指什么
是指依据现有的样本数据
对总体进行推测
这是什么意思呢
我们作为研究者
我们感兴趣的通常不是样本本身
比如说我想了解全中国的情况
全中国居民的情况
我就设计了一个综合社会调查
那想得到这个数据你要怎么办
是把全中国的每一个人
都访谈一遍吗
没有办法啊没有这个时间没有这个精力
没有这个人力更重要的是没必要
我们为了
了解总体的情况通常要抽样
抽样得到了样本
然后对样本
进行各种各样的分析
我们对样本的数据进行清理
进行描述有的时候要进行统计建模
比如说我们要做回归分析比如说要做模型的建立
然后对样本得出了
分析以后
就结束了吗
我们需要的不是样本的特征
我们真正需要关注的是总体的特征
所以还要从样本的信息回推到总体
这是推断的过程
所以 下一个定义
统计推断 statistics inference
是基于数据所进行的
为基于数据所进行的可靠推测
提供了方法它是统计学方法体系的脊梁
很重要
描述和统计合在一起
是两种最最基本的统计分析类型
作为一个研究者
通常情况下你光提供描述是不够的
通常要把描述和推断两种方法
结合来试图
了解各种社会现象的成因
然后刚刚讲的是
大的广义的什么是统计学
那有同学会问我们这门课是基于R语言的社会统计学分析
社会统计学是什么
社会统计学是指将统计方法
应用于对社会环境中
人类行为的研究
我们的观察对象是人类的行为
但是其实
客观来讲社会统计学并没有
太多的特别之处啊
它和我们经常听说的生物统计学
商务统计学还有特别火爆的计量经济学
和医学统计学
等等其他统计学在其他领域的应用啊
共享着
统计学的经典成果这两个成果是我
经典成果是我刚才讲的
概率论和统计推断的
经典成果
当然我们社会学也有自己的
特别的特性
比如说
我们社会学所感兴趣的概念
通常相对抽象
比如说我们想了解野心
我们想了解成就
我们想了解能力我们想了解亲密度
幸福感有的时候我们想了解两个人到底多相爱
还想测量爱情
那这些抽象的
社会科学的概念要如何的测量
因为这个需求我们其实
发展出了很多很多社会学特有的统计方法
比如说
专攻潜变量不可直接观测变量的
结构方程模型啊简称SEM struccural equation modeling
经常用于教育学领域教育测量领域
去测量学生的学业能力这么一种
方法叫做项目反应理论简称IRT
item response theory
然后我们刚刚讲了我们做了
好多好多的社会调查
做社会调查的时候需要特别
严谨紧密的设计
那就构成了一种
方法叫做社会统计调查方法survey methodlogy
这些呢是社会科学独有的方法
过去的
二三十年吧
社会学的定量研究方法变得越来越
火爆
很多很多的学术研究都选择用
火爆
很多很多的学术研究都选择用
定量方法去回答他们的问题
如果你去翻社会学心理学
各种各样的教育学各种各样学科的
学术期刊你会发现定量的文章是以几何集数
这样的速度来增长的
那统计学为社会统计学研究提供了很多的
新的视角新的方法
但是我们也听到了很多的质疑之声
就像刚才我说的你们自己都承认了
研究的变量是不可直接观测的
你怎么样来确保
观测的科学性呢
就是明知不可为偏要为之我明明知道这个
概念没法测量我还要测量它你们测量的科学吗准确吗
这是一种声音还有一种
有一批学者认为说
人和人太不一样了
每个人和每个人每个社会和每个社会之间都存在着
强大的不可克服的异质性
所以说这个社会科学要找出一个
像物理学那样找出一个
放之四海而皆准的规律注定是
像物理学那样找出一个
放之四海而皆准的规律注定是
非常困难的甚至说是不可能的
尤其是在个体层面上也更是如此啊
很多人对
社会科学定量研究产生质疑
但是我们不得不说就我个人的观点
定性和定量从来就不是敌人我们
不是两种对立的
方法它更像是
太极里面的那个阴阳两极
互为补充
怎么样去理解这件事情
一般情况下研究问题是怎么产生的
我们发现了一个新的社会现象
对它脑子里产生了好多问号对它产生了好奇
于是乎你可能和周围的同学聊天
和周围的同事聊聊看他们是怎么想的
这就相当于定性研究里的深度访谈
有的时候你找了一群人
做一个焦点小组访谈啊看看他们对每件事的
看法 于是乎
比较系统的成立了一个研究假设
所以通过定性研究我们需要
产生研究问题建立研究假设
然后建立研究假设以后
就像我们最开始讲的我们不光是需要一个答案
我们还需要证明
需要证据把这个数字摆上台面
于是乎你就需要设计一个定量研究了
通过定量研究呢我们要收集数据
各种的抽样方法收集来很多数据
然后要对数据进行分析
对数据进行描述
可能还为了解答这个
相关性啊因果关系啊这样的问题作一些
统计建模再回归总体做一些统计推断
通常情况下
做一个社会学定量研究有两类结果
一种是和正常人常识性的理解
特别一致
于是当然乎有人会说了说你花了这么多的时间精力
回答了一个不言自明的道理
比如说有人质疑社会学研究啊
我们用了一万多的样本得出一个结论
说
男人在离婚以后更容易再婚
很多说和这个常理人人都知道的道理用你来说吗
用你用一万多样本来说吗
这是一种质疑
然后另外一种方法它可能会和常理的
你所想象的事情完全相反
比如说在十九世纪初有人
得出了一个研究说酗酒家庭的孩子可能
并不一定有任何的劣势
总的来说
定量研究可能会产生
和常理一致的结果也有可能产生有违常理的结果
产生有违常理结果的时候
我们感到很新鲜于是乎又要问一个为什么
有的时候可能需要重新的焦点小组访谈
或者是深度访谈的方法来回答这个问题
有的时候通过新的问题
以为要建立新的假设然后要
进行新一轮的定量分析啊问题不断的在出现
所以整个从定性定量再到定性
这么一个过程一直是往复循环的
两种方法一直在互为补充
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video