当前课程知识点:基于R语言的社会统计分析 >  第一章:绪论 >  1.1 什么是统计学? >  视频1.1

返回《基于R语言的社会统计分析》慕课在线视频课程列表

视频1.1在线视频

视频1.1

下一节:视频 1.2

返回《基于R语言的社会统计分析》慕课在线视频列表

视频1.1课程教案、知识点、字幕

我是清华社会学系的教师我叫罗昊

欢迎大家和我一起走进慕课课堂

今天是我们基于R语言的社会统计分析的第一讲

在进入技术细节之前首先让我们来聊聊

什么是统计学

让我们来听听他们是怎么说的

大家好

我是基于R语言社会统计分析这门课的助教王碧妍

我是上学期初次接触统计学这门课的

那么最开始我是一个文科生的身份进入

那么就对数学啊这种公式的推导啊都觉得

比较为难

那么到

真正接触到这门课才发现

其实社会统计学它跟我们的生活是更为贴近的

首先它的数据收集是来源于生活

其次呢它是更偏重于教会我们分析和解读数据

大家好我是

基于R语言的社会统计分析的助教杨晨露

我觉得统计学它

不仅是一个工具它更是一个

它更是一种思维

它可以帮助我们更好地去理解我们要的

处理的问题

帮助我们把手头拥有的东西

去跟我们想了解的东西联系在一起

统计学是一个能帮助我们进行科学认识的强大工具

它能帮助我们证明或者证伪

各种各样的形形色色的观点

从他们的介绍中你可能已经发现了

统计学其实存在于我们生活的方方面面

打开电视机如果你看到国务院

发言人在答记者问

他们经常会说

我手里有一组数字

然后China Daily有的时候也会说

中国人越来越喜欢去英国玩了

每二十二个中国人

就为英国的旅游业增加了一个工作位置

对于我们学习社会科学的学生比如说学习社会统计学的同学

你一定熟悉有一本杂志叫American Sclologlcal Review

这是被我们奉为圣经的杂志

然后随便翻开一期我随便翻开了一期

某一篇文章的题目大致是这么翻译的

它说

非洲裔美国人西班牙裔美国人还有白人

对黑人和白人之间的不平等是否有不同的解读

这是一个社会学问题

为了回答这样一个社会学问题

给他们使用了从

1977年到2004年的

美国综合社会调查的数据

美国综合社会调查很有名叫做

General Sicial Surveys

他们用了将近三十年的数据

希望回答这么一个问题

然后翻开其他的社会科学的论文

现在有很多很多社会科学的

研究选择使用定量研究的方法

你会发现有一些

出镜率非常高的明星词汇

比如说变量 variable

相关性 correlation

回归 regression

显著性 significant

还有非常有名的P值 p-value

有的同学会说数字后面总是会带小星星

一颗星两颗星三颗星

那些星星是干什么的啊

然后还有一些同学呢可能是美剧迷

如果看过有一个电视剧叫

The Big Bang Theory生活大爆炸的话

你会深深的爱上里面的一个男神叫Sheldon Cooper

Sheldon经常爱说的

一个词

不是一个词是两个词

是statistically speaking

statistically significant

那我们这节课的目标

就是要学会这些明星词汇到底要说的是什么意思

然后

刚才说了半天其实我们并没有

对统计学下一个非常严谨的定义

统计学究竟是什么

我们可以这样理解

无论是在科学领域

还是社会科学领域自然科学领域还是社会科学领域

如果我们遇到了一个重要

而且严肃的问题

一个重要而且严肃的问题被提出来了

那么我们仅仅提供一个简单的答案是远远不够的

我光说做不做是否是不行的

在寻求这个答案的同时我们还常常需要

一系列可以被检验的证据

而且我们还希望了解

其所伴随的证明过程

其实刚才所说的这一段话讲得是

科学的一个本质

我不知道

有多少人真正思考过这个问题什么是科学

我在读博士的时候被迫修了一门课

叫做科学哲学

叫做philosophy of science

然后在学这门课的时候我不得不

很认得的思考说科学究竟是什么

大家很多同学喜欢看知乎

也有很多同学喜欢看维基百科

那你可以打开维基百科查一查科学

维基百科会告诉你说

说science is a systematic enterprise that creates

builds and organized knowledge

in the form of testable explanations

and predictions about the universe

刚才这句话我不知道你们看到了什么关键词啊

可能有人说我们看到了知识

knowledge

我们有人看到了解释 explanation

有的同学看到了更大的宇宙 universe

对我来说这句话里

最最有亮点最最抢眼的一句话是

testable

可验证的可以被检验的

其实统计学就为大家

提供了一套提供证据检验证据的科学方法

当然有人会说

证据一定是数字的吗

并不强求说

可以被检验的证据一定是数字的

但是现在呢

量化的证据已经逐渐的成为人们对

证据最直接的联想

当我们决定要特别认真地考虑一个问题

摆出一副深思熟虑的架势

要迎接某一个新的议题挑战的时候

大家经常要求把统计数字摆上台面

put the statistics on the table

量化的证据变得越来越重要

统计学

简单来说就是为这样的一个证明过程

提供科学方法的理论体系

简单的下定义

什么是统计学啊

牛津字典上说统计学是一门关于收集

分析解释展示

以及组织数据的学问

其实已经挺简单的一句话了

但是我还是嫌它太长了

所以我们有一个更简单的定义说什么是统计学

它是一套获取

与分析数据的方法

其实三个关键词

我们的对象是数据

对数据怎么了呢 获取和分析

那在具体一点我们把

统计分析的过程再细分

其实统计学为什么事情打基础呢

为设计为描述为推断打基础

下面我们来

分别聊一聊我们所说的设计

描述还有推断

到底是什么意思

首先谈谈设计

设计是指

对数据收集方法的计划

数据收集方法

想要收集数据了需要考虑好多好多的事情

比如说当你想组织一个社会调查的时候

你需要考虑我们到底怎么抽取数据

我们抽取访谈对象的方式是什么

我们需要找多少人呢

需要选择多少的访谈对象

我们是电话调查

还是入户深度访谈

然后如果决定用问卷的方法

你还要决定问卷是怎么设计的

方方面面都需要我们考虑

很多人都说

做统计的人其实就是算数的

其实

不是这样的

从研究设计的初期

就需要统计人员的介入

否则到后期我们发现数据质量有问题的时候我们也无力回天了

所以设计数据收集方法的设计是

统计学家要解决的一个很重要的问题尤其是我们社会科学

统计学家要解决的问题

然后第二个

我们来谈谈什么是描述

简单来说

描述就是对现有数据的总结和提炼

如果我问你说我在全班里面做一个调查

我说你开车开的最快的速度是多少

每个人都报一个速度 举手

七十八十九十

我收到的是一群密密麻麻的数字

然后我问你这些数字代表什么了呢

你总要选一个方法对刚才这么多

杂乱无序的信息进行提炼

所以

怎么样从无序的数据中

总结出有应用价值的

趋势和特点

需要很多种统计方法的支持

在第二周呢我们就会主要

讲解一下我所说的这些

描述统计的方法都有什么具体怎么做

所以有的人会说

描述实际上是一种

简化数据的手段

它信息太多了就是无序

我们需要找到

特点找到趋势

把它简化出来

好现在我们来讲一讲什么是推断

刚才讲过了设计讲过了描述

其实是

统计学里面较为简单的两个部分

推断

是我们整个统计学原理

中流砥柱是脊梁

如果你是想拿一门

统计学的硕士和博士

需要修的课程可能并没有大家想象的那么多

有两门课程是必修课

起码我上博士的时候只有两门必修课

大家可能惊讶说怎么只有两门必修课

其他我们可以去学经济统计学

卫生统计学社会统计学啊

但是核心课程两门

一门叫做概率论

probability theory

另一门就是我们现在要说的统计推断

统计推断是指什么

是指依据现有的样本数据

对总体进行推测

这是什么意思呢

我们作为研究者

我们感兴趣的通常不是样本本身

比如说我想了解全中国的情况

全中国居民的情况

我就设计了一个综合社会调查

那想得到这个数据你要怎么办

是把全中国的每一个人

都访谈一遍吗

没有办法啊没有这个时间没有这个精力

没有这个人力更重要的是没必要

我们为了

了解总体的情况通常要抽样

抽样得到了样本

然后对样本

进行各种各样的分析

我们对样本的数据进行清理

进行描述有的时候要进行统计建模

比如说我们要做回归分析比如说要做模型的建立

然后对样本得出了

分析以后

就结束了吗

我们需要的不是样本的特征

我们真正需要关注的是总体的特征

所以还要从样本的信息回推到总体

这是推断的过程

所以 下一个定义

统计推断 statistics inference

是基于数据所进行的

为基于数据所进行的可靠推测

提供了方法它是统计学方法体系的脊梁

很重要

描述和统计合在一起

是两种最最基本的统计分析类型

作为一个研究者

通常情况下你光提供描述是不够的

通常要把描述和推断两种方法

结合来试图

了解各种社会现象的成因

然后刚刚讲的是

大的广义的什么是统计学

那有同学会问我们这门课是基于R语言的社会统计学分析

社会统计学是什么

社会统计学是指将统计方法

应用于对社会环境中

人类行为的研究

我们的观察对象是人类的行为

但是其实

客观来讲社会统计学并没有

太多的特别之处啊

它和我们经常听说的生物统计学

商务统计学还有特别火爆的计量经济学

和医学统计学

等等其他统计学在其他领域的应用啊

共享着

统计学的经典成果这两个成果是我

经典成果是我刚才讲的

概率论和统计推断的

经典成果

当然我们社会学也有自己的

特别的特性

比如说

我们社会学所感兴趣的概念

通常相对抽象

比如说我们想了解野心

我们想了解成就

我们想了解能力我们想了解亲密度

幸福感有的时候我们想了解两个人到底多相爱

还想测量爱情

那这些抽象的

社会科学的概念要如何的测量

因为这个需求我们其实

发展出了很多很多社会学特有的统计方法

比如说

专攻潜变量不可直接观测变量的

结构方程模型啊简称SEM struccural equation modeling

经常用于教育学领域教育测量领域

去测量学生的学业能力这么一种

方法叫做项目反应理论简称IRT

item response theory

然后我们刚刚讲了我们做了

好多好多的社会调查

做社会调查的时候需要特别

严谨紧密的设计

那就构成了一种

方法叫做社会统计调查方法survey methodlogy

这些呢是社会科学独有的方法

过去的

二三十年吧

社会学的定量研究方法变得越来越

火爆

很多很多的学术研究都选择用
火爆

很多很多的学术研究都选择用

定量方法去回答他们的问题

如果你去翻社会学心理学

各种各样的教育学各种各样学科的

学术期刊你会发现定量的文章是以几何集数

这样的速度来增长的

那统计学为社会统计学研究提供了很多的

新的视角新的方法

但是我们也听到了很多的质疑之声

就像刚才我说的你们自己都承认了

研究的变量是不可直接观测的

你怎么样来确保

观测的科学性呢

就是明知不可为偏要为之我明明知道这个

概念没法测量我还要测量它你们测量的科学吗准确吗

这是一种声音还有一种

有一批学者认为说

人和人太不一样了

每个人和每个人每个社会和每个社会之间都存在着

强大的不可克服的异质性

所以说这个社会科学要找出一个

像物理学那样找出一个

放之四海而皆准的规律注定是
像物理学那样找出一个

放之四海而皆准的规律注定是

非常困难的甚至说是不可能的

尤其是在个体层面上也更是如此啊

很多人对

社会科学定量研究产生质疑

但是我们不得不说就我个人的观点

定性和定量从来就不是敌人我们

不是两种对立的

方法它更像是

太极里面的那个阴阳两极

互为补充

怎么样去理解这件事情

一般情况下研究问题是怎么产生的

我们发现了一个新的社会现象

对它脑子里产生了好多问号对它产生了好奇

于是乎你可能和周围的同学聊天

和周围的同事聊聊看他们是怎么想的

这就相当于定性研究里的深度访谈

有的时候你找了一群人

做一个焦点小组访谈啊看看他们对每件事的

看法 于是乎

比较系统的成立了一个研究假设

所以通过定性研究我们需要

产生研究问题建立研究假设

然后建立研究假设以后

就像我们最开始讲的我们不光是需要一个答案

我们还需要证明

需要证据把这个数字摆上台面

于是乎你就需要设计一个定量研究了

通过定量研究呢我们要收集数据

各种的抽样方法收集来很多数据

然后要对数据进行分析

对数据进行描述

可能还为了解答这个

相关性啊因果关系啊这样的问题作一些

统计建模再回归总体做一些统计推断

通常情况下

做一个社会学定量研究有两类结果

一种是和正常人常识性的理解

特别一致

于是当然乎有人会说了说你花了这么多的时间精力

回答了一个不言自明的道理

比如说有人质疑社会学研究啊

我们用了一万多的样本得出一个结论

男人在离婚以后更容易再婚

很多说和这个常理人人都知道的道理用你来说吗

用你用一万多样本来说吗

这是一种质疑

然后另外一种方法它可能会和常理的

你所想象的事情完全相反

比如说在十九世纪初有人

得出了一个研究说酗酒家庭的孩子可能

并不一定有任何的劣势

总的来说

定量研究可能会产生

和常理一致的结果也有可能产生有违常理的结果

产生有违常理结果的时候

我们感到很新鲜于是乎又要问一个为什么

有的时候可能需要重新的焦点小组访谈

或者是深度访谈的方法来回答这个问题

有的时候通过新的问题

以为要建立新的假设然后要

进行新一轮的定量分析啊问题不断的在出现

所以整个从定性定量再到定性

这么一个过程一直是往复循环的

两种方法一直在互为补充

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

视频1.1笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。