当前课程知识点:基于R语言的社会统计分析 >  第二章:描述统计 >  2.3 描述统计方法 I: 制表法 Tabular Method >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

上一小节我们明确了变量有哪些基本类型

那这一节呢我们要来谈谈根据

不同的变量类型

我们应该选择哪些描述统计的方法

那描述统计我们前面就提到了做描述的时候是为了作总结

数据很乱我们有的时候会说手里的数据脏乱差

我们希望从手里很杂乱的数据里面

提取有用的信息所以是一个总结提炼的过程

我们希望去其糟粕取其精华把好的东西留下来

而且呢我们还希望我们得到的信息

是特别好消化的我们希望

人家一看就能看懂

一下就能解读出数据里最有价值的信息

那描述数据的方法一共有三种

第一种呢叫做

表格法

制表法tabular method

一种方法啊叫做绘图法graphical method

另一种是数值法numerical method

这三种大的方法

下面你不要问我哪种方法最厉害

三种方法回答的是

关于数据不同维度的问题

有的时候我们需要多管齐下好多方法

一块使用才能体现出来我们手里数据真正的特征

那需要指出的是呢

每一种方法针对不同

的变量类型都有不同的具体的小方法

所以还是结合上一节讲的内容

了解变量的具体类型非常非常的重要

好下面我们就来分别讲一讲这三种方法

第一种呢制表法tabular method

制表法其实

针对的就是一种表格叫频数分布表

当然频数分布表对于

定性变量和定量变量略有不同啊

首先我们来看看

针对定性变量的频数分布表

针对定性变量的频数分布表

特别简单我们从小就

基本上就可以看懂这种表这种表

报纸上杂志上随处可见

比如说

我用到了中国综合社会调查CGSS

2013里的一道访问的问题

它说您认为

有子女的老人的养老

主要应该由谁负责

给了大家不同的选项

应该包括有

政府主要负责子女主要负责主要由老人自己负责

还有应该由政府子女老人责任均摊

那将这四个选项

选择的人数作一个总结我们首先有多少人选择了

哪种题型我们有频数这一项我们有百分比

得出的这个表格就是一个非常非常典型的

针对分类变量的频数分布表

然后这里面我们只需要明确一个概念

就是相对频数的概念 relative frequency

它的定义是

某一类别的相对频数是落入

该类别观测值的比例或者百分比

所以后面那个百分比的选项就是我们所说的相对频数

刚才针对的事件是名义型变量了

我们刚才第一节讲到了说

分类型变量有两种

复习一下有定序型变量还有名义型变量

名义型讲完了我们还有一个题是对

定续定变量来问的

这个题很有意思在中国综合社会调查里面有

一系列关于女性地位的问题它问到说

你是否同意

男性的能力

天生就比女性强这一看法

对这个数据浏览的时候就

好奇心啊就一下就翻到这道题

有想看看到底有多少人同意这道看法

其实得到的数字是挺让我惊奇的

你会发现

从被调查的一万多人里面

大概有一千多人完全不同意

三千六百多人比较不同意

无所谓对这个题目没感觉的大概有一千八百人

然后比较同意的

有将近四千人

完全同意这种看法的也有868人

所以就说到现在如果说这个

样本抽样过程特别精美对

全国人民都特别有代表性的话

我们会发现

全中国大概有百分之八的人

非常同意男性的能力天生就比女性强

另外有百分之三十四的人

比较同意这个观点

对我来说还是比较

比较乍舌的一个答案啊

然后这是

刚才讲的频数分布表分类变量的频数分布表

下面呢我们来看看

定量型变量的频数分布表

基本上只要上过学的同学

上过小学的同学可能也都看过

定量型频数分布表长成什么样子啊

我们经常用这种表格来总结学生的成绩

比如说我说我这里有十个学生

考试成绩分别是100分99分

从高到低一直到最低的71分

那有一种对成绩总结的方式

我把每一种可能的成绩都写出来

每一种可能的成绩有多少个人

占的百分比分别是多少

这是一种方法啊

然后你想想一下假设你手头不是十个同学

你有一百个同学一千个同学

然后这一百个同学一千个同学得的分还非常不一样

你会得到一张特别特别长的表格其实

总结了半天也跟没总结差不多

所以一般情况针对定量型的变量

我们会把数据继续分组

比如说你小时候会被分到了九十五到一百这个档次

有的时候九十到九十四尤其是老师向家长汇报的时候

那成绩比如说八十五到八十九的像刚才那个数据有四个人

你会发现还有两组八十到八十四还有七十五到七十九

一个人都没有但是在这个表格里面还是被写出来了

然后七十到七十四一个人

这就体现了我们

当把定量变量分组来做频数分布表的时候

有一个特别重要的原则

叫做不重不漏

也就是说即使在某一个分组里面没有任何的观测值

你也要把它写出来

什么叫不重呢

就是我们最忌讳发现最不专业的行为就是成绩

九十五到一百一组

然后另外一个组呢九十到九十五

那如果一个人的成绩是九十五那你是分到第一组还是第二组呢

这都是一些小细节啊但都是

通过我以往对有些同学

交上来作业来看

不重不漏这件事看似简单其实也没有那么

容易做到

那社会学调查之中我们并不一定总是

在研究学生的成绩啦

我们最最常用的一个

定量型变量的频数分布

分布表就是把受试对象年龄分组

我们经常按五岁一组把人分成好几个年龄段来进行研究

这是最最常用的一种方法

另外

我这里面要特别指出一下

其实很多很多的学术论文

频数分布表是我们必须要做的一件事情

学到后面你和同学学到了

比较高级的统计方法啊特别喜欢建模

然后自己写论文的时候或者包括写作业的时候

上来就来一个回归模型

但是老师有通常会说我感觉

你的文章里缺个表

缺的就是这张频数分布表因为我想知道

你研究的这个样本到底有怎么样的特性

这里面我举一个例子啊

特别爱举American soclologlcal review这本杂志的例子

坚持这个传统我们再看一个例子啊

这本杂志上有一篇文章

其实是非常有代表性的一篇文章有很多

学术文章都是以这种形式来呈现的

这篇文章的题目叫做

formal rights and informal privileges for same-sex couples

evidence from a national survey experiment

是关于

同性情侣的研究

就是想知道同性

情侣在生活中到底有哪些正规的权益到底有哪些

非正规的权益

然后为了研究这个问题呢他们

从全国进行了一个实验问了很多很多的人

你可以看到我们

显示出来的这是论文里面的表3

实际上它叫做UNweighted sample descriptive statistics

没有加权的样本描述统计

这就是我们学术论文里经常常见的

频数分布表

比如说你看第一行我们有

sexual identity就是这个人到底是

这个

性倾向是什么比如说lesbian respondent

同性恋的回访者

男性同性恋呢

受访者女性同性恋的受访者还有

异性恋中的女性异性恋中的男性

这个表会清楚的告诉你说

每一个类型的人占了样本的百分之多少

然后我们会看啊样本中有

百分之七十七点三五都是白人

受教育的程度你会发现有将近百分之五十的人是

高中毕业然后有将近百分之五十的人是

大学或以上毕业如果

做过中国社会调查的话你会发现教育比例上来看

我们的特征就很不一样了

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。