当前课程知识点:基于R语言的社会统计分析 > 第二章:描述统计 > 2.3 描述统计方法 I: 制表法 Tabular Method > Video
上一小节我们明确了变量有哪些基本类型
那这一节呢我们要来谈谈根据
不同的变量类型
我们应该选择哪些描述统计的方法
那描述统计我们前面就提到了做描述的时候是为了作总结
数据很乱我们有的时候会说手里的数据脏乱差
我们希望从手里很杂乱的数据里面
提取有用的信息所以是一个总结提炼的过程
我们希望去其糟粕取其精华把好的东西留下来
而且呢我们还希望我们得到的信息
是特别好消化的我们希望
人家一看就能看懂
一下就能解读出数据里最有价值的信息
那描述数据的方法一共有三种
第一种呢叫做
表格法
制表法tabular method
一种方法啊叫做绘图法graphical method
另一种是数值法numerical method
这三种大的方法
下面你不要问我哪种方法最厉害
三种方法回答的是
关于数据不同维度的问题
有的时候我们需要多管齐下好多方法
一块使用才能体现出来我们手里数据真正的特征
那需要指出的是呢
每一种方法针对不同
的变量类型都有不同的具体的小方法
所以还是结合上一节讲的内容
了解变量的具体类型非常非常的重要
好下面我们就来分别讲一讲这三种方法
第一种呢制表法tabular method
制表法其实
针对的就是一种表格叫频数分布表
当然频数分布表对于
定性变量和定量变量略有不同啊
首先我们来看看
针对定性变量的频数分布表
针对定性变量的频数分布表
特别简单我们从小就
基本上就可以看懂这种表这种表
报纸上杂志上随处可见
比如说
我用到了中国综合社会调查CGSS
2013里的一道访问的问题
它说您认为
有子女的老人的养老
主要应该由谁负责
给了大家不同的选项
应该包括有
政府主要负责子女主要负责主要由老人自己负责
还有应该由政府子女老人责任均摊
那将这四个选项
选择的人数作一个总结我们首先有多少人选择了
哪种题型我们有频数这一项我们有百分比
得出的这个表格就是一个非常非常典型的
针对分类变量的频数分布表
然后这里面我们只需要明确一个概念
就是相对频数的概念 relative frequency
它的定义是
某一类别的相对频数是落入
该类别观测值的比例或者百分比
所以后面那个百分比的选项就是我们所说的相对频数
刚才针对的事件是名义型变量了
我们刚才第一节讲到了说
分类型变量有两种
复习一下有定序型变量还有名义型变量
名义型讲完了我们还有一个题是对
定续定变量来问的
这个题很有意思在中国综合社会调查里面有
一系列关于女性地位的问题它问到说
你是否同意
男性的能力
天生就比女性强这一看法
我
对这个数据浏览的时候就
好奇心啊就一下就翻到这道题
有想看看到底有多少人同意这道看法
其实得到的数字是挺让我惊奇的
你会发现
从被调查的一万多人里面
大概有一千多人完全不同意
三千六百多人比较不同意
无所谓对这个题目没感觉的大概有一千八百人
然后比较同意的
有将近四千人
完全同意这种看法的也有868人
所以就说到现在如果说这个
样本抽样过程特别精美对
全国人民都特别有代表性的话
我们会发现
全中国大概有百分之八的人
非常同意男性的能力天生就比女性强
另外有百分之三十四的人
比较同意这个观点
对我来说还是比较
比较乍舌的一个答案啊
然后这是
刚才讲的频数分布表分类变量的频数分布表
下面呢我们来看看
定量型变量的频数分布表
基本上只要上过学的同学
上过小学的同学可能也都看过
定量型频数分布表长成什么样子啊
我们经常用这种表格来总结学生的成绩
比如说我说我这里有十个学生
考试成绩分别是100分99分
从高到低一直到最低的71分
那有一种对成绩总结的方式
我把每一种可能的成绩都写出来
每一种可能的成绩有多少个人
占的百分比分别是多少
这是一种方法啊
然后你想想一下假设你手头不是十个同学
你有一百个同学一千个同学
然后这一百个同学一千个同学得的分还非常不一样
你会得到一张特别特别长的表格其实
总结了半天也跟没总结差不多
所以一般情况针对定量型的变量
我们会把数据继续分组
比如说你小时候会被分到了九十五到一百这个档次
有的时候九十到九十四尤其是老师向家长汇报的时候
那成绩比如说八十五到八十九的像刚才那个数据有四个人
你会发现还有两组八十到八十四还有七十五到七十九
一个人都没有但是在这个表格里面还是被写出来了
然后七十到七十四一个人
这就体现了我们
当把定量变量分组来做频数分布表的时候
有一个特别重要的原则
叫做不重不漏
也就是说即使在某一个分组里面没有任何的观测值
你也要把它写出来
什么叫不重呢
就是我们最忌讳发现最不专业的行为就是成绩
九十五到一百一组
然后另外一个组呢九十到九十五
那如果一个人的成绩是九十五那你是分到第一组还是第二组呢
这都是一些小细节啊但都是
通过我以往对有些同学
交上来作业来看
不重不漏这件事看似简单其实也没有那么
容易做到
那社会学调查之中我们并不一定总是
在研究学生的成绩啦
我们最最常用的一个
定量型变量的频数分布
分布表就是把受试对象年龄分组
我们经常按五岁一组把人分成好几个年龄段来进行研究
这是最最常用的一种方法
另外
我这里面要特别指出一下
其实很多很多的学术论文
频数分布表是我们必须要做的一件事情
学到后面你和同学学到了
比较高级的统计方法啊特别喜欢建模
然后自己写论文的时候或者包括写作业的时候
上来就来一个回归模型
但是老师有通常会说我感觉
你的文章里缺个表
缺的就是这张频数分布表因为我想知道
你研究的这个样本到底有怎么样的特性
这里面我举一个例子啊
特别爱举American soclologlcal review这本杂志的例子
那
坚持这个传统我们再看一个例子啊
这本杂志上有一篇文章
其实是非常有代表性的一篇文章有很多
学术文章都是以这种形式来呈现的
这篇文章的题目叫做
formal rights and informal privileges for same-sex couples
evidence from a national survey experiment
是关于
同性情侣的研究
就是想知道同性
情侣在生活中到底有哪些正规的权益到底有哪些
非正规的权益
然后为了研究这个问题呢他们
从全国进行了一个实验问了很多很多的人
你可以看到我们
显示出来的这是论文里面的表3
实际上它叫做UNweighted sample descriptive statistics
没有加权的样本描述统计
这就是我们学术论文里经常常见的
频数分布表
比如说你看第一行我们有
sexual identity就是这个人到底是
这个
性倾向是什么比如说lesbian respondent
同性恋的回访者
男性同性恋呢
受访者女性同性恋的受访者还有
异性恋中的女性异性恋中的男性
这个表会清楚的告诉你说
每一个类型的人占了样本的百分之多少
然后我们会看啊样本中有
百分之七十七点三五都是白人
受教育的程度你会发现有将近百分之五十的人是
高中毕业然后有将近百分之五十的人是
大学或以上毕业如果
做过中国社会调查的话你会发现教育比例上来看
我们的特征就很不一样了
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video