当前课程知识点:基于R语言的社会统计分析 > 第二章:描述统计 > 2.4 描述统计方法 II: 绘图法 Graphical Method > Video
频数分布表是学术界的宠儿虽然它
不是特别受大众传媒的欢迎但是它
一般社会科学研究呢
都是就是出一个频数表是你必须要做的事情
为什么呢因为我们通常需要更严谨的数据证明
就光给我看一个图一个大的趋势可能是不够的
但是呢有的时候
光看数字实在是很无聊所以我们要选择
更加吸引眼球的方法也就是
图示法
图示法
按照定性和定量变量呢
区分有不同的方法我们还是一个一个来说
首先我们来看看
定性型变量的图示方法
首先是柱状图
bar chart这个
用过excel的
这个图表制图功能的人可能都会用这是很简单的制图功能
柱图其实
还是用刚才那个例子啊就是
谁主要负责养老这个例子
你会看到这个图形大概
长成这个样子而且
比数字来讲你可能更能看出趋势
比如说你
很直入眼帘的大部分人
将近百分之五十的人都认为子女主要是负责养老
然后另一方面呢也有
较多的人认为呢应该是均摊责任的
我们
比较开心地发现认为
是老人自己应该负责的比率并不大是百分之五左右
那还是刚才数据那个例子
就是男性能力强还是女性能力强
数字我就不再重复了
通过一个柱图
你会比较清晰地看出数据比较的趋势
两边是基本上对称的啊你会发现大家
意见是呈两极化的趋势
有一部分有百分之三十二的人比较不同意
相反有百分之三十三的人是
比较同意的所以这个意见还是
比较有分歧的另外
我们还可以用柱图做一件很重要的事情啊
柱图还可以体现比较
还是回到男性能力是不是比女性强这件事
我看到这道题的
第一个反应觉得数字很
很令我气愤啊
因为我觉得为什么还会有
百分之四十多的人将近一半的人会对
同意说男性能力天生比女性强
那我下一个问题是
是只有男性这么认为呢还是女性也同意这个看法
于是乎我们就要把数据分成两半
我们看一下这个比较柱图
红色的代表女性
蓝色的代表男性
我们如果看比较的话
你会比较郁闷的发现其实
区别并不是很大
仍然有百分之三十多的
女性认为她们的能力确实不如男性
所以就不光是男性
认为女性能力不好我们女性自己也是这么认为的
所以呢柱图能体现一些比较的概念在里面
另外除了柱图以外我们在研究定性型变量的时候还会看一个图
叫做饼图
这个图
说实话在学术研究中
如果你去看学术期刊发表论文
非常少见 为什么呢
我们还是从刚才那个男性女性谁能力强那个例子来看
你看到一张饼图大概长成这个样子
五颜六色的摆在这以后你会发现一个问题
如果我不把数字放在上面
只给你一张大图的话
我问你是左边大还是右边大
是左上角那小扇子
面积大还是右上角那
那扇东西面积大呢
看不太清楚
但是呢大众传媒尤其是新闻联播
特别爱用这种方法尤其是爱出3D图
然后仔细你想想其实每扇占的面积是很难
有一个很清晰的表达的
所以如果说
你以后的这个
这个努力方向是学术研究的话
我建议你可以短期内把
饼图忘记好了
好下面我们来讲一讲定量型变量的绘图法
定量型变量相比
定性型变量呢它的表达会更丰富一点
有的时候呢正因为
太丰富了啊很多同学
特别倾向于做很多特别美丽的图
但是
画图的要点不是美而是要
体现最重要的特征
我们做
定量型变量的图的时候
有几点一直要记在心里就是我们画图到底要看什么
有三点特别重要
第一个我们希望知道整个数据的中心在什么地方
所以第一个center在哪里
另外我知道数据是以
什么样的形式分布的它的离散程度有多大
数据和数据每个观测点之间
到底有多不同所以这是spread
另外第三个shape
就是我想知道我这个数据到底是以什么样的形态分布的
shape呢这个形态有三种
第一种
很直观对称分布叫做symmetric distribution
对称分布顾名思义两边对称吗
如果把你数据的画一张图想象成一张纸你把纸一折叠
就会发现左边和右边是完全重合的
那第二种方法叫做左偏分布
英文叫做left-skewed distribution
那左偏分布
也就是说这个数据你把它
按照这个它的边缘画一条线的话
发现它的左尾巴
会长于它的右尾巴
所以左偏分布左尾长那与之对应的呢右偏分布就是右尾长
这里我要稍微提醒一点
有的时候
我不给你画图的时候
我让同学自己画一个左偏分布右偏分布
结果大家呢把偏的那边就
理解成小山包在哪里啊
然后就说如果是左偏分布的话小山包的
这个山峰就在左边
右偏分布呢山峰就在右边这是不对的啊
我们说坐票右偏分布的时候关注的是尾巴
哪边的尾巴长就属于什么分布
刚才说的是就是
画图的时候我们要注意三个
主要特征
包括数据的中心在哪里
数据的离散程度怎么样还有数据
的分布一个什么样的形状
另外还有两点我们也需要关注一下啊
第一点叫做clusters and gaps
就是数据有没有特别的一些聚集就是
比如说在某一个取值范围里面它就是有一个特别
突然的这么的一个聚集
另外呢
有没有在某一些个取值之间它有一个
一个莫名其妙的一个大沟就是
这边没有取值是空的
有一个莫名的gaps
另外呢还有
特别重要的一个概念叫做异常值
outliers
我们
学统计的人损人的时候说这人特别
特别的时候我们都会说这人是一个outlier是一个异常值
异常值呢你就会发现有没有
个别的一两个观测值它和其它大部队特别远就是
异常值呢你就会发现有没有
个别的一两个观测值它和其它大部队特别远就是
它的取值
和其他值相比是特别出人意料的是不同的
异常值这是
总体来讲如果我画一个
定量型变量的图
我希望关注哪些个方面
那下面我们就来具体的看看
定量型的图到底有哪几种啊
其实很丰富啊我们这堂课可能只会提出我们比较
常用的方法
第一种特别简单叫做dotplot
点图
点图是众多的
方法里面最最容易画的一种方法啊
我们看这个例子
比如说
我想了解
美国的大学生
每个月到底花了多少钱租房子
于是乎我找了一大堆人分别问了一下
然后我就把它每个月在
租房上面的花费
画了一个点图长成这个样子
你会发现
大部分的人他的
租房的花费大概在三百五十到四百美金
每个月
然后还有一些
极端富有的学生
他可能
每个月花费的房租
有的人到了八百多美金
比去他的学生都多很多
那点图的特点简单
特别容易画然后你跟那个
R说一声我要一个doptlot
它就会画一个点图
那
它的缺点是什么
就是它对于小数据好像是比较有效的
但是如果你的数据很大的话
你就会发现满眼都是点啊有的同学
都会说我密集恐惧症发作了
所以点图并不能给你特别清楚的信息
这是关于点图
第二种图形叫做茎叶图
英文叫做stemplot
或者叫做stem and leaf plots
我们还是用刚才那个住房花费的例子啊
我们看同样
是研究住房花费到底形成一个什么分布
下面呢我就把
百位数当做树干我有二百三百
所以2当树干右边
六七分别代表的是
260美金还有270美金左右
这里你会发现我没有办法因为
没有办法一下在一个茎叶图里体现
那么多的信息我们就把个位数忽略了
所以大致上来看呢
我们可以看出一个总体的趋势
相比
后边我们讲的直方图
体现的信息更多点它优点是
它基本上可以体现出它每一个观测值的
具体取值
而且如果你一歪头你会发现这个图形的形状
和直方图的形状是类似的
但是它的缺点是
还是如果说
你的数据奇大无比啊
你看到的这些所谓的
具体取值也
只是一些数字就是你并不能
从这些数字中
提取到可以直接让你消化的信息
这是茎叶图
其实
我们每次将统计课的时候都会讲啊
但是我感觉应用的这个层面上并
不是特别的常用
还有第三种直方图这是我们
画图的时候最
默认的一种方法
就是你让我画图我一般想到的都是直方图
直方图
它是表达的是你看每个柱子的话
它表达的是相对频数
或者是直接的这个绝对频数
还是住房花费的例子
我们可以看到数据
大概成这样的一个分布
然后你会看到实际上我们会把
住房花费有所分组
比如说我说的可能不是
特别精确啊二百五到三百的
这个组里面有九个学生
然后三百到三百五有
十五个学生三百五到四百这边
这个柱子有十九个学生
每一个柱子的高度代表了在这一个组里有多少人
这是一个特别特别典型的直方图
那么有同学就会问了
画直方图的时候呢怎么分组呢
现在我其实是让R默认出了一种画图的方式啊
R默认的告诉我说它希望让每五十个人一组
那想象一下如果我这个人
今天抽风了啊我偏要说
我要让二百到九百
形成一组
你们想象一下这个图形会长成什么样子
那它其实就是一个大方块
对吧如果说
我在另一个集团抽风
我要每一个单位代表一组一美元代表一组
然后你就会发现一条摊得很开的全是小点的线
所以这个时候呢你就会发现
分组的选择
和直方图的具体形状有着非常密切的关系
那我们总结一下直方图的优缺点呢
好处
刚才说茎叶图像直方图那我们说直方图的好处呢第一它像茎叶图
然后对于大的数据
用直方图得到的信息其实它是非常直观的
那
它的缺点呢
如果你的数字量很小
想像一下如果你只有两个数三个数其实它不能给你什么有用的信息
另外在每一组里面你并不能清楚地看到比如说
我们回到刚才那张图
你并不能看到
三百到三百五之内
这个学生的住房花费的变化是什么
形状的
所以在组内的信息就丢失了
这是关于直方图的一个总结
那现在呢我们
图形的表达方式就是
定量变量的
绘图法基本上就讲完了
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video