当前课程知识点:基于R语言的社会统计分析 >  第二章:描述统计 >  2.4 描述统计方法 II: 绘图法 Graphical Method >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

频数分布表是学术界的宠儿虽然它

不是特别受大众传媒的欢迎但是它

一般社会科学研究呢

都是就是出一个频数表是你必须要做的事情

为什么呢因为我们通常需要更严谨的数据证明

就光给我看一个图一个大的趋势可能是不够的

但是呢有的时候

光看数字实在是很无聊所以我们要选择

更加吸引眼球的方法也就是

图示法

图示法

按照定性和定量变量呢

区分有不同的方法我们还是一个一个来说

首先我们来看看

定性型变量的图示方法

首先是柱状图

bar chart这个

用过excel的

这个图表制图功能的人可能都会用这是很简单的制图功能

柱图其实

还是用刚才那个例子啊就是

谁主要负责养老这个例子

你会看到这个图形大概

长成这个样子而且

比数字来讲你可能更能看出趋势

比如说你

很直入眼帘的大部分人

将近百分之五十的人都认为子女主要是负责养老

然后另一方面呢也有

较多的人认为呢应该是均摊责任的

我们

比较开心地发现认为

是老人自己应该负责的比率并不大是百分之五左右

那还是刚才数据那个例子

就是男性能力强还是女性能力强

数字我就不再重复了

通过一个柱图

你会比较清晰地看出数据比较的趋势

两边是基本上对称的啊你会发现大家

意见是呈两极化的趋势

有一部分有百分之三十二的人比较不同意

相反有百分之三十三的人是

比较同意的所以这个意见还是

比较有分歧的另外

我们还可以用柱图做一件很重要的事情啊

柱图还可以体现比较

还是回到男性能力是不是比女性强这件事

我看到这道题的

第一个反应觉得数字很

很令我气愤啊

因为我觉得为什么还会有

百分之四十多的人将近一半的人会对

同意说男性能力天生比女性强

那我下一个问题是

是只有男性这么认为呢还是女性也同意这个看法

于是乎我们就要把数据分成两半

我们看一下这个比较柱图

红色的代表女性

蓝色的代表男性

我们如果看比较的话

你会比较郁闷的发现其实

区别并不是很大

仍然有百分之三十多的

女性认为她们的能力确实不如男性

所以就不光是男性

认为女性能力不好我们女性自己也是这么认为的

所以呢柱图能体现一些比较的概念在里面

另外除了柱图以外我们在研究定性型变量的时候还会看一个图

叫做饼图

这个图

说实话在学术研究中

如果你去看学术期刊发表论文

非常少见 为什么呢

我们还是从刚才那个男性女性谁能力强那个例子来看

你看到一张饼图大概长成这个样子

五颜六色的摆在这以后你会发现一个问题

如果我不把数字放在上面

只给你一张大图的话

我问你是左边大还是右边大

是左上角那小扇子

面积大还是右上角那

那扇东西面积大呢

看不太清楚

但是呢大众传媒尤其是新闻联播

特别爱用这种方法尤其是爱出3D图

然后仔细你想想其实每扇占的面积是很难

有一个很清晰的表达的

所以如果说

你以后的这个

这个努力方向是学术研究的话

我建议你可以短期内把

饼图忘记好了

好下面我们来讲一讲定量型变量的绘图法

定量型变量相比

定性型变量呢它的表达会更丰富一点

有的时候呢正因为

太丰富了啊很多同学

特别倾向于做很多特别美丽的图

但是

画图的要点不是美而是要

体现最重要的特征

我们做

定量型变量的图的时候

有几点一直要记在心里就是我们画图到底要看什么

有三点特别重要

第一个我们希望知道整个数据的中心在什么地方

所以第一个center在哪里

另外我知道数据是以

什么样的形式分布的它的离散程度有多大

数据和数据每个观测点之间

到底有多不同所以这是spread

另外第三个shape

就是我想知道我这个数据到底是以什么样的形态分布的

shape呢这个形态有三种

第一种

很直观对称分布叫做symmetric distribution

对称分布顾名思义两边对称吗

如果把你数据的画一张图想象成一张纸你把纸一折叠

就会发现左边和右边是完全重合的

那第二种方法叫做左偏分布

英文叫做left-skewed distribution

那左偏分布

也就是说这个数据你把它

按照这个它的边缘画一条线的话

发现它的左尾巴

会长于它的右尾巴

所以左偏分布左尾长那与之对应的呢右偏分布就是右尾长

这里我要稍微提醒一点

有的时候

我不给你画图的时候

我让同学自己画一个左偏分布右偏分布

结果大家呢把偏的那边就

理解成小山包在哪里啊

然后就说如果是左偏分布的话小山包的

这个山峰就在左边

右偏分布呢山峰就在右边这是不对的啊

我们说坐票右偏分布的时候关注的是尾巴

哪边的尾巴长就属于什么分布

刚才说的是就是

画图的时候我们要注意三个

主要特征

包括数据的中心在哪里

数据的离散程度怎么样还有数据

的分布一个什么样的形状

另外还有两点我们也需要关注一下啊

第一点叫做clusters and gaps

就是数据有没有特别的一些聚集就是

比如说在某一个取值范围里面它就是有一个特别

突然的这么的一个聚集

另外呢

有没有在某一些个取值之间它有一个

一个莫名其妙的一个大沟就是

这边没有取值是空的

有一个莫名的gaps

另外呢还有

特别重要的一个概念叫做异常值

outliers

我们

学统计的人损人的时候说这人特别

特别的时候我们都会说这人是一个outlier是一个异常值

异常值呢你就会发现有没有

个别的一两个观测值它和其它大部队特别远就是
异常值呢你就会发现有没有

个别的一两个观测值它和其它大部队特别远就是

它的取值

和其他值相比是特别出人意料的是不同的

异常值这是

总体来讲如果我画一个

定量型变量的图

我希望关注哪些个方面

那下面我们就来具体的看看

定量型的图到底有哪几种啊

其实很丰富啊我们这堂课可能只会提出我们比较

常用的方法

第一种特别简单叫做dotplot

点图

点图是众多的

方法里面最最容易画的一种方法啊

我们看这个例子

比如说

我想了解

美国的大学生

每个月到底花了多少钱租房子

于是乎我找了一大堆人分别问了一下

然后我就把它每个月在

租房上面的花费

画了一个点图长成这个样子

你会发现

大部分的人他的

租房的花费大概在三百五十到四百美金

每个月

然后还有一些

极端富有的学生

他可能

每个月花费的房租

有的人到了八百多美金

比去他的学生都多很多

那点图的特点简单

特别容易画然后你跟那个

R说一声我要一个doptlot

它就会画一个点图

它的缺点是什么

就是它对于小数据好像是比较有效的

但是如果你的数据很大的话

你就会发现满眼都是点啊有的同学

都会说我密集恐惧症发作了

所以点图并不能给你特别清楚的信息

这是关于点图

第二种图形叫做茎叶图

英文叫做stemplot

或者叫做stem and leaf plots

我们还是用刚才那个住房花费的例子啊

我们看同样

是研究住房花费到底形成一个什么分布

下面呢我就把

百位数当做树干我有二百三百

所以2当树干右边

六七分别代表的是

260美金还有270美金左右

这里你会发现我没有办法因为

没有办法一下在一个茎叶图里体现

那么多的信息我们就把个位数忽略了

所以大致上来看呢

我们可以看出一个总体的趋势

相比

后边我们讲的直方图

体现的信息更多点它优点是

它基本上可以体现出它每一个观测值的

具体取值

而且如果你一歪头你会发现这个图形的形状

和直方图的形状是类似的

但是它的缺点是

还是如果说

你的数据奇大无比啊

你看到的这些所谓的

具体取值也

只是一些数字就是你并不能

从这些数字中

提取到可以直接让你消化的信息

这是茎叶图

其实

我们每次将统计课的时候都会讲啊

但是我感觉应用的这个层面上并

不是特别的常用

还有第三种直方图这是我们

画图的时候最

默认的一种方法

就是你让我画图我一般想到的都是直方图

直方图

它是表达的是你看每个柱子的话

它表达的是相对频数

或者是直接的这个绝对频数

还是住房花费的例子

我们可以看到数据

大概成这样的一个分布

然后你会看到实际上我们会把

住房花费有所分组

比如说我说的可能不是

特别精确啊二百五到三百的

这个组里面有九个学生

然后三百到三百五有

十五个学生三百五到四百这边

这个柱子有十九个学生

每一个柱子的高度代表了在这一个组里有多少人

这是一个特别特别典型的直方图

那么有同学就会问了

画直方图的时候呢怎么分组呢

现在我其实是让R默认出了一种画图的方式啊

R默认的告诉我说它希望让每五十个人一组

那想象一下如果我这个人

今天抽风了啊我偏要说

我要让二百到九百

形成一组

你们想象一下这个图形会长成什么样子

那它其实就是一个大方块

对吧如果说

我在另一个集团抽风

我要每一个单位代表一组一美元代表一组

然后你就会发现一条摊得很开的全是小点的线

所以这个时候呢你就会发现

分组的选择

和直方图的具体形状有着非常密切的关系

那我们总结一下直方图的优缺点呢

好处

刚才说茎叶图像直方图那我们说直方图的好处呢第一它像茎叶图

然后对于大的数据

用直方图得到的信息其实它是非常直观的

它的缺点呢

如果你的数字量很小

想像一下如果你只有两个数三个数其实它不能给你什么有用的信息

另外在每一组里面你并不能清楚地看到比如说

我们回到刚才那张图

你并不能看到

三百到三百五之内

这个学生的住房花费的变化是什么

形状的

所以在组内的信息就丢失了

这是关于直方图的一个总结

那现在呢我们

图形的表达方式就是

定量变量的

绘图法基本上就讲完了

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。