9079433

当前课程知识点:基于R语言的社会统计分析 >  第二章:描述统计 >  2.5 描述统计方法 III: 数值法 Numerical Method >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:第二章 (第一部分)测量与变量

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

下面我们来讲一讲数值法

数值法和前面图示法和图表法相比呢可能

没有那么酷炫没有那么fancy

相比而言呢

全是数字的表达可能会比较枯燥一点

但是呢数值法有它的好处就是它的精确性

我们做学术研究是没法避免的

那用数值法描述数据的时候我们关注的是什么呢

同样我们关注三个主要特征

第一个这是和图示法对应的

第一个特征是集中趋势

数据的中心在什么地方

另外呢数据的离散程度怎么样

也就是观测值和观测值之间有多不同

第三个呢就是位置或者相对位置的测量

好下面我们就把每一个维度的

统计量给大家介绍一下

好首先我们看看数据的

集中趋势集中趋势的英文叫做central tendency

我们想知道

整个数据的中心在什么地方

那描述

数据中心的测量有两种

一个叫做

均值这就是我们经常说的mean啊

均值呢

有的同学经常

感觉有点混淆啊我们有的时候

谈均值有的时候谈平均数

那我稍微这里面

给大家清晰一下啊

均值其实就是一种平均数它是算术平均数

我们上中学的时候学过好多好多种

平均数的形式如果你还记得

我们学过算术平均数学过几何平均数

那算术平均数是我们所说的均值

前面说均值是数据的中心

然后整个数据在均值这一点达到了平衡

那均值的定义刚才已经说了啊算术平均数

很简单我们现在只是明确一下它的符号

对于

总体的均值我们

说一沾总体我们用希腊字母表达

所以后面我们也会经常面对这个词啊μ

μ代表

总体的均值也就是把所有的

观测值加和

除以总体里面的

研究对象的总数

就是总体平均值

那与之相对应的

我们说总体是你的理想样本是你的现实

我们要了解样本的平均值

说样本的均值怎么计算

我们也是只是明确一下符号

样本均值呢叫做

通常叫做x(bar)

我记得我高中的数学老师经常很霸气的叫它X拔

说x一拔你们可能亲切感更有

x(bar)它就是把样本里面

所有的观测值加和然后除以样本量小n

前面是除以大N现在是除以小n

那下面我

让大家考虑一下啊这个

有没有什么缺点

为什么有的时候你听新闻的时候我们会说

中位数不用均值

均值有一个问题就是它容易受到

异常值的影响

怎么理解呢

假设说我今天对一个问题感兴趣

在座的同学们这个

兜里都揣了多少零花钱

假设说

面对我的有十个学生

然后我就问你们兜里都揣了多少钱啊

前面九个学生

很贫困都说我兜里就一块钱

结果有一个同学

特别的财大气粗说我今天带了一万块钱

那把他们的所有的观测值加和

再除以一个十得到多少钱呢

发现

整个班里面十个同学的

兜里零花钱的平均值是一千块钱

严谨的说一千点九元

其实

百分之九十的人其中的九个人兜里都揣了一块钱

这说明什么

如果用简单的均值来计算全班同学带的零花钱的平均数

它很大的

被右边的那个极大值拉扯了

所以均值呢有的时候

并不是我们最理想的对数据中心的表达

我们就需要另外一种方法中位数

中位数呢

上初中的时候就学过了

中位数是什么

如果我把我手头所有的观测值排序从小到大排

假设说

你有奇数个数

那处于数据

最中间位置的就是中位数

那如果你有偶数个观测值

那就是整个数据中间两个数的均值就是中位数

刚才说我们

看新闻一说收入

就说收入中位数为什么啊

总是有过于有钱的人

极大的拉扯着我们的平均收入啊

所以呢一说收入我们希望用中位数来表达

它呢

不太容易受异常值的影响

这是中位数和

均值的区别

刚才说的是对集中趋势

central tendency的测量

那下面我们要测量变异性我想知道

数据和数据之间

是不是差了十万八千里啊

这就是关于measures of variation

measures of variation它

总结的是什么

总结的是数据到底它的分散程度怎么样

也就是说

每个观测值之间的距离到底有

多大

那怎么样去测量这个距离我们有三种方法

一种方法叫做极差

另一种方法叫做四分位差还有最后

是最最重要的方法叫做标准差

我们一个一个来说啊极差

这个

很多同学

简直说你们侮辱我智商呢说极差是

再简单不过了

把数据的最大值减去最小值得出的那个范围我们说range就是极差

对 所以极差

有好处啊特别好理解

那缺点是什么

如果说你两边的都是异常值

那得出的这个极差其实对你总体的

特征总体的离散程度并没有任何的代表性

下面我们说说什么是四分位差

四分位差好像用的不是太多啊

但是相比于四分位差你应该更熟悉四分位数

也就是说如果我把

所有的数据从小到大排序

那处于数据四分之一位置的

和处于数据四分之三位置的数的差距

就是四分位差interquartile range

四分位差和极差相比

好处在于

它去掉了异常值的影响

好最后

很重要的一个概念标准差standard deviation

简称SD

我们后面经常会解说我想知道

某个观测值和均值之间有

多少个标准差的距离那这个标准差是什么

首先和均值一样我们要分总体的标准差和样本的标准差

总体的标准差又是用希腊字母表达了

好多同学学到最后也不太记得这个字幕怎么发音

σ

带一小尾巴的sigma我们把它发音成sigma

这个σ呢

怎么计算的

经常我到这个

部分的时候有的同学开始睡了

就说老师我们不要推导其实

这个推导

不是推导啊只是一个定义非常非常好理解啊

我现在给大家解释一下啊

开大根号咱们现在先不说啊

Xi减μ代表的是什么

很简单就是每一个观测值和均值之间的差距

i代表样本中的

第i个观测值

然后

没个观测值和总体均值之间的差别

为什么要给一个平方

我如果一个

数比总体均值大好多

另一个数比总体均值小好多

我想了解整个这个总体里面数和数之间有多不同

正负抵消了发现数和数之间没有变化

我们还害怕这种正负抵消于是就要给一个平方

一般情况下就像我们上数学课老学的

一般沾距离的时候我们都

要么给一个绝对值要么给一个平方体现它的绝对距离

然后给完平方以后

我要代表的是整个总体里的每一个研究对象

所以要把

所有的研究对象加和

所以从i到大的

总体的这个

研究对象的数N要把它们加和起来

然后平均一下除以N

因为刚才有平方所以现在开个根号把它还原回来

其实你把它这么拆分完了以后

并不难理解了总体的标准差

代表的就是

每个观测值和总体均值之间

距离的平方之和

距离平方距离之和的均值

再开个根号很简单

然后下面呢我们要看看什么是样本标准差

讲样本标准差的时候可能

有些同学很纠结啊

上面看起来很正常我们只是把

总体的均值μ

替代成了

样本的均值x(bar)

但是下面为什么由大N变成了N减一呢

每个同学都会有这种问题

每次我在解答这个问题的时候都会

用很长的推导去说服你

这里面我就

不花时间去推导说为什么

需要用N减一了

大家有兴趣的同学可以看这周的补充材料看证明的过程

标准差的优缺点是什么

标准差大家可以看到这个公式里面有

总体的均值有样本的均值

所以标准差自然是从均值这个体系发展起来的

前面说均值受异常值的影响

那很显然受牵连的标准差也收到异常值的影响

当然它的好处是整个

研究对象

每一个研究对象都被我们考虑在内了

这是关于标准差的定义

下面呢标准差

还有一些特性我们来

聊一聊标准差的特性啊

首先

标准差有没有单位

如果我回到前面那个公式来看的话

你会发现标准差一定是有单位的

而且原本的数值是什么单位标准差也是什么单位

原来你测量的

变量是距离那标准差的单位

也是距离米或者厘米

然后

同时这个概念非常重要

标准差本身

可以被作为

一个单位使用

就是说标准差自己就可以是一个叫做

标准差的单位

一个标准差两个标准差三个标准差

后面我们在讲测量位置的时候我们会讲标准差当成

位置使用的时候怎么去用它

然后

如果说你的标准差等于零

这是代表的什么意思

如果你的标准差等于零

代表

整个的总体里面

每一个观测值的取值是一模一样的

总体里面没有变化

观测值是相同的是identical的

然后下面

另外标准差和方差的关系

我们后面也会经常提到方差

标准差是开根号的方差就是不开根号而已

方差永远是一个正数

最后

标准差越大

代表什么

代表数据的离散程度越大

数据的离散程度大是好事是坏事

其实如果说

你希望你的总结性统计量非常有代表性的时候

我们其实不希望数据有很大的变异

为什么

数据每个观测值之间

都那么的不同

我怎么样找到一个统一的

统计量去代表整个的特征呢

所以实际上对于很多很多的研究

一个

大的标准差是我们最最不希望看到的事情

好 最后

我们来聊聊位置

或者是相对位置的测量

相对位置的测量呢也有

三个比较常用的测量方式

一个叫做四分位数

quartile其实刚才在介绍

四分位差的时候已经提到了

四分位数就是把数据切成四份

把中间切了三刀那三刀的位置

在什么地方

四分位数原来干什么

比如说

你是一个中学生

老师总是希望跟家长报告说你在

班里处于什么样的位置

你是属于班里前面学习好的那个小分队呢

还是中上呢还是中下呢还是

快要不及格最次的那个团队

所以四分位数基本上是把整个的观测值大致上分为了四组

最高级的

最高级的是前百分之二十五然后中间

百分之五十到百分之二十五然后再后面以此类推

然后很多同学在这个

关注自己成绩的时候总是关注说我一定要变成top10

或者是top10percent

前百分之十第一梯队的人

然后下面

和四分位数十分相似百分位数

百分位数就是把整个所有的观测值

切了九十九刀

分了一百份

然后中间那九十九刀的位置

分别在什么地方也是好理解的

下面我们来讲讲从

标准差那发展出来的一个概念叫标准计分

英文叫做standardized score或者叫做z-score

我们中文呢不同的翻译

好多好多种翻译我们管它叫做标准计分

有的时候叫标准得分

有的时候叫标准化计分

有的时候叫z计分很多种方法

大致上你看到这几个字的

存在你就知道他说的实际上是一个意思

这个z得分是

我们最最常用的

比较科学的

描述位置的一个变量

它是什么东西呢

我有的时候跟这个

课堂上的学生讲说有的时候

z-score你做梦都应该梦到

这个数是怎么算的因为后面这个数实在是太常用了

z-score等于

观测值减均值再除以标准差

观测值的取值

减均值除标差

减μ除以SD啊

很好理解我们来看看这个公式啊

观测值减去均值那代表的就是

每个观测值和均值之间的距离

这个距离除以标准差

我们前面讲说

标准差本身

就可以被作为一个单位来理解

所以减均值除标差呢代表的就是

每个观测值之间

和均值相差了

多少个标准差的距离

我们

为什么要测这个距离

为什么要用标准差

作为单位来测量相对位置

这是因为很多时候数据的分布不一样

有的时候不仅是数据的分布不一样数据的

单位也不一样

假设说我想知道一个人

在不同的维度上处于什么位置

比如说我想了解一个人的社会经济地位

我就想知道

这个人在收入上

处于全世界的什么地位

我又想知道这个人的

教育水平上处于全世界所有人的什么地方

在比较的时候

教育年限的单位是年

然后收入的单位呢

可能有的国家是元有的国家是

美元有的时候是克朗有的时候是英镑

这个单位不同

为了使不同单位来自不同分布的

个体

有可比性我们需要选择一种

标准的方法那标准积分就是我们

不得不选择的一个途径了

好下面我们来举一个例子

让大家更好的理解这个标准记分是怎么

达到位置的比较的

这是一个假想的例子

假设在美国有两个城市

我们有南岸城市叫做south bend

还有一个北岸城市north bend

这两个城市呢可以把它理解成

中国的南北方比如北京和广州

城市的温度呢很不一样

比如说south bend 南岸城市

它的年平均气温是

八十华氏度

然后它的标准差是十二

相对于它呢

北岸城市温度更高一点

这个可能和我们北京广州相反了

它的年平均气温是

八十四度

然后它的标准差仅为四

说北岸城市很稳定啊气温

每个月每个月之间的气温变化不大

假设昨天呢

天气预报报了一个说九十五度这样的温度

然后我就想知道九十五度

奇怪不奇怪

然后在这两个城市

里面呢九十五度在哪个城市显得更加异常

怎么比较呢

那就算标准计分

我们用九十五减去

八十除以十二这就是在南岸城市

九十五度和全年的气温

均值八十度之间相差了多少个标准差的距离

得出来相差了一点二五个

标准差的距离

那在北岸城市呢

因为北岸城市呢一贯很稳定在八十四度左右摇晃

结果昨天

得出九十五度了

这个九十五度呢和全年八十四度呢相差了

二点七五个标准差

的距离

所以九十五度对于北岸城市是更奇怪的

所以通过计算标准计分

我们实际上能够对

某一个数字在两个分部里面的相对分布位置

得到一个更客观的测量

描述统计的最后一个部分我们来讲一下箱线图

箱线图呢是一种绘图方法但是我们没有放在前面绘图

方法里面讲是因为

在介绍具体的数值法之前我们还可能比较

难理解箱线图这个概念

箱线图是干什么的呢

它是用来

鉴别异常值就是看数据里有没有异常值

另外呢它也想看看这个数据整个

的形态是什么样子的

英文其实

相对于中文更好理解一点啊

box plot其实是它的简称

我们把箱线图的全称

给大家显示出来了它叫box-and-whiskers plot

whisker什么意思

它代表的是猫的胡子

猫在

过一个小洞的时候它

总是要用胡子去试一试要是胡子过去了那它的整个身体就过去了

那实际上我们画箱线图的时候这个胡子是干嘛的

胡子是测量有没有异常值的

如果有一个观测值

在胡子外面那它就奇怪了

如果有一个观测值在胡子里面

的话那它不够奇怪属于我整个数据里面的大趋势

我们来具体的看一看箱线图长成什么样子

我这里面显示的呢

你们可能比较熟悉啊和刚才那个数据一样我仍然

想看的是美国学生在租房子花费

了多少美金

和刚才的数据一样其实大数据的趋势你可以看到

这个图显示出来整个数据形成一个右偏分布

也是右尾长还是富的学生比较多怎么看出来的呢

我们先看看中间那个方块啊

我们一般考大家箱线图

是哪个线是代表什么意思总要问中间那个方块

左边中间还有右边的线都代表的是什么

首先我们来看左边

代表的是第一四分位数

中间这条比较

粗的线代表的是

中位数数据的中心在什么地方

然后右边和左边对应代表的是第三四分位数

右边有三个跳出来的小点

猫在过墙的时候过洞的时候试出来了说这三个

点呢太远了所以它们是异常值

但是我每次问同学啊问他们

这两条线段就是

小方块这两段的这两条线段代表的是什么意思

发现大家众说纷纭啊

比较常见的答案直接就说说左边这条线段代表的是

最小值右边这个端点代表的是最大值

其实并不是这样的

左边代表什么和右边代表什么和这个胡子

的长度还有数据中有没有异常值

有很重要的关系

我们就拿这个住房花费这张图为例啊

左边没有点

那我可以很负责任的告诉你说

左边代表的是整个数据的最小值

那右边的这个端点代表了什么呢

代表的是第三四分位数加上

一点五倍四分位差的取值

也就是说

在画这两个观点之前首先我们要计算一下猫的胡子

有多长就是我们的

尺度到底是什么

胡子怎么计算呢

我们首先对数据要有一个

最小的端点和

最大的端点的定义

有一个lower bound

lower bound 的计算呢是

第一四分位数减去

一点五倍的IQR IQR代表的是四分位差

那upper bound

它代表的是第三四分位数加上

一点五倍的IQR

所以每次拿到一个观测值我

都要和lower bound 和upper bound 去对比

如果我的最小值

比上我胡子的最小值要大的话

之前显示的那个端点就直接是真是的最小值

那右边如果我的最大值

比真正的胡子的右端点要大

说明这个观测值

离实际的其它数据太远了那它就是一个异常值

这是关于箱线图

大家要把箱线图这个

时刻记住啊我是

一只猫我在试这个洞的宽窄

那我用胡子呢要试的就是异常值在不在我的整个的数据范围之内

这是关于箱线图的理解

以上呢我们就讲完了

整个描述统计的方法现在我们

可以简单回顾一下描述统计大概分为三个大的方法

有制表法我们做了频数分布法

频数分布发我们又分了两种对分类变量怎么做

定类变量怎么做定量变量怎么做

然后呢我们又讲了讲绘图法

绘图法呢又分了两种

我们对定类变量介绍两种绘图法一个是

柱图柱状图

另外一个是并不被我们

看好的饼图

我们说除了看起来好吃以外没有什么别的用处

然后呢对于定量性变量

我们有好多好多种图形比如说我们有点图

比如说茎叶图还有直方图

讲完了图形以后我们讲了

数值法我们说数值法关注

三件大事

一个是数据的集中趋势一个是数据的离散程度还有

数据的相对位置

在集中趋势里面我们有均值还有中位数

然后离散程度呢我们有极差四分位差还有标准差

最后在

测量数据的相对位置时候

我们用四分位数还有百分位数最后还有标准差

以上就是我们这周学习的主要内容

希望你有所收获

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。