当前课程知识点:基于R语言的社会统计分析 > 第二章:描述统计 > 2.5 描述统计方法 III: 数值法 Numerical Method > Video
下面我们来讲一讲数值法
数值法和前面图示法和图表法相比呢可能
没有那么酷炫没有那么fancy
相比而言呢
全是数字的表达可能会比较枯燥一点
但是呢数值法有它的好处就是它的精确性
我们做学术研究是没法避免的
那用数值法描述数据的时候我们关注的是什么呢
同样我们关注三个主要特征
第一个这是和图示法对应的
第一个特征是集中趋势
数据的中心在什么地方
另外呢数据的离散程度怎么样
也就是观测值和观测值之间有多不同
第三个呢就是位置或者相对位置的测量
好下面我们就把每一个维度的
统计量给大家介绍一下
好首先我们看看数据的
集中趋势集中趋势的英文叫做central tendency
我们想知道
整个数据的中心在什么地方
那描述
数据中心的测量有两种
一个叫做
均值这就是我们经常说的mean啊
均值呢
有的同学经常
感觉有点混淆啊我们有的时候
谈均值有的时候谈平均数
那我稍微这里面
给大家清晰一下啊
均值其实就是一种平均数它是算术平均数
我们上中学的时候学过好多好多种
平均数的形式如果你还记得
我们学过算术平均数学过几何平均数
那算术平均数是我们所说的均值
前面说均值是数据的中心
然后整个数据在均值这一点达到了平衡
那均值的定义刚才已经说了啊算术平均数
很简单我们现在只是明确一下它的符号
对于
总体的均值我们
说一沾总体我们用希腊字母表达
所以后面我们也会经常面对这个词啊μ
μ代表
总体的均值也就是把所有的
观测值加和
除以总体里面的
研究对象的总数
就是总体平均值
那与之相对应的
我们说总体是你的理想样本是你的现实
我们要了解样本的平均值
说样本的均值怎么计算
我们也是只是明确一下符号
样本均值呢叫做
通常叫做x(bar)
我记得我高中的数学老师经常很霸气的叫它X拔
说x一拔你们可能亲切感更有
x(bar)它就是把样本里面
所有的观测值加和然后除以样本量小n
前面是除以大N现在是除以小n
那下面我
让大家考虑一下啊这个
有没有什么缺点
为什么有的时候你听新闻的时候我们会说
中位数不用均值
均值有一个问题就是它容易受到
异常值的影响
怎么理解呢
假设说我今天对一个问题感兴趣
在座的同学们这个
兜里都揣了多少零花钱
假设说
面对我的有十个学生
然后我就问你们兜里都揣了多少钱啊
前面九个学生
很贫困都说我兜里就一块钱
结果有一个同学
特别的财大气粗说我今天带了一万块钱
那把他们的所有的观测值加和
再除以一个十得到多少钱呢
发现
整个班里面十个同学的
兜里零花钱的平均值是一千块钱
严谨的说一千点九元
其实
百分之九十的人其中的九个人兜里都揣了一块钱
这说明什么
如果用简单的均值来计算全班同学带的零花钱的平均数
它很大的
被右边的那个极大值拉扯了
所以均值呢有的时候
并不是我们最理想的对数据中心的表达
我们就需要另外一种方法中位数
中位数呢
上初中的时候就学过了
中位数是什么
如果我把我手头所有的观测值排序从小到大排
假设说
你有奇数个数
那处于数据
最中间位置的就是中位数
那如果你有偶数个观测值
那就是整个数据中间两个数的均值就是中位数
刚才说我们
看新闻一说收入
就说收入中位数为什么啊
总是有过于有钱的人
极大的拉扯着我们的平均收入啊
所以呢一说收入我们希望用中位数来表达
它呢
不太容易受异常值的影响
这是中位数和
均值的区别
刚才说的是对集中趋势
central tendency的测量
那下面我们要测量变异性我想知道
数据和数据之间
是不是差了十万八千里啊
这就是关于measures of variation
measures of variation它
总结的是什么
总结的是数据到底它的分散程度怎么样
也就是说
每个观测值之间的距离到底有
多大
那怎么样去测量这个距离我们有三种方法
一种方法叫做极差
另一种方法叫做四分位差还有最后
是最最重要的方法叫做标准差
我们一个一个来说啊极差
这个
很多同学
简直说你们侮辱我智商呢说极差是
再简单不过了
把数据的最大值减去最小值得出的那个范围我们说range就是极差
对 所以极差
有好处啊特别好理解
那缺点是什么
如果说你两边的都是异常值
那得出的这个极差其实对你总体的
特征总体的离散程度并没有任何的代表性
下面我们说说什么是四分位差
四分位差好像用的不是太多啊
但是相比于四分位差你应该更熟悉四分位数
也就是说如果我把
所有的数据从小到大排序
那处于数据四分之一位置的
数
和处于数据四分之三位置的数的差距
就是四分位差interquartile range
四分位差和极差相比
好处在于
它去掉了异常值的影响
好最后
很重要的一个概念标准差standard deviation
简称SD
我们后面经常会解说我想知道
某个观测值和均值之间有
多少个标准差的距离那这个标准差是什么
首先和均值一样我们要分总体的标准差和样本的标准差
总体的标准差又是用希腊字母表达了
好多同学学到最后也不太记得这个字幕怎么发音
σ
带一小尾巴的sigma我们把它发音成sigma
这个σ呢
怎么计算的
经常我到这个
部分的时候有的同学开始睡了
就说老师我们不要推导其实
这个推导
不是推导啊只是一个定义非常非常好理解啊
我现在给大家解释一下啊
开大根号咱们现在先不说啊
Xi减μ代表的是什么
很简单就是每一个观测值和均值之间的差距
i代表样本中的
第i个观测值
然后
没个观测值和总体均值之间的差别
为什么要给一个平方
我如果一个
数比总体均值大好多
另一个数比总体均值小好多
我想了解整个这个总体里面数和数之间有多不同
正负抵消了发现数和数之间没有变化
我们还害怕这种正负抵消于是就要给一个平方
一般情况下就像我们上数学课老学的
一般沾距离的时候我们都
要么给一个绝对值要么给一个平方体现它的绝对距离
然后给完平方以后
我要代表的是整个总体里的每一个研究对象
所以要把
所有的研究对象加和
所以从i到大的
总体的这个
研究对象的数N要把它们加和起来
然后平均一下除以N
因为刚才有平方所以现在开个根号把它还原回来
其实你把它这么拆分完了以后
并不难理解了总体的标准差
代表的就是
每个观测值和总体均值之间
距离的平方之和
距离平方距离之和的均值
再开个根号很简单
然后下面呢我们要看看什么是样本标准差
讲样本标准差的时候可能
有些同学很纠结啊
上面看起来很正常我们只是把
总体的均值μ
替代成了
样本的均值x(bar)
但是下面为什么由大N变成了N减一呢
每个同学都会有这种问题
每次我在解答这个问题的时候都会
用很长的推导去说服你
这里面我就
不花时间去推导说为什么
需要用N减一了
大家有兴趣的同学可以看这周的补充材料看证明的过程
那
标准差的优缺点是什么
标准差大家可以看到这个公式里面有
总体的均值有样本的均值
所以标准差自然是从均值这个体系发展起来的
前面说均值受异常值的影响
那很显然受牵连的标准差也收到异常值的影响
当然它的好处是整个
研究对象
每一个研究对象都被我们考虑在内了
这是关于标准差的定义
下面呢标准差
还有一些特性我们来
聊一聊标准差的特性啊
首先
标准差有没有单位
如果我回到前面那个公式来看的话
你会发现标准差一定是有单位的
而且原本的数值是什么单位标准差也是什么单位
原来你测量的
变量是距离那标准差的单位
也是距离米或者厘米
然后
同时这个概念非常重要
标准差本身
可以被作为
一个单位使用
就是说标准差自己就可以是一个叫做
标准差的单位
一个标准差两个标准差三个标准差
后面我们在讲测量位置的时候我们会讲标准差当成
位置使用的时候怎么去用它
然后
如果说你的标准差等于零
这是代表的什么意思
如果你的标准差等于零
代表
整个的总体里面
每一个观测值的取值是一模一样的
总体里面没有变化
观测值是相同的是identical的
然后下面
另外标准差和方差的关系
我们后面也会经常提到方差
标准差是开根号的方差就是不开根号而已
方差永远是一个正数
最后
标准差越大
代表什么
代表数据的离散程度越大
数据的离散程度大是好事是坏事
其实如果说
你希望你的总结性统计量非常有代表性的时候
我们其实不希望数据有很大的变异
为什么
数据每个观测值之间
都那么的不同
我怎么样找到一个统一的
统计量去代表整个的特征呢
所以实际上对于很多很多的研究
一个
大的标准差是我们最最不希望看到的事情
好 最后
我们来聊聊位置
或者是相对位置的测量
相对位置的测量呢也有
三个比较常用的测量方式
一个叫做四分位数
quartile其实刚才在介绍
四分位差的时候已经提到了
四分位数就是把数据切成四份
把中间切了三刀那三刀的位置
在什么地方
四分位数原来干什么
比如说
你是一个中学生
老师总是希望跟家长报告说你在
班里处于什么样的位置
你是属于班里前面学习好的那个小分队呢
还是中上呢还是中下呢还是
快要不及格最次的那个团队
所以四分位数基本上是把整个的观测值大致上分为了四组
最高级的
最高级的是前百分之二十五然后中间
百分之五十到百分之二十五然后再后面以此类推
然后很多同学在这个
关注自己成绩的时候总是关注说我一定要变成top10
或者是top10percent
前百分之十第一梯队的人
然后下面
和四分位数十分相似百分位数
百分位数就是把整个所有的观测值
切了九十九刀
分了一百份
然后中间那九十九刀的位置
分别在什么地方也是好理解的
下面我们来讲讲从
标准差那发展出来的一个概念叫标准计分
英文叫做standardized score或者叫做z-score
我们中文呢不同的翻译
好多好多种翻译我们管它叫做标准计分
有的时候叫标准得分
有的时候叫标准化计分
有的时候叫z计分很多种方法
大致上你看到这几个字的
存在你就知道他说的实际上是一个意思
这个z得分是
我们最最常用的
比较科学的
描述位置的一个变量
它是什么东西呢
我有的时候跟这个
课堂上的学生讲说有的时候
z-score你做梦都应该梦到
这个数是怎么算的因为后面这个数实在是太常用了
z-score等于
观测值减均值再除以标准差
观测值的取值
减均值除标差
减μ除以SD啊
很好理解我们来看看这个公式啊
观测值减去均值那代表的就是
每个观测值和均值之间的距离
这个距离除以标准差
我们前面讲说
标准差本身
就可以被作为一个单位来理解
所以减均值除标差呢代表的就是
每个观测值之间
和均值相差了
多少个标准差的距离
我们
为什么要测这个距离
为什么要用标准差
作为单位来测量相对位置
这是因为很多时候数据的分布不一样
有的时候不仅是数据的分布不一样数据的
单位也不一样
假设说我想知道一个人
在不同的维度上处于什么位置
比如说我想了解一个人的社会经济地位
我就想知道
这个人在收入上
处于全世界的什么地位
我又想知道这个人的
教育水平上处于全世界所有人的什么地方
在比较的时候
教育年限的单位是年
然后收入的单位呢
可能有的国家是元有的国家是
美元有的时候是克朗有的时候是英镑
这个单位不同
为了使不同单位来自不同分布的
个体
有可比性我们需要选择一种
标准的方法那标准积分就是我们
不得不选择的一个途径了
好下面我们来举一个例子
让大家更好的理解这个标准记分是怎么
达到位置的比较的
这是一个假想的例子
假设在美国有两个城市
我们有南岸城市叫做south bend
还有一个北岸城市north bend
这两个城市呢可以把它理解成
中国的南北方比如北京和广州
城市的温度呢很不一样
比如说south bend 南岸城市
它的年平均气温是
八十华氏度
然后它的标准差是十二
相对于它呢
北岸城市温度更高一点
这个可能和我们北京广州相反了
它的年平均气温是
八十四度
然后它的标准差仅为四
说北岸城市很稳定啊气温
每个月每个月之间的气温变化不大
假设昨天呢
天气预报报了一个说九十五度这样的温度
然后我就想知道九十五度
奇怪不奇怪
然后在这两个城市
里面呢九十五度在哪个城市显得更加异常
怎么比较呢
那就算标准计分
我们用九十五减去
八十除以十二这就是在南岸城市
九十五度和全年的气温
均值八十度之间相差了多少个标准差的距离
得出来相差了一点二五个
标准差的距离
那在北岸城市呢
因为北岸城市呢一贯很稳定在八十四度左右摇晃
结果昨天
得出九十五度了
这个九十五度呢和全年八十四度呢相差了
二点七五个标准差
的距离
所以九十五度对于北岸城市是更奇怪的
所以通过计算标准计分
我们实际上能够对
某一个数字在两个分部里面的相对分布位置
得到一个更客观的测量
描述统计的最后一个部分我们来讲一下箱线图
箱线图呢是一种绘图方法但是我们没有放在前面绘图
方法里面讲是因为
在介绍具体的数值法之前我们还可能比较
难理解箱线图这个概念
箱线图是干什么的呢
它是用来
鉴别异常值就是看数据里有没有异常值
另外呢它也想看看这个数据整个
的形态是什么样子的
英文其实
相对于中文更好理解一点啊
box plot其实是它的简称
我们把箱线图的全称
给大家显示出来了它叫box-and-whiskers plot
whisker什么意思
它代表的是猫的胡子
猫在
过一个小洞的时候它
总是要用胡子去试一试要是胡子过去了那它的整个身体就过去了
那实际上我们画箱线图的时候这个胡子是干嘛的
胡子是测量有没有异常值的
如果有一个观测值
在胡子外面那它就奇怪了
如果有一个观测值在胡子里面
的话那它不够奇怪属于我整个数据里面的大趋势
我们来具体的看一看箱线图长成什么样子
我这里面显示的呢
你们可能比较熟悉啊和刚才那个数据一样我仍然
想看的是美国学生在租房子花费
了多少美金
和刚才的数据一样其实大数据的趋势你可以看到
这个图显示出来整个数据形成一个右偏分布
也是右尾长还是富的学生比较多怎么看出来的呢
我们先看看中间那个方块啊
我们一般考大家箱线图
是哪个线是代表什么意思总要问中间那个方块
左边中间还有右边的线都代表的是什么
首先我们来看左边
代表的是第一四分位数
中间这条比较
粗的线代表的是
中位数数据的中心在什么地方
然后右边和左边对应代表的是第三四分位数
右边有三个跳出来的小点
猫在过墙的时候过洞的时候试出来了说这三个
点呢太远了所以它们是异常值
但是我每次问同学啊问他们
这两条线段就是
小方块这两段的这两条线段代表的是什么意思
发现大家众说纷纭啊
比较常见的答案直接就说说左边这条线段代表的是
最小值右边这个端点代表的是最大值
其实并不是这样的
左边代表什么和右边代表什么和这个胡子
的长度还有数据中有没有异常值
有很重要的关系
我们就拿这个住房花费这张图为例啊
左边没有点
那我可以很负责任的告诉你说
左边代表的是整个数据的最小值
那右边的这个端点代表了什么呢
代表的是第三四分位数加上
一点五倍四分位差的取值
也就是说
在画这两个观点之前首先我们要计算一下猫的胡子
有多长就是我们的
尺度到底是什么
胡子怎么计算呢
我们首先对数据要有一个
最小的端点和
最大的端点的定义
有一个lower bound
lower bound 的计算呢是
第一四分位数减去
一点五倍的IQR IQR代表的是四分位差
那upper bound
它代表的是第三四分位数加上
一点五倍的IQR
所以每次拿到一个观测值我
都要和lower bound 和upper bound 去对比
如果我的最小值
比上我胡子的最小值要大的话
那
之前显示的那个端点就直接是真是的最小值
那右边如果我的最大值
比真正的胡子的右端点要大
说明这个观测值
离实际的其它数据太远了那它就是一个异常值
这是关于箱线图
大家要把箱线图这个
时刻记住啊我是
一只猫我在试这个洞的宽窄
那我用胡子呢要试的就是异常值在不在我的整个的数据范围之内
这是关于箱线图的理解
以上呢我们就讲完了
整个描述统计的方法现在我们
可以简单回顾一下描述统计大概分为三个大的方法
有制表法我们做了频数分布法
频数分布发我们又分了两种对分类变量怎么做
定类变量怎么做定量变量怎么做
然后呢我们又讲了讲绘图法
绘图法呢又分了两种
我们对定类变量介绍两种绘图法一个是
柱图柱状图
另外一个是并不被我们
看好的饼图
我们说除了看起来好吃以外没有什么别的用处
然后呢对于定量性变量
我们有好多好多种图形比如说我们有点图
比如说茎叶图还有直方图
讲完了图形以后我们讲了
数值法我们说数值法关注
三件大事
一个是数据的集中趋势一个是数据的离散程度还有
数据的相对位置
在集中趋势里面我们有均值还有中位数
然后离散程度呢我们有极差四分位差还有标准差
最后在
测量数据的相对位置时候
我们用四分位数还有百分位数最后还有标准差
以上就是我们这周学习的主要内容
希望你有所收获
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video