当前课程知识点:心理统计 > 4 离散趋势 > 4.2 标准差和方差 > 4.2 标准差和方差
大家好
今天我们介绍描述数据离散趋势的
另外一组指标标准差和方差
那么方差和标准差实际上
是作为一组类同的这样的描述数据
离散趋势的指标在后面的解释里面
那么我们说方差也好标准差也好
其实它们之间是有一个关系
那么我们说我们先来看什么叫标准差
标准差它是常用来描述数据离散趋势
或者说是测量数据变异性特点的
最重要的最常用的指标
那么可以说
标准差在描述数据离散趋势的位置
等同于算术平均数
在描述集中趋势里面的这样一个位置
它指的是在这个分布里面以平均数作为参考点
也就是以算术平均数作为参考点
然后去计算每一个数据和平均数之间的距离
来刻画这一组数据它的一个分散的程度
或者描述这一组数据的变异性
所以我们知道它和前面的
全距也好和四分位距来比也好
那么四分距和全距都是用两个点之间的
距离来描述的
而我们现在说到的标准差
它是有一个中间的平均数的这个点
那么我们说它是用来描述每一个数据
你和平均数距离有多远
它是这样来描述它们之间的
一个变异性的特点的
这是我们说标准差和前面我们讲到的
全距和四分位距之间的一个区别
作为这样的一个
描述数据离散趋势的特点的话
它里面我们就在回顾
我们前面讲过的一个概念
离差我们又把它叫做离均差
它的描述这个数据到平均数的距离
也就是每一个数据减去这一组数据的均值
如果是在总体里面的话
我们要减的这个均值就是总体的均值μ
然后我们说总体的方差是什么
它指的是这是一个离差了
离差的平方和 离差的平方和再求一个平均
那么就是总体的方差
那么我们平方以后
这个单位就已经跟原来不一样了
标准差是什么了
标准差就是把平方了再开一个平方根
它的单位就又回到了原来的X的单位上面
所以我们说这是标准差
你知道方差和标准差之间的关系
就是一个开方的关系
标准差其实就是方差开一个平方根
这是我们说方差的概念
也可以说是标准差的概念
那么如何来求这个标准差和方差了
我们先以总体的标准差和方差为例
那么说到总体的标准差和方差的话
我们这时候我们就假设
总体的均值μ它是已知的
首先第一步我们要求每一个数据
到平均数的它的一个标准的距离
也就是说我们把每一个数据
减去它均值去求一个离差去求一个离差
那么实际上第二步不是必须的
但是第二步我们知道
我们讲过一个离差的平均数
或者说离差和 它其实总是等于0的
我这个地方写出来的第二步
是你可以去用这个去算一下
它的和或者去算一下它的平均数
是不是等于0
去检验你第一步的离差有没有算错
那么我们说算出来这个离差好吧
离差平方一下
那么你知道如果你不平方的话
那你正负就抵消掉了
你要描述数据的离散程度
其实是一个距离的问题
所以我们要把它平方一下平方完了以后
那么我们说求和再除以N
也就是说要求它的平均数了
我们就得到这个方差
那么算出来方差以后
标准差对它开一个平方根
我们就得到这个标准差
这就是说它的一个基本的计算的步骤
那么我们说第二步其实不是必须的
但是你可以来检查一下
你的数据算的是不是对的
那么我们说第二步其实就说的是离差的和
它一定是等于0的
那么我们说根据前面
我们讲到的平均数的特点
你是一推导出来说式子它一定是成立的
它一定是成立的 也就是你怎么办
你其实就是把括号去掉
括号去掉然后我们说你在利用
它的μ的定义把它带进来
那么我们说可以知道这个数字它是等于0的
这个事情我们在平均数的地方也讲过
那么很重要的一个性质
在后面的我们的很多地方
比如说方差分析里面
我们也会再用到它的这一个结论
这是我们说它的一个计算的这样的一个步骤
那么我们来理解一下标准差和方差
它在里面它到底是一个什么样的含义
首先那么我们说对于几个数据
比如说我这个地方现在有几个数据
对于这几个数据你先求出来它的平均数
如果说是一个总体
那么我们就能够算出来
它的一个总体的平均数
对于这一列数据来讲的话
我们可以把它列下来
那么在这块我实际上就是有五个数据了
我去算出来它的总体的平均数
算出来平均数是等于6
然后说总体的方差到底是什么意思
就是这是它的中间的点六了
它来描述每一个数据偏离均值的距离
那么我们说这边比如说这个数据它离它是一
那么那一边数据的离它是五
我们去算出来每一个数据
和均值它的一个距离是多少
那么这一列数据
你减完以后就是有正的有负的了
一定会出现一个正负的抵消
那么我们要求距离的话
我们知道我们是不能让它正负抵消的
所以我们这块要有一个平方要一平方
我们就可以算出来它的一个离均差的
这样一个平方和 平方和是40
那么方差是多少
方差就是说距离的一个平均了
然后40除以5
我们得到这个方差是8
然后我们前面说过说你现在平方了
其实你这个距离就已经不是原来的尺度了
要再回到原来的尺度的话
我们再把它开方
我们就定义为总体的标准差
这是我们说总体的方差和标准差怎么去算它
我们要注意一些什么
就是说它是和它均值的一个
离差的平方和然后再去求平均
在这个里面
那么我们说之所以定义
之所以可以这么来定义
这个方差是取源于它有一个很好的性质
也就是说你可以去找很多个点
就是说所有的这些数值
你都和XI去求离均差的平方和
那么在这所有的离均差的平方和里面
你减去它中间的平均数
这个平方和它是取到了最小值的
那么我们可以怎么来理解说
它娶到的是这样的一个最小值
我们可以说如果我对于任意的
一个α来讲
我Xi减去阿尔法的平方
我可以写成什么
我可以把它分解为这样的一个式子
那么这一种手段在我们的统计里面
B1的分解是很多次都会用到的一个方法
那么我们说我为什么用到这个
因为我想要说明的这边的关系有一个X均值
那么我就减了一个X均值 再加上X均值
那么现在这个地方有个平方了
我就可以把它再分解开 再分解开
我们就得到这样的一个式子
那么我们看在这个式子里面
我们现在就已经一项了有这一项了
而这一项它是一个平方和的形式
所以它是一个大于等于0的数值了
再看这一个部分
那么我们说这一个离均差的和是等于0
前面我们很多次说到离差的和是等于0
然后X均值减去α它是一个常数
所以说总的这一项它就会等于0了
那么我们说从这个式子上
我们就可以知道说我这个性质其实是成立的
它说明了什么
它就说明了你再去求离均差的时候
中间的那个点你取平均数
那么这个平方和是取一个最小值的
也就说明在一组数据里面
这个值它实际上是具有唯一性的
那么我们知道了它的这样的一些特点以后
我们来介绍一些记号
我们首先今天介绍的第一个记号ss
ss我们把它叫做平方和减去μ的平方
再求和平方和用SS来表示
那么这个式子你把它写开
把它的平方给它分解完以后
给它把这个括号去掉
整理完以后也可以写成这样的一个式子
那么对于总体的标准差来讲的话
我们有一个记号
总体的标准差用σ
用这个σ它和我们的总体的均值用μ
那么现在我们这个地方用σ它是什么
它是方差σ的平方 它的一个平方根了
里面是ss
我们说平方和再求平均了除以N所得到的
那么总体的方差就是不开方了
这是我们说一系列的记号
我们要记住有一个是ss表示的平方和
然后总体的标准差用σ来表示
总体的方差用σ平方来表示
这是我们要知道的就是关于总体的
那么刚才我们说到总体的方差
和总体的标准差的时候
实际上我们知道在实际应用中
我这个μ不知道
我σ其实也不知道
也就是说我一般情况下
我不可能是对所有的个体都做观测
因此虽然我们可以去定义总体的方差
或者总体的标准差
但是实际应用中这个数字我们是得不到的
我们能够得到的是什么
我们能够得到的是
我们根据一个样本的观测的结果
所算到的数字
我们把它叫做样本标准差和样本方差
那么下面我们来看样本标准差和样本方差说
一般情况下样本来表示
总体的时候我们是抽取一部分
那么样本的变异总是小于总体的变异的
也就是说你在用我刚才前面说的
计算总体的方差的方法的话
那么样本的方差
往往是会对于总体的方差有一个低估的
为了矫正这一种低估的话
那么我们说在样本标准差
和样本方差的定义的里面
我们就会对变异性做一个校正
为了校正什么呢
校正它对于总体估计的一个有偏
那么我们来看一下
样本方差和样本标准差的定义
同样我们有一个平方和ss
那么这个地方了我们再去算离差的时候
因为我没有总体的信息
我没有总体的均值μ那么我用什么
我会用样本的均值M
来代替我刚才的总体的均值μ
然后我代替了它以后
我还是去算它的离差了
再去把每一个离差再去把它们加起来
再去把它平方
你知道为什么要平方 平方很重要了
如果你不平方正负就抵消掉了
那么我们说平方
平方完了以后去求出来ss值
所以这个ss和总体里面的一个
唯一的区别就在于
这个地方我们减的是M
而总体里面我们减的是μ
这是我们要知道的
然后再定义样本的方差
那么样本的方差总体方差的时候
我们这个地方是SS
除以总的N大N也就是
个体总体里面所包含的各体的个数
那这个地方我们说我们要除以N减一
就是我刚才说到的样本往往是会低估它的
所以我们有一个校正
这个地方一定要记住
是一个N减一是为了保证样本方差
在后面的推断统计里面
或者推论统计里面作为总体方差估计的时候
使得它满足一个无偏的这样的一个性质
所以我们这个地方要除以N减一
在这个里面的话
那么我们要特别强调的一点
它的一个区别什么 就是说方差
那么我们说平方和算出来了
它在定义方差的时候
样本的方差最重要的一点
就是所有的这个地方都变成了除以N减一
这是一个校正
那么我们说当然因为你没有总体的了
所以这个地方还有一个就是说
你减去的实际上是样本的均值
这就是我们说样本方差和标准差的定义
在这一个里面我们刚才有一个校正
校正了我们是除了一个N减一
那么在统计上对于这一个部分的校正
说我到底应该用什么样的校正
在统计里面还有一个很重要的概念
就叫做自由度的概念 什么叫自由度
自由度它描述的是一组样本数据里面
你可以自由的变化的数字的个数
所以为什么把它叫做自由度
它指的是在这个里面
你可以自由变化的数据的个数
我们来理解一下这意思
那么我们说比如说
你原来的你调查有N个数据
有N个数据了 有N个数据
那么这N个数据的话 对于这N个数据来讲
那么我们里面是用到了
你现在你想要去求它的方差的时候
这N个数据的一个均值了
也就是说我会去算一个均值
然后再去剪掉它
也就是说这N个数据里面
现在会受到一个限定的条件
也就是它的均值一定是等于多少的
你比如说对于这五个数据
我如果知道了它的平均值在这里面的话
这五个数据里面
还可以有几个可以自由的去变了
如果你四个数据定了
那么第五个数据一定是可以
唯一地被它的均值和这四个数据确定的
所以在这里面它可以自由变化的数据
其实只有四个了
那么我们说在这个里面的话
我们就定一个自由度
说如果你的样本量是N的话
那么我们说你再去算样本方差的时候
因为你用到一个样本的均值
所以它的自由度就变成N减一了
那么我们说你又可以如果有了自由度的
这样一个概念的话
你就又可以把它理解为说
我现在我算样本方差的时候
实际上我上面就是
这个平方和我上面就是算了平方和
而下面我除的是它的自由度
我除的是它的自由度
样本方差里面为什么要校正
是因为我自由变化的数字的个数减了一
所以我这个地方我变成了N减一
所以我们又把它叫做一个自由度的校正
这是关于自由度的概念和方差的这个概念
它之间的一个关系
那么自由度的概念
可以说是统计里面特别重要的一个概念
经常用来做样本方差计算的一个校正
那么它的分母上
其实除的就是它的一个自由度
这是我们说到的方差和标准差
包括样本方差样本标准差的定义
那么在实际应用中标准差它有什么样的应用
首先我们来看标准差和描述统计里面
它的一个应用
那标准差它作为描述一组数据分布里面
那么我们说它数据的分散程度的
一个指标经常是和平均数结合起来
去描述一组数据的分布
那么平均数描述了
它的一个典型的中阶的位置
那标准差描述了它的一个分散的程度
那么它们结合起来去概括化地去描述
一组数据它的一个分布的特征
另外的那么我们说标准差
它还解释了单个的数据
明确单个数据你在分布中的
大概的一个位置的情况
所以这是我们说标准差
它对于数据的特征的这样的一个描述
可以说在我们后面的分析里面
标准差和平均数结合起来
它是最重要的来描述
一组数据分布特点的统计指标
所以也是在描述统计里面
是很重要的一个统计指标了
另外的一个方面标准差
或者方差它在推断统计里面的一些应用
在推断统计里面
我们知道推断统计的最主要的目的
就是基于样本的信息
去发现基于给予总体
它的一些有意义的有重要的模式的
这样的一个结果
也就是它规律性的东西了
那么我们说方差
它是可以描述变异性的大小的
如果说变异很小
也就说我这个数据我分散程度很小
我现在我在它里面去抽样
我这个抽样的变动性可能就会比较小
也就是变异小意味着什么
意味着你现在所发现的结果规律
或者模式它具有某一种确定性
但是如果说你的变异很大
那么你现在所发现的结果
可能我下一一次再抽取一个样本
因为你的标准差很大
离散程度很大吗
可能样本就会发生比较大的这样的一个波动
从而这个结论它就具有不确定性
这是我们说它在推断统计里面它的一个应用
另外的话
那么我们说方差也是用来描述统计量之间
它的变异性大小的这样的一个指标
那么我们前面其实讲到一个
抽样误差的概念了
抽样误差指的是什么呢
就是说你不同次的这样的一个抽取
你可能得到的数据现在不一样
举个例子来讲
比如说我现在我在所有的大学生的群体里面
我是抽取了N等于100
也就样本量是一百的这样的一个样本
我观测了它的心理健康的状况
我做完以后我能够算到一个平均值
那么你也可以重新的再去抽一次
还是抽取了一百个
那么你又可以算到一个平均值
那么这两个平均值它们可能不会完全一样了
因为你是两次抽样的结果
那么方差它在一定程度上
可以去描述你不同次的抽样之间的
这种变异性的大小
那么我们说这些统计量之间的
它的方差就可以作为抽样误差的
一个估计抽样误差的一个估计
那么抽样误差它是推断统计里面
可以说重要的去判断的一个依据
判断它们之间有没有差异
判断它是不是一个随机偶然的
这样的一个误差一个重要的依据
所以说方差或者标准差
在推断统计里面也有
特别重要的这样的一个作用
那么我们再来看一下说
影响这个数据变异性的一些因素
一般来讲我们会考虑说
极端数据会不会对它有影响
那么我们知道四分位距
我们前面讲的一个四分位距
四分位距是把两头的去掉
所以我们说它是不太容易
受极端数据的影响的
但是方差和标准差
是每一个数据都加入运算了
所以它有时候也是会受到极端数据的影响的
另外一个就是样本量的大大小
那么样本量的大小的话
一般情况下来讲
它对于方差和标准差
或者四分位距的影响其实是很小的
还有就是你的取样的这种稳定性
那么我们说抽样的这种稳定性
一般来讲标准差和方差
只要你用的相同的这样的一个抽样方法
一般来讲你所得到的标准差和方差
是具有稳定性的
另外在开放型的分布里面的话
那么我们说四分位距它是比较好的一个指标
但是方差和标准差就很难去用了
给平均数一样的
那么我说它可能会出现了一些模糊的数据
所以说这些因素可能会影响
到我们去计算方差和标准差
也是在实际应用中
我们应该去关注的一些问题
然后我们来回顾一下
这一节课我们讲到的内容
这节课我们主要讲到了方差和标准差的概念
讲到了总体的讲到了样本的
在样本里面我们重点讲到了一个N减一
也就是说自由度对于样本方差的一个校正
对于方差和标准差来讲
它的应用我们还提到了
在描述统计和推类统计的里面的
它的一个重要性
好 今天我们就讲到这 谢谢大家
-1.1 统计学的意义
-1.2 心理统计简介
-1.3 基本概念介绍1
-1.4 基本概念介绍2
-1.4 基本概念介绍2--作业
-1.5 研究方法
--1.5 研究方法
-2.1 统计表和统计图简介
--2.1 统计图表
-2.1 统计表和统计图简介--作业
-2.2 频数分布表
-2.2 频数分布表--作业
-2.3 频数分布图
-2.3 频数分布图--作业
-2.4 百分位数和百分等级
-2.4 百分位数和百分等级--作业
-3.1 平均数
--3.1 平均数
-3.1 平均数--作业
-3.2 中数
--3.2 中数
-3.2 中数--作业
-3.3 众数
--3.3 众数
-3.3 众数--作业
-4.1 全距和四分位距
-4.1 全距和四分位距--作业
-4.2 标准差和方差
-4.2 标准差和方差--作业
-4.3 差异系数
--4.3 差异系数
-4.3 差异系数--作业
-5.1 Z分数介绍
-5.1 Z分数介绍--作业
-5.2 Z分数的分布及转换
-5.2 Z分数的分布及转换--作业
-6.1 概率的基本概念
--6.1 概率与二项分布--作业
-6.2 概率与二项分布
-6.2 概率与二项分布--作业
-6.3 概率与正态分布
-6.3 概率与正态分布--作业
-6.4 抽样分布与推论统计
-6.4 抽样分布与推论统计--作业
-7.1 假设检验的一般原理
-7.1 假设检验的一般原理--作业
-7.2 假设检验的一般过程
-7.2 假设检验的一般过程--作业
-7.3 假设检验的不确定性和误差
-7.3 假设检验的不确定性和误差--作业
-7.4 有方向的假设与单侧检验
-7.4 有方向的假设与单侧检验--作业
-8.1 t统计量与t检验
-8.1 t统计量与t检验--作业
-8.2 单样本t检验的方法
-8.2 单样本t检验的方法--作业
-8.3 有方向的检验和单侧检验
-8.3 有方向的检验和单侧检验--作业
-9.1 独立样本t检验
-9.1 独立样本t检验--作业
-9.2 独立样本t检验的应用
-9.2 独立样本t检验的应用--作业
-10.1 相关样本t检验方法
-10.1 相关样本t检验方法--作业
-10.2 有方向的假设和单侧检验
-10.2 有方向的假设和单侧检验--作业
-11.1 效应量的测量
-11.1 效应量的测量--作业
-11.2 均值检验效应量
-11.2 均值检验效应量--作业
-11.3 统计检验力及其影响因素
-11.3 统计检验力及其影响因素--作业
-12.1 参数估计的基本内容
-12.1 参数估计的基本内容--作业
-12.2 用t统计量作参数估计
-12.2 用t统计量作参数估计--作业
-12.3 假设检验和参数估计
-12.3 假设检验和参数估计--作业
-13.1 方差分析的逻辑
-13.1 方差分析的逻辑--作业
-13.2 方差分析的计算
-13.2 方差分析的计算--作业
-14.1 完全随机单因素方差分析
-14.1 完全随机单因素方差分析--作业
-14.2 方差分析的测量效应和事后检验
-14.2 方差分析的测量效应和事后检验--作业
-15.1 重复测量单因素实验设计
-15.1 重复测量单因素实验设计--作业
-15.2 重复测量单因素方差分析的逻辑和计算
-15.2 重复测量单因素方差分析的逻辑和计算--作业
-16.1 完全随机两因素实验设计
-16.1 完全随机两因素实验设计--作业
-16.2 完全随机两因素方差分析的逻辑和计算
-16.2 完全随机两因素方差分析的逻辑和计算--作业
-16.3 简单效应检验
-16.3 简单效应检验--作业
-16.4 完全随机两因素方差分析的效应值和事后检验
-16.4 完全随机两因素方差分析的效应值和事后检验--作业
-17.1 相关概述
-17.1 相关概述--作业
-17.2.1 皮尔逊相关1
-17.2.1 皮尔逊相关1--作业
-17.2.2 皮尔逊相关2
-17.2.2 皮尔逊相关2--作业
-17.3 等级相关
-17.3 等级相关--作业
-17.4 点二列相关和二列相关
-17.4 点二列相关和二列相关--作业
-17.5 φ相关
--17.5 φ相关
-17.5 φ相关--作业
-18.1 简单线性回归
-18.1 简单线性回归--作业
-18.2 回归模型和回归系数
-18.2 回归模型和回归系数--作业
-18.3 线性回归的基本假设
-18.3 线性回归的基本假设--作业
-18.4 变异的分解
-18.4 变异的分解--作业
-18.5 回归方程的估计标准误
-18.5 回归方程的估计标准误--作业
-18.6 回归方差的有效性检验
-18.6 回归方差的有效性检验--作业
-19.1 二项检验
-19.1 二项检验--作业
-19.2 卡方检验
-19.2 卡方检验--作业
-19.3 四格表及列联表
-19.3 四格表及列联表--作业
-20.1 非参数检验概述
-20.1 非参数检验概述--作业
-20.2 单样本非参数检验
-20.2 单样本非参数检验--作业
-20.3 两独立样本非参数检验
-20.3 两独立样本非参数检验--作业
-20.4 多个独立样本非参数检验
-20.4 多个独立样本非参数检验--作业
-20.5 两个配对样本非参数检验
-20.5 两个配对样本非参数检验--作业
-20.6 多配对样本的非参数检验
-20.6 多配对样本的非参数检验--作业