当前课程知识点:心理统计 > 3 集中趋势 > 3.1 平均数 > 3.1 平均数
好 同学们好
今天我们来看描述统计里面的集中趋势
那么描述统计 前面我们说过
它主要是要描述一组数据的特征
集中趋势就是描述数据
最典型的一种统计指标
对于集中趋势来讲 有很多不同的指标
今天我们来看一个
最常用也是最简单的平均数
我们又把它简称为算术平均数
首先 那么我们来看一下
集中趋势是一种什么类型的统计指标
集中趋势它作为一种统计的测量
它主要是确定了能不能代表
1个分布中心的位置 对于中心的位置
我们也可以把它理解为
是这个数据分布中
最典型的最能够代表这一组数据的一个特征
我们有时候把它叫做
是平均的典型的这样的一个个体
也就是说 对于集中趋势来讲
它想要解决的一个问题
如果说有一组数据
你想要拿一个数据来描述它的一个
最代表性的数值的话
那么这个数据就是来描述它的集中趋势的
所以我们应该注意到 就是说
可能这个典型的特征不同的数据
应该采用不同的这样的一个指标
也就是说在测量集中趋势的时候
我们后面 除了我今天说到的平均数
还会讲到一些其它的描述数据
集中趋势的特点的指标
为什么会这样
就是说 在统计里面实际上
是没有一种统计指标
它能够在任何情况下都适用
所以这也是为什么在后面的课程里面
我们会讲到好几种类型的集中趋势
这是首先给大家一个概念
那么集中趋势是描述数据的什么样的特点的
那么我们来看第一个
我们要讲的一个最重要的一个概念
也是最常用的一个统计指标算术平均数
说起算术平均数
实际上很小的时候
我们说我们其实都知道这个平均数怎么算了
这个数字我们又把它简称为是平均数
它指的就是把分布中所有的数据加起来
所以说有一个是求和
然后再除以它的个数再除以它的个数
所以我们说另外的一个
就是要除以里面的N的大小
也就是说如果是对于一个样本而言的话
就是把样本的观测都加起来
然后再除以样本的个数的多少
那么对于平均数而言
在统计里面我们前面讲到两个概念
一个是总体
那么我们知道总体就是说
你所关心的对象的全体了
那么我们说如果说
你能够得到总体里面每一个个体的观测
那么大N表示总体里面
有的人数个数的多少的话
那么我们说总体的平均数
就定义为所有数据的和除以个数
那么我这个地方的∑x
就表示的是把总体里面
每一个个体的这些数值都加起来
我们把它叫做总体平均数
但是我们前面也知道说在心理学的研究里面
我们往往是没有办法
对于总体的每一个个体进行观测的
实际上我们观测的对象是一个样本
也就是说我们能够得到的
其实只是样本的观测值
也就是说如果说你的总体里面有1万人
但可能你最后调查的时候你只调查了一百人
那么这一百是你的样本量
一百个数据是你真实能够得到的
所以在实际应用中
我们用的最多的其实只是样本平均数
那么什么叫样本平均数
就是由你这个样本实际观测所得到的
比如说我刚才说的一百
这一百个人每一个人的观测的数据加起来
然后再除以个数一百
所得到的这样的一个平均数
我们把它叫做样本平均数
注意总体平均数和样本平均数它的一个区别
那么我们说首先我在这个地方
用到了两个不同的记号
一个叫做μ 一个用M来表示
那么μ就表示的是一个总体了
我们在最开始讲到参数和统计量的时候
我们实际上讲到这样的一个指标
那么我们说这个μ
我们把它叫做一个总体的参数
这个M把它叫做一个样本的统计量
那么实际中这个μ是不知道的
M是可以通过样本的数据计算得到的
这就是它的平均数的概念
那么我们说和你小学时候
学的最主要的一个区别
就是现在你要知道有一个总体的
和样本的平均数的一个区分
那么我们说知道了它的定义以后
我们来看一下它意味着什么
这个平均数它的一个最主要的
一个性质特点是什么
它指的就是说在测量里面
中间的这样的一个位置
或者说它的一个平衡点
那么我们说在中心的平均值的地方左右的
那么我们说这些数据的和
如果说都是从中心来看的话
那么左边和右边这一加起来它应该是一样的
所以我们也把这个平均数
其实是叫做分布里面它的一个平衡点了
从这一点上来讲的话
那么我们刚才再回过去
我刚才说它的一个集中的趋势
也就是它的一个典型的特征
也就是说在这一组数据里面
有的数字会比这个均值大有的会比它小
但是这个点是它的一个平衡点
这是我们说平均数的它的一个基本的
这样的一个性质
那么我们知道如果说什么叫做平均数
然后我们说平均数的这样的
一个特点知道了以后
那么我们说它同时还满足了
以下几个重要的性质
第一个主要就是说我们说
所有的数据的和也就是说
你把样本里面观测所求到的这样的一个和
它相当于就这个组合会等于什么
就等于你的个数乘以这个平均值
这是我们在后面经常也会用到的
一个它的一个性质
也就是说这些数据的和你可以怎么计算
它其实就是这个平均数乘以这个个数了
同样的
那么我们说其实你把N除过来就是它的定义
另外的一个性质我们把它叫做离差和等于0
或者说也把它叫做离均差的和等于0
就是我刚才说到了它的平衡点的一个性质
也就有的会比M大有的会比它小
但是我们说比它大的和比它小的加起来
那么正负有一个抵消 这个值等于0
这个性质也是在统计里面
我们经常会用到的一个
我们把它叫做离差和等于0
这是我们说知道的一些性质
另外的是关于它计算的时候得有一些特点
那么知道了这个平均数以后
那么我们说在计算上可以有一些简化的方法
主要会用到的是下面的这两个性质
一个我们把它叫做每一个数据
看X每一个数据都加了一个乘数
C也就每一个数据我都加一个数字
那么我原来的数字X1X2到XN
我现在是X1加C X2加C
一直到XN加C
那么我现在目前这一组新的数据的平均数
和原来的数据的平均数有什么样的关系
这一个式子就描述的是每一个数据
都加上一个常数
C以后它的平均值
就等于原来的平均数加上这个常数C
就等于原来的平均数加上常数C
这是我们说它的一个加和的这样一个规则
另外的一个就是每一个数据X成了一个常数C
你可以把它理解为是
扩大多少倍或者是缩小多少倍
这样的 那么我们说它的平均值会变为什么
是原来的这一组数据的平均数成一个常数C
这是我们说的它的几个性质
我们这个部分我们可以看到
平均数的它的一些重要的性质
包括它计算时候的一些简化的规则
那么利用这些性质和简化的规则
我们就可以去用到这个平均数的计算里面
下面我们举几个例子
比如说第一个我们说要计算下列样本中的
这几个数据的平均数
根据前面的定义平均数的计算
首先我们要算这几个数据的和了
这五个数据的和把它加起来6+1加8+0+15
那么我们说知道这个加起来它是等于20
那么有五个数据20÷5
我们就可以得到它的平均数是等于4
这是我们说利用前面的定义直接去算它
我们说在这几个数据
我们已经知道它的平均数是4的基础上了
我们再看一下
利用刚才前面我说到的性质去算
说比如把每一个数据都增加4
那么计算它的样本平均数
我们知道前面我们说到
说每一个数据都加4的话
那么就每个数据都变成那么6+4
1+4 8+4
那么这变成了五个新的这样的一个数据
它的平均数是多少
它说你不用把它每一个数加上以后
再去算它的平均数
就相当于是原来的平均数4
再加上你每一个数据增加的4再加上4
那么我们就知道新的这一组数据
它的平均数就等于8
同样利用它的乘法的这样一个性质
是吧 每一个数据都乘以五
它的平均数会是多少
就是原来的平均数扩大五倍了
4×5等于20
所以我们说可以利用它的
这一些性质做一些简单的计算
这是我们说给出来了一组样本
同样的
那么我们说对于总体来讲也是这样的
假如说我们说总体的平均值μ等于80
那么如果每个数据都加上六
那么新的平均数是多少
那新的总体的平均数相当于
就是说要做一个平移
每一个都加六 那么新的μ就会是86
如果每一个数据都乘以二
也就是说都扩大二倍
那么新的平均数是多少
新的平均数也会扩大二倍
也就是80×2 一百六十
这是我们说利用它的一些性质来看
那么我们说利用它的一些性质
还可以去做一些简单的计算
比如说说我有一个样本
我的N是等于5
我算出来的它的平均数是等于8
现在如果说我增加了一个新的数据
这个数值是二 那么新的平均数是多少
我们前面我们说过
就是说对于平均数就相当于是
求和再除以个数
那么我们只要能够求出来新加的数据二以后
它的和是多少的话
我们就能够算出来新的平均数
那么根据前面说N有五个数据平均数是8
我们就知道五个数据它的和是多少
那么我们说它的和就等于它的个数
乘以这个均值
和知道了是40 那么又加了一个数字是2
那么加了新的数据以后
它的和就是四十二四十二
那么我们说现在是有六个数据
那么你就能够求出来说我新的和是42
我有六个数据我除一下
那么我新的平均数就是7
这是我们说可以利用我们前面说到的
它的定义以及它的一些性质特点
做一些简单的计算
那么我们再来看一个问题
有时候在调查的时候
我们会有不同的样本的这样一个数据
比如说我现在就有两个样本
第一个样本样本量12平均值六
第二个样本样本量8平均数7
那么我们说我要把这两个样本合并起来
那么整体的它的一个平均数是多少了
总的平均数是多少了
那么对于这样的一个问题来讲的话
那么我们说根据平均数的定义
我们只要知道了总和知道了总的个数
我们用总和除以总的个数
就可以得到它的一个平均值
所以我们来看我们想要
把这两个样本合并起来去求它的均值的话
其实我们就是要求出来它的总和了
也就是说我们可以就是说n1m
那么第一个数据它的第一个样本
它的总和就是它的样本量乘以它的均值
第二个它的总和样本量乘以均值
那么合并起来以后的样本量
就是两个样本量合起来
那么我们说是N1+2
我们就可以得到说我合并起来以后
我的总的均值就变为6.4
那么我们再把这个东西概括的来看一下
我们刚才所说到的思路
就是说我根据这个平均数的概念
是要求出来这个总和
然后这个总和除以总的个数
那么我们在这个里面求总和的时候
我利用到了说这个总和
是等于这个个数乘以均值的
这就是我们说刚才这样的一个问题的思路
我们再来看一下对于刚才的这个问题
我们可以把它叫做加权平均数
为什么可以把它叫做加权平均数
我们来看一下
说我们刚才计算的过程是这样的
如果我们把这个式子给它分开来写
我们就可以得到这个地方有一个值
这个地方有一个值
也就是说它的一个平均数
我们现在要求的新的平均数
她是M1和M2的一个平均值
但是它们前面有一个权重
有一个描述它们重要性程度的一个指标
那么这一个就是说N1除以总数
也就是说第一个样本量
在总的里面它所占的一个比例
我们又把它叫做M1的权重
所以我们把这一种计算平均数的方法
又叫做加权平均数的方法
那么我们一定要注意的就是说
你知道了各个样本的
平均数和各个样本的样本量的大小
要求总的平均数的时候
并不是说把原来的平均数加起来求个平均
而是要求一个加权平均权重大小
取决于它样本量在总的样本里面
它的一个占比的情况
那么我们说如果N1占的比例大
那么M1最后在这个平均数里面
它所占的权重就要大
所占的比例就要大
这是我们说到的加权平均数
有了加权平均数这样的一个概念
那么可以把它用到我们很多的情况下
去求这个平均数
那么我们说很多的比如说绩效考核里面
你可能有很多部分组成
每一个部分的比例不一样
那么你就可以用它来做这样的一个加权平均
我们来看一下加权平均数
它在计算算术平均数时候的一个应用
我这儿给大家呈现的是
我们前面的讲过的很多次讲过的
这样的一个次数分布表了
那么我们说X是列出来了
它的每一列的数据F是列出给出来了
每一个数据它的出现的次数的多少
如果在这个里面我们要根据频数分布表
去计算它的算术平均数的话我们怎么算
我们知道根据它的定义
我们还是要算它的和还是要算它的和
那么在这个地方我们就是说
每一个数据的和就和怎么算
你可以通过每一个数据
它出现的次数那是一这一个数据的
F乘以X然后我们说这个和
是把这一列数据加起来
158这20个数据的它的一个和
我们写成公式的形式
我们我们可以把它写成这样
那么下面除以多少除以就是
它的总的样本量的大小了
也就是你的观测个数的多少
在这里就是20
那么我们就可以算出来
在频数分布表里面平均值
所以在频数分布表里面
我们也可以把它看成是加权平均的一种形式
这个权重是什么来定的是
由F在总的里面所占的比例
那么你看X1它所占的所占的比例
那么我们说F1在总的里面
它的一个比重来确定的
这是我们说在频数分布表里面
在前面的频数分布里面
我们还讲过为了汇总数据的方便
讲为一种分组的频数分布表
那么我们看这是一个分组频数分布表了
如果说我是在分组的频数分布表里面的话
那么我想要从这个表格里面
去计算它的平均数 我如何计算了
在这里面我们要知道就是说
我现在我所知道的这一个值
比如说这一个里面
它是有时一个人分数是落在
70到75这样的一个区间的
但是我其实并不知道
这11个人的分数到底是多少
我只知道它落在这样的一个区间里面
所以说从现在的信息里面来看的话
我们实际上是有一些信息的损耗的
也就是说我们不知道原始数据
我们只知道它落在某一个范围里面
那这样子的话我们计算出来的平均值
只能是一个估计值
但是我们说我怎么才能去算出来
它我只知道是落在这个区间里面
那么我们前面就讲过一个组中值的概念
组中值是作为这一组的
一个典型的一个代表的值
它是这一组里面那么中间位置的这个点
所以在分组频数分布表里面
我们就用这个组中值作为这一组的
它的一个值的一个代表
比如说70到75分
这个里面我们就用72作为它的代表
然后用72×11作为它这一组的
一个和的估计值
那么这样的话我们就可以近似地算出来
在分组的频数分布表里面
它的算术平均值的大小
这是我们说到了平均数的计算
那么在统计里面我们知道
我们为了描述一组数据
我们会用到一些统计指标
比如说我们今天讲到的平均数
那么我们说在这个里面后面的推断统计里面
我们为了去描述总体的这样一个平均数
比如说我前面说到的μ它是不知道的
那么我们可能就要用M来
估计这个μ在这个里面的话
什么时候我用它来做描述
什么时候我用平均数
什么时候我不能用它
那么我们下面来看一下
这个平均数的特点和它在应用过程中
我们要注意的一些问题
首先我们来看一下它的优点
对于平均数而言的话
根据它的计算
我们看到了它是里面的每一个数据求和
然后除以个数
从利用信息量这一点来讲的话
它用到了分布中的每一个数值
通常来讲利用信息量是比较大的
那么我们说通常统计指标也有很好的代表性
所以我们说在这一点来讲
平均数是相对我后面要讲的
几个集中趋势的量数它的一个很大的优点了
另外一个在描述一组数据的分布的
形态的时候
我们今天说到的集中趋势
是说找一个点找一个最典型的
那么后面我们还会讲到描述
它的分散程度的一系列指标
我们会重点讲到的就是方差和标准差
在统计里面平均数方差
或者是标准差经常用来
联合起来了去描述大多数的
这样的一个分布的形态
比如说正态分布
我们就可以用平均数和方差结合起来
就完全描述了一个分布的形态
所以平均数也是在描述分布形态的时候
经常我们会和后面的描述
分散程度的指标结合起来共同使用的
一个指标 那么除了这一点
那么我们就说在推断统计里面
这是说描述上面的一个特点
在推断统计里面我们可能要用它来去推断
总体不知道的μ这个参数μ
那么在总体的推断里面
算术平均数它也是有很好的性质
我们在后面推断统计里面
会讲到它的比如说它的无偏性有效性
所以这也是为什么在推断统计里面
算术平均数是我们最常用的一个统计指标
那么我们说作为对于集中趋势的一个描述
可以说后面我讲到的中数或者众数
都只是对于平均数的一个补充了
我们通常会认为我们今天讲到的平均数
它是描述数据集中趋势的
最好的一个统计指标
除非这个指标它不能用
我们才会考虑其它的一些指标
但是作为一个统计指标它就有它的局限性
我们来看一下它有哪些局限性
首先我们说在一些特殊的情况下
我们为了描述这一组数据的
它的一个典型的代表性的特点的时候
可能有时候这个平均数我们没有办法算
刚才前面说到它的优点的时候
就说到每一个数据都加入运算
这时候就说如果有一些数据你不知道
可能就没有办法去算它的平均数
比如说如果数据中出现一些模糊的数据
也就是在我这个观测里面
假如说我知道每一个分数段的人数
但是我后面我说不及格的人数有十人
那么我这样的一个数据表格里面
我想要去计算它的平均数的话
那么我这个不及格就太笼统的一个东西了
那么我们可能就没有办法去知道
它的这一些数值
也没有办法找一个典型的值来估计它
这样的话我们就没有办法去算它的平均数
另外还有一种情况
那么我们说平均数
主要是来描述它的一个集中的
一个典型的一个代表值的
有时候有一些数据你用它的平均数
并不能很好的去描述它的典型的指标
比如说我们举一个例子
现在我这儿有五个数据
三 五 七 十 五十
那么我们说我们如果
去算它的算术平均数的话
我们可以算出来算术平均数它是等于15
那么我们看看在这五个数据里面
其实是只有一个数据
50它是比十五大了
然后在这里面那么四个数据都是比15小的
很显然15它并不能很好的
描述这个数据的集中趋势原因在哪
原因就在于在这个里面有五十太大了
那么我们说在这一组数据里面
如果是出现了一个特别大
或者特别小的这样一个数据
我们又把它叫做是有极端的数据
所以平均数它是容易受到极端数据的影响的
如果里面有极端数据出现的话
那么我们说平均数往往就不能
很好地去描述一组数据的典型的特点
这是我们说在应用的过程中要特别注意的
那么我们说今天我们主要讲的内容
就包括什么叫平均数
然后平均数它的一些性质特点
以及如何去计算平均数和在应用的过程中
平均数的优点和缺点
那么今天的课我们就到这
好 谢谢大家
-1.1 统计学的意义
-1.2 心理统计简介
-1.3 基本概念介绍1
-1.4 基本概念介绍2
-1.4 基本概念介绍2--作业
-1.5 研究方法
--1.5 研究方法
-2.1 统计表和统计图简介
--2.1 统计图表
-2.1 统计表和统计图简介--作业
-2.2 频数分布表
-2.2 频数分布表--作业
-2.3 频数分布图
-2.3 频数分布图--作业
-2.4 百分位数和百分等级
-2.4 百分位数和百分等级--作业
-3.1 平均数
--3.1 平均数
-3.1 平均数--作业
-3.2 中数
--3.2 中数
-3.2 中数--作业
-3.3 众数
--3.3 众数
-3.3 众数--作业
-4.1 全距和四分位距
-4.1 全距和四分位距--作业
-4.2 标准差和方差
-4.2 标准差和方差--作业
-4.3 差异系数
--4.3 差异系数
-4.3 差异系数--作业
-5.1 Z分数介绍
-5.1 Z分数介绍--作业
-5.2 Z分数的分布及转换
-5.2 Z分数的分布及转换--作业
-6.1 概率的基本概念
--6.1 概率与二项分布--作业
-6.2 概率与二项分布
-6.2 概率与二项分布--作业
-6.3 概率与正态分布
-6.3 概率与正态分布--作业
-6.4 抽样分布与推论统计
-6.4 抽样分布与推论统计--作业
-7.1 假设检验的一般原理
-7.1 假设检验的一般原理--作业
-7.2 假设检验的一般过程
-7.2 假设检验的一般过程--作业
-7.3 假设检验的不确定性和误差
-7.3 假设检验的不确定性和误差--作业
-7.4 有方向的假设与单侧检验
-7.4 有方向的假设与单侧检验--作业
-8.1 t统计量与t检验
-8.1 t统计量与t检验--作业
-8.2 单样本t检验的方法
-8.2 单样本t检验的方法--作业
-8.3 有方向的检验和单侧检验
-8.3 有方向的检验和单侧检验--作业
-9.1 独立样本t检验
-9.1 独立样本t检验--作业
-9.2 独立样本t检验的应用
-9.2 独立样本t检验的应用--作业
-10.1 相关样本t检验方法
-10.1 相关样本t检验方法--作业
-10.2 有方向的假设和单侧检验
-10.2 有方向的假设和单侧检验--作业
-11.1 效应量的测量
-11.1 效应量的测量--作业
-11.2 均值检验效应量
-11.2 均值检验效应量--作业
-11.3 统计检验力及其影响因素
-11.3 统计检验力及其影响因素--作业
-12.1 参数估计的基本内容
-12.1 参数估计的基本内容--作业
-12.2 用t统计量作参数估计
-12.2 用t统计量作参数估计--作业
-12.3 假设检验和参数估计
-12.3 假设检验和参数估计--作业
-13.1 方差分析的逻辑
-13.1 方差分析的逻辑--作业
-13.2 方差分析的计算
-13.2 方差分析的计算--作业
-14.1 完全随机单因素方差分析
-14.1 完全随机单因素方差分析--作业
-14.2 方差分析的测量效应和事后检验
-14.2 方差分析的测量效应和事后检验--作业
-15.1 重复测量单因素实验设计
-15.1 重复测量单因素实验设计--作业
-15.2 重复测量单因素方差分析的逻辑和计算
-15.2 重复测量单因素方差分析的逻辑和计算--作业
-16.1 完全随机两因素实验设计
-16.1 完全随机两因素实验设计--作业
-16.2 完全随机两因素方差分析的逻辑和计算
-16.2 完全随机两因素方差分析的逻辑和计算--作业
-16.3 简单效应检验
-16.3 简单效应检验--作业
-16.4 完全随机两因素方差分析的效应值和事后检验
-16.4 完全随机两因素方差分析的效应值和事后检验--作业
-17.1 相关概述
-17.1 相关概述--作业
-17.2.1 皮尔逊相关1
-17.2.1 皮尔逊相关1--作业
-17.2.2 皮尔逊相关2
-17.2.2 皮尔逊相关2--作业
-17.3 等级相关
-17.3 等级相关--作业
-17.4 点二列相关和二列相关
-17.4 点二列相关和二列相关--作业
-17.5 φ相关
--17.5 φ相关
-17.5 φ相关--作业
-18.1 简单线性回归
-18.1 简单线性回归--作业
-18.2 回归模型和回归系数
-18.2 回归模型和回归系数--作业
-18.3 线性回归的基本假设
-18.3 线性回归的基本假设--作业
-18.4 变异的分解
-18.4 变异的分解--作业
-18.5 回归方程的估计标准误
-18.5 回归方程的估计标准误--作业
-18.6 回归方差的有效性检验
-18.6 回归方差的有效性检验--作业
-19.1 二项检验
-19.1 二项检验--作业
-19.2 卡方检验
-19.2 卡方检验--作业
-19.3 四格表及列联表
-19.3 四格表及列联表--作业
-20.1 非参数检验概述
-20.1 非参数检验概述--作业
-20.2 单样本非参数检验
-20.2 单样本非参数检验--作业
-20.3 两独立样本非参数检验
-20.3 两独立样本非参数检验--作业
-20.4 多个独立样本非参数检验
-20.4 多个独立样本非参数检验--作业
-20.5 两个配对样本非参数检验
-20.5 两个配对样本非参数检验--作业
-20.6 多配对样本的非参数检验
-20.6 多配对样本的非参数检验--作业