当前课程知识点:心理统计 > 6 概率与抽样分布 > 6.4 抽样分布与推论统计 > 6.4 抽样分布与推论统计
大家好
今天我们学习概率与抽样分布的相关知识
那么在前面的章节中
我们讲到了概率的基本的定义
正态分布以及二项分布
这一节课我们重点讲抽样分布以及抽样分布
与概率统计它们之间的一个关系
在这一节中我们将学到以下内容
第一个抽样分布的概念
样本均值的抽样分布
以及抽样分布与推断统计的关系
首先我们来看第一个问题
抽样分布的概念
说到抽样分布的概念
首先我们要区分三种类型的分布
那就是总体分布
样本分布和抽样分布
尤其是样本分布和抽样分布之间的区别
是我们第一个问题的一个重点
那么我们先来看一下
什么叫总体分布
说到总体
我们前面知道说总体它就是我们所关心的元素
或者说所关心的对象的总体所组成的
那么我们说总体的分布它指的是
总体中所有的元素
或者说是所有的个体的观测值
所组成的这样的一个分布
所以在这个里面的重点就是我们可以知道
每一个个体的它的观测值
因此那么我们说到总体的分布的时候
其实一般来讲它是一个理论上的概率分布
比如说我们经常会说一个成年人的身高
那么我们说总体上来讲会服从正态分布
也就是说说所有的成年人组成的总体
身高会服从一个正态分布
我们这个地方所说的正态分布
就指的是总体的分布了
那么我们再看第二个概念
样本分布
说到样本分布
首先还是来回顾一下什么是样本
样本指的是从总体中抽取出来的
一部分的元素所组成的这样的一个集合
那么我们说样本中元素个数的多少
我们又把它叫做样本量
或者说样本容量
从总体中抽取了一个样本容量为N的样本
那么什么是样本分布
样本分布就指的是我们所得到的
这N个个体的观测值
所组成的这样的一个分布
因此那么我们说样本分布它其实指的是
样本中你能够观测到的
这一些观测值的一个分布了
比如说在最开始我们描述统计里面
讲到的频数分布
其实就是一种样本分布了
这是第二个概念
那么我们下面来看最重要的
我们这一节课要学到的一个概念 抽样分布
那么我们说 说到抽样分布
它指的是什么
它指的是一个样本统计量的概率分布
所以从这一点上来讲的话
我们这个地方强调的一个重点是说
它是某一个样本统计量
我们知道样本统计量是描述样本特征的
比如说我们前面在描述统计部分
学过的平均数
学过的标准差等等
我们说它都是一个样本统计量
抽样分布
它关注的是样本统计量的这样的一个分布
比如说我们说这是一个总体
总体中有特别多的这样一个个体组成的了
我们抽取样本是抽取一部分的个体
组成一个样本
那么抽出来一些个体组成一个样本以后
对于这个样本我们就能够计算出来它的统计量
比如说样本平均值
比如说样本标准差
那么我们说我们再在总体里面同样的方式
抽取同样的样本量的这样的一个样本
我们又能够算到它的一个平均值
一个标准差
假如说这个过程我们可以重复很多很多次
我们就可以抽到很多种这样的一个样本
对于每一个样本来讲的话
我们都可以计算得到它的一些样本统计量
比如说平均数标准差
那么抽样分布指的是什么
抽样分布就指的是样本统计量
它的一个分布的形态是什么样的
那么我们说在这个里面这一节我们会重点关注的
样本统计量就是样本平均值了
那么我们可以再用下面的概念来解释一下说
什么到底是一个抽样分布
就是说某一个样本统计量的抽样分布
从理论上来讲
就是你重复去选取很多个
这样的一个容量是N的样本
那么每一个样本都可以算出一个统计量
那么我们说很多个样本统计量
它所组成的一个分布
我们把它叫做抽样分布了
那么我们知道在实际中
我们抽样的过程往往是从总体中
抽取出来一个样本
也就是说现实中我们不可能抽取出很多次
样本量都是N的这样的一个样本
因此那么我们说统计量的抽样分布
它实际上来讲是一种理论的分布
那么我们说这是抽样分布的它的一个重点
那么我们说抽样分布里面
我们所强调的
首先就是说我是抽取了一个样本
那么我们说随机的样本它和总体是不一样的
它只是部分个体所组成的
那么我们说在这个里面
我们可以抽取出很多个这样的样本
对于每一个样本我们所算出来的
样本统计量的值是不一样的
因此我们说样本统计量它首先是一个随机变量
比如说我们去计算它的均值
那么样本的均值它就是一个随机变量了
如果我们关注样本平均数的
它的分布是一个什么样的形态的话
我们就把它称为我们关注的是
样本均值的抽样分布
所以我们第二个要讲的问题
就是样本平均数的抽样分布到底会是什么样的呢
说到样本平均数的抽样分布
在理论统计里面就有一个中心极限定理
它可以告诉我们样本平均数的分布
会是什么样的一个形态呢
那么我们来看一下中心极限定理的内容
它指的是说从平均数是μ
方差是σ平方的总体中
所以我们这个地方我们要理解的一点
我这个地方所说的均值μ
方差σ平方它是描述总体的特征的
是一个总体的参数
然后在总体中我们抽取容量为N的随机的样本
中心极限定理告诉我们说
N充分大的时候
样本均值它的抽样分布
就会接近于一个正态分布
这时候这个正态分布的均值是μ
方差是N分之σ平方
这就是中心极限定理它所说的内容
那么我们知道在中心极限定理里面
它就告诉我们
它说样本均值它理论上的一个分布是什么样的
说只要你所抽取到的样本 样本容量充分的大
那么我们就可以得到样本均值的
它的一个极限的分布
它会近似服从正态分布
这是中心极限定理的它的核心内容
那么在这个里面就提到了样本统计量
比如说样本均值它所服从的
正态分布的方差是什么
那么我们也就知道它的标准差是什么了
为了区分和总体分布里面的标准差
我们对样本平均数的标准差在统计上
又把它叫做样本平均数的标准误
所以我们这个地方也是引入在推断统计里面的
一个特别核心的这样的一个概念 标准误的概念
所以你就知道标准误其实它是一种形式的标准差
是谁的标准差是某一个样本统计量的标准差
比如说是样本均值的标准差
我们就把它叫做样本平均数的这样一个标准误
把它记为σX的均值
那么我们下标写X的均值
我们知道这个时候我们指的是X均值的标准差
它就这个方差开方
那么我们说是根号N分之σ
下面我们来看一看中心极限定理
我们如何来理解它
首先我们来举一个实际的例子
来看一下中心极限定理的内容
我们这个地方假设我有一个总体
总体里面我只有六个个体组成
我这个地方是一个模拟的很简单的
这样的一个例子
我来解释中心极限定理它的内容
那么对于总体来讲
这是总体中的六个个体的这样的一个观测值
我们能够计算出来总体的均值μ
那么就是这六个数据的一个平均数
然后总体的标准差σ
这是关于总体的这样的一个描述
那么我们现在要做的事情是什么
我们现在要做的事情就是说从总体中
去抽取样本
我所抽取的样本满足的一个特点是说
我这个样本量N是等于2的
然后我们来计算一下它所有可能的抽取的方式
那么我们说作为简单随机抽样
我们可以把它想成是一种有放回的抽取
所以说总体里面包含六个个体
我们现在随机的每一次抽出来两个
那么我们有多少种可以抽取的方式
我这个地方就列出来了
它所有可能的36种抽取的方式
然后对于每一个抽取的方式
我们都能够算出来它的一个样本平均数
这是我们说每一个
我能够算出来它的一个样本平均数
我就能够算出来36个样本平均数
这就是我所有可能的样本量是2的
这样的一个抽样的方式得到的结果
那么中心极限定理里面有特别重要的一条
说所有的样本平均数
也就是说我现在抽取两个
我所得到的样本平均数
那么我们说它的平均数它会服从的一个分布
是什么样的
那么我们再把它的分布画出来
这就是样本平均数的这样一个分部的形态了
那么我们说对于这36个均值
我们求它的平均数
我们所得到的平均数会和总体的平均数相同
也就是中心极限定理里面说的
X均值它会服从的
正态分布的均值是等于总体的均值μ的
然后我们来看
再把这一些36个均值再求它的标准差
我们所得到的就是样本均值的标准差
我们又把它叫做标准误
这36个数字算出来的标准差1.5092
它也就在数值上是相当于我刚才说的标准误的
这样一个概念
那么这一个部分是举了一个很简单的例子
让大家理解到底什么是抽样分布
它描述的就是所有可能的这一种抽样方式下
那么我们说样本均值的这样的一个分布的形态
那么我们也看出来了
说如果把所有可能的抽出来的话
均值的均值是会等于总体的均值的
那么均值的标准差正好就等于
中心极限定理里面所说的标准误的概念
当然了这是一个假想的例子了
那么我们再来看中心极限定理
我们用一个图的形式来表示它
它说的是什么呢
它在说总体的分布的时候
只指明了说总体的均值是μ
标准差是σ
而没有要求总体一定要服从什么样的分布
但是最后关于样本均值的分布
它说它会近似服从一个正态分布
我们这个地方用一个图的形式来呈现
比如说这是一个总体
总体其实是一个均匀分布了
那么我这个是N等于2
然后这是N等于5
这是N等于30
我们来看对于这样的一个均匀的分布
我们随着样本量的增大
我们可以看出来X均值的分布越来越接近这样
我们前面讲过的正态分布中间高两边低的
这样的一个对称的这样一个分布
那说如果说我的分布是这样子的
你看我中间是低的两边是比较高的
同样的随着样本量的增大
那么这个X均值的分布会接近于正态分布
可能有的人会说说
你刚才前面说到的这两个分布
最起码还是对称的
如果我总体的分布根本就不对称
比如说我就是这样的一个分布
我总体3描述的这样的一个分布
会不会随着样本量的增大
那么样本均值的分布也会接近于正态分布
那么我们可以看出来
你看N等于2的时候
它是不可能既趋于正态分布的
但是我们看随着N的增大
比如说增大到30
它就会接近于一个正态分布
这是用一个图的形式来给大家解释这个
中心极限定理
当然了如果说你的总体本身就是正态分布
那么我们说不管样本量N多大
这个X均值都会服从正态分布的
那么关于这一点
我们也可以用一些模拟演示的方式来告诉我们
它所说的这样一个结论
比如说我这个地方就是做了一个计算机的模拟
这是一个总体的直方图
这个是服从一个均匀分布
在这个里面我们可以知道说在均匀分布里面
它的总体的均值是等于4.996
标准差2.882
我在模拟的时候是生成了这样的
个体是16000这样的组成的这样的一个总体
然后我们可以在这个里面去抽取了
比如说我抽取了N等于2的这样的一个样本
那么我们说我抽取多少次
我重复地去抽取
我重复地去抽取4000次
那么你知道我可以得到4000个均值了
把这4000个均值画在这儿
那么我们说它的分布是这样子的
然后我们也可以计算出来它的均值
计算出来它的标准差
那么理论上我们还可以知道N等于2的时候
它的标准误是多大
那么我们说这是你可以重复4000次
这就是计算机模拟的一个好处了
那么我们实际中的抽样我们其实抽一次了
但是如果你用模拟的方式
你是可以抽很多次
这也是我抽了4000次的这样的一个结果
同样我们可以改变我们的样本量的大小
这个图是说抽取的样本量N等于10的时候
它是会服从一个什么样的分布
这个是说N等于80的时候
它会服从一个什么样的分布
那么比较一下这几个图
我们其实不难发现说随着你所抽取的N的增大
那么我们说我们所得到的抽样分布
它的标准差是在减小的
也就是说它的随机的变异越来越小
这是在均匀分布里面
同样
那么我们说你可以随机的生成一个
比如说我这样的一个分布是两边多中间少
这样的一个U型的这样的一个分布
我抽取N等于2的时候
我得到的是这样的一个分布
那么我把N增大这个是N等于3的时候
然后N那么我们说再把它增大到30
我们可以看出来
在这个里面
N很小的时候
我虽然我也是重复抽取了4000次
我们看到它的均值其实并不是一个正态分布
这个里面都是一个多峰的分布了
但是随着N的增大
我们可以看到它就接近于这样的一个正态分布
了
这是我们说的第二个问题
中心极限定理的一个理解
或者说样本平均数的它的一个抽样分布
那么刚才我们就知道了样本平均数的
它的一个抽样分布
在推断统计里面可以说抽样分布是推断统计的
它的一个理论的基础
那么我们知道推断统计里面
我们重点要解决的问题
其实是关于总体和样本之间关系的一个问题
也就是说我们关心的问题是总体
但是我们采用的研究的手段
是对于样本里面的个体进行研究
所以我们说我们的目的其实是要通过样本
来推断总体的特征
抽样分布是建立起来
样本和总体之间关系的一个基础
因此抽样分布它在推断统计里面
起着一个特别重要的一个桥梁的作用
也就是说它能够告诉我们
如果说从总体里面抽取一个样本
那么我们说样本统计量
会服从一个什么样的分布
从而在一定的概率意义下去说
我这个样本的均值和总体均值
样本的标准差和总体标准差之间
可能会存在一个什么样的关系
所以我们说抽样分布它是可以用来预测
一个总体中可能会得到一个什么样的样本
那么这个样本和总体之间
到底是一个什么样的关系
这是我们说抽样分布
它在推断统计里面的一个重要的作用
说到它的重要作用
我们可以以这个图来看一下
那么我们知道在统计里面我们所关心的问题
是总体的参数了
对于总体参数它就有一个特点
说总体参数它实际上是描述总体特征的
那么从性质上来讲
它应该是一个常数了
但是我们这个常数往往是不知道的 怎么办
我们为了解决关于总体的问题
我们就会去做一个抽样
我们得到一个样本
然后从这个样本里面
可以计算得到一些样本统计量的值
比如说样本的平均数
样本的标准差等等
得到了样本统计量以后
我们知道样本统计量它会在不同次的抽取结果里面
实际上是会存在变异的
所以我们知道它是有抽样误差存在的
那么我们说对于样本的变异
为了描述它的这样的一个抽样误差
我们就讲到了这样的一个抽样分布
抽样分布就告诉我们你所抽取的样本
那么我们说它是来自于一个什么样的分布的
里面有几个重要的地方
也就是说那么我们说它的中心的值在哪儿
它的离散的程度是什么
它的一个分布的形态是什么
比如说我们这节课中心极限定理里面
就告诉我们说它会服从正态分布
它的均值是什么
它的标准差是什么
从而我们根据抽样分布来推断总体的参数
会是什么样的
所以从这个图上我们可以知道抽样分布
它所起的这样的一个关键的作用
关于抽样分布的作用
那么我们说这一篇文献里面有重点去谈
它在推断统计里面的一个作用
感兴趣的同学可以下面再看这一个部分
那么说到抽样分布和推断统计的关系
有一些关键点是我们这节课要能够理解
并且能够掌握的
首先那么我们说样本一定是从一个总体中
随机抽取的
然后总体是由参数来描述的
参数它是一个常数了
然后样本统计量
那么我们说是有样本的观测值计算得来的
它是一个变量
样本统计量的分布叫做抽样分布
然后我们这一节课也学到了其中的
一个抽样分布
就是样本均值它的抽样分布会接近于正态分布
所以在这个里面我没有谈到它的形状
正态分布中心就等于总体的均值
然后离散程度也就我们引入一个标准误的
这样的一个概念
那么抽样分布的离散程度
实际上是和它的样本量的大小有关的
我们也从一些模拟的例子上面看出来这一点
但是我们一定要知道就说
这个抽样分布的中心
它和总体的参数是相等的
这是我们在后面学推断统计里面的
不管是假设检验还是参数估计特别重要的一点
这是我们的第三个问题要让大家掌握的
我们总结一下这节课所学到的内容
那么这一节课我们主要首先是讲到了一个概念
然后讲到一个中心极限定理引出来样本平均数的
它的分布的情况
并且通过一些例子去演示了样本量
对它的一个离散程度的这样的一个影响
以及多次所抽到的这样的一个均值
和它总体均值的这样的一个影响
那么我们说这个部分我们有一个重点
还有一个就是它在推断统计里面的重要的作用
这是我们这一节课讲到的主要的内容
那么课后我们可以学习我们相关的操作的视频
来进一步的理解抽样分布以及样本平均数的
它的抽样分布的性质
好这一节课我们就到这
谢谢大家
-1.1 统计学的意义
-1.2 心理统计简介
-1.3 基本概念介绍1
-1.4 基本概念介绍2
-1.4 基本概念介绍2--作业
-1.5 研究方法
--1.5 研究方法
-2.1 统计表和统计图简介
--2.1 统计图表
-2.1 统计表和统计图简介--作业
-2.2 频数分布表
-2.2 频数分布表--作业
-2.3 频数分布图
-2.3 频数分布图--作业
-2.4 百分位数和百分等级
-2.4 百分位数和百分等级--作业
-3.1 平均数
--3.1 平均数
-3.1 平均数--作业
-3.2 中数
--3.2 中数
-3.2 中数--作业
-3.3 众数
--3.3 众数
-3.3 众数--作业
-4.1 全距和四分位距
-4.1 全距和四分位距--作业
-4.2 标准差和方差
-4.2 标准差和方差--作业
-4.3 差异系数
--4.3 差异系数
-4.3 差异系数--作业
-5.1 Z分数介绍
-5.1 Z分数介绍--作业
-5.2 Z分数的分布及转换
-5.2 Z分数的分布及转换--作业
-6.1 概率的基本概念
--6.1 概率与二项分布--作业
-6.2 概率与二项分布
-6.2 概率与二项分布--作业
-6.3 概率与正态分布
-6.3 概率与正态分布--作业
-6.4 抽样分布与推论统计
-6.4 抽样分布与推论统计--作业
-7.1 假设检验的一般原理
-7.1 假设检验的一般原理--作业
-7.2 假设检验的一般过程
-7.2 假设检验的一般过程--作业
-7.3 假设检验的不确定性和误差
-7.3 假设检验的不确定性和误差--作业
-7.4 有方向的假设与单侧检验
-7.4 有方向的假设与单侧检验--作业
-8.1 t统计量与t检验
-8.1 t统计量与t检验--作业
-8.2 单样本t检验的方法
-8.2 单样本t检验的方法--作业
-8.3 有方向的检验和单侧检验
-8.3 有方向的检验和单侧检验--作业
-9.1 独立样本t检验
-9.1 独立样本t检验--作业
-9.2 独立样本t检验的应用
-9.2 独立样本t检验的应用--作业
-10.1 相关样本t检验方法
-10.1 相关样本t检验方法--作业
-10.2 有方向的假设和单侧检验
-10.2 有方向的假设和单侧检验--作业
-11.1 效应量的测量
-11.1 效应量的测量--作业
-11.2 均值检验效应量
-11.2 均值检验效应量--作业
-11.3 统计检验力及其影响因素
-11.3 统计检验力及其影响因素--作业
-12.1 参数估计的基本内容
-12.1 参数估计的基本内容--作业
-12.2 用t统计量作参数估计
-12.2 用t统计量作参数估计--作业
-12.3 假设检验和参数估计
-12.3 假设检验和参数估计--作业
-13.1 方差分析的逻辑
-13.1 方差分析的逻辑--作业
-13.2 方差分析的计算
-13.2 方差分析的计算--作业
-14.1 完全随机单因素方差分析
-14.1 完全随机单因素方差分析--作业
-14.2 方差分析的测量效应和事后检验
-14.2 方差分析的测量效应和事后检验--作业
-15.1 重复测量单因素实验设计
-15.1 重复测量单因素实验设计--作业
-15.2 重复测量单因素方差分析的逻辑和计算
-15.2 重复测量单因素方差分析的逻辑和计算--作业
-16.1 完全随机两因素实验设计
-16.1 完全随机两因素实验设计--作业
-16.2 完全随机两因素方差分析的逻辑和计算
-16.2 完全随机两因素方差分析的逻辑和计算--作业
-16.3 简单效应检验
-16.3 简单效应检验--作业
-16.4 完全随机两因素方差分析的效应值和事后检验
-16.4 完全随机两因素方差分析的效应值和事后检验--作业
-17.1 相关概述
-17.1 相关概述--作业
-17.2.1 皮尔逊相关1
-17.2.1 皮尔逊相关1--作业
-17.2.2 皮尔逊相关2
-17.2.2 皮尔逊相关2--作业
-17.3 等级相关
-17.3 等级相关--作业
-17.4 点二列相关和二列相关
-17.4 点二列相关和二列相关--作业
-17.5 φ相关
--17.5 φ相关
-17.5 φ相关--作业
-18.1 简单线性回归
-18.1 简单线性回归--作业
-18.2 回归模型和回归系数
-18.2 回归模型和回归系数--作业
-18.3 线性回归的基本假设
-18.3 线性回归的基本假设--作业
-18.4 变异的分解
-18.4 变异的分解--作业
-18.5 回归方程的估计标准误
-18.5 回归方程的估计标准误--作业
-18.6 回归方差的有效性检验
-18.6 回归方差的有效性检验--作业
-19.1 二项检验
-19.1 二项检验--作业
-19.2 卡方检验
-19.2 卡方检验--作业
-19.3 四格表及列联表
-19.3 四格表及列联表--作业
-20.1 非参数检验概述
-20.1 非参数检验概述--作业
-20.2 单样本非参数检验
-20.2 单样本非参数检验--作业
-20.3 两独立样本非参数检验
-20.3 两独立样本非参数检验--作业
-20.4 多个独立样本非参数检验
-20.4 多个独立样本非参数检验--作业
-20.5 两个配对样本非参数检验
-20.5 两个配对样本非参数检验--作业
-20.6 多配对样本的非参数检验
-20.6 多配对样本的非参数检验--作业