当前课程知识点:心理统计 > 6 概率与抽样分布 > 6.2 概率与二项分布 > 6.2 概率与二项分布
大家好
今天我们学习有关概率与抽样分布中
概率分布与二项分布相关的内容
那么在这一节中我们将会学到随机变量
随机分布的定义以及概率分布的基本的类型
以及常用的二项分布的定义
二项分布图和二项分布在实际中的一些应用
首先我们会来看一下什么是随机变量
那么上一节课我们说到了随机事件
也就是说随机事件它指的是一个随机现象
可能出现的这样的一个结果了
那么我们说如果说我们把这一些
随机事件的可能的结果
用一个变量的形式来表示的话
实际上就是一个随机变量
那么我们来看一下
说随机实验的结果
我们把它用变量的形式来表示出来
这个变量通过取不同的数值来描述不同的结果
那么这个变量我们就把它叫做随机变量
为什么把它叫做随机变量
就是因为这个随机事件它有可能会出现
也有可能不出现
它的出现
它的取值是不唯一的
所以我们把它叫做随机变量
随机变量一般情况下
我们会用大写的XYZ等等这些字母来表示
比如说我们说在一个年级随机的抽取三名学生
抽取到的男生
我抽取三名学生
我说抽取到的男生的个数有几个
那么我们知道这个结果它具有不确定性
我们有可能一个男生也没有抽到
有可能抽到了一个
也有可能抽到两个
也有可能抽到的三个都是男生
所以我们说它的有可能的结果是有多个
所以我们为什么要用一个变量来描述了
用一个变量来描述它的这种不确定性的结果
如果说我用变量X来描述
我这一次随机实验里面
抽取到的男生的个数
那么我们说我这个X就可能取0 1 2 3
这四个不同的数值
这个X我们就把它叫做随机变量了
通过这样的一个例子
我们也知道这个随机变量
它取不同的值
实际上是对应了随机实验的一个不同的结果
这是我们说到的随机变量
对于随机变量来讲的话
按照它的取值的特点
我们可以把它分为离散型的随机变量
和连续型的随机变量两种类型
什么叫离散型的随机变量呢
也就是说一个随机变量X
这个X它的取值是有限个数值
我们可以把X所有的取值都列下来
我们就称作这个随机变量
X是一个离散型随机变量
比如说我们说从班上随机的抽取十名学生
所得到的男生的人数
那么我们知道所得到的男生的人数
有可能是0 1 2一直到10
这11个不同的这样的一个数值
X所对应的取值是有限个的
并且我们也知道在1和2之间
不可能再有其他的数值出现了
我们就把X叫做是一个离散型的随机变量
这个离散型的随机变量它就有一个好处了
因为它的数值是有限个的
所以我们就可以把X所有的取值列下来
这是离散型的随机变量
那么除了离散型随机变量
还有一种连续型的随机变量
什么是连续型的随机变量呢
我们可以结合连续数据的特点
来理解连续型随机变量的特点
也就是说X它的取值呢
不是可以一一的列举出来的
一般情况下我所表示出来一个数字
通常都描述了一个区间的范围
那么我们说这个数字
它是可以无限的去细分下去的
那么我们就把它叫做连续型的
比如说我们经常会说的长度
重量
一直心理学研究里面经常会测量的智力态度
等等
以及学业能力
这些数字它都是一个连续型的数字
那么对于连续型的数字
我们一般情况下说X等于多少
都所描述出来的数字
从它的测量的范围来讲
它的有效数字的范围来讲就已经是一个区间了
所以我们说对于连续型的随机变量
我们一般情况下不会去关心说
X等于某一个数字的概率
二是会去关心说X它落到某一个范围里面
这是我们说连续型的随机变量
而且我们就说到了两种类型的随机变量了
离散型的和连续型的
那么我们说对于不同类型的随机变量
我们描述它的概率分布的时候实际上也不一样
所以我们下面首先先来看一下概率分布
我们上一节课讲到了概率的这样的一个概念
概率它描述的是某一个实验的结果
它发生的可能性
那么概率分布它描述的是随机变量取值
以及这个取值对应的概率的这样的一个分布
我们又把它叫做随机变量的概率分布
简称为随机变量的分布
在实际中我们往往会借助于频率的分布的形态
对于一个变量的概率的分布形态
做出近似的估计
上一节课我们其实讲到概率的一个统计定义
它背后的原理实际上来讲就是这一个部分
那么我们也知道我用这个频率分布
来近似概率分布的时候
样本量越大
那么我们说它接近的程度就越高
比如说我们经常会说
我根据500次投掷硬币的实际的结果来判断
正面向上和正面向下的概率
它是接近于0.5的
我们也可以说我随机的抽取了一个样本
比如说我随机的抽取了200名儿童
然后对他进行了智力测验
我们就可以得到一个智力测验的分数的分布
如果说智力测验的频数的分布的形态
接近于正态分布的话
那么我们就可以近似地估计或者推断
儿童的智力分数
它的概率分布可能是正态分布的
这是我们通常会用到的一些方法
也就实际中我们用样本来推断这个概率的分布
那么说到这个概率的分布的话
根据变量的类型概率的分布
通常也包含两种类型
一种是离散型的概率分布
一种是连续型的概率分布
那么我们先来看离散型的变量的概率分布
对于离散型的分布来讲的话
我们知道X的取值是有限个的
我们可以把X的值一一的列出来
然后如果我们列出这个数值的时候
同时也给出来X取某一个值的概率
那么这样的话我们实际上就得到了
离散型变量的这样的一个概率的分布
也就是说我们把它的取值和对应的概率
都列下来
所得到的其实就是一个离散型的概率的分布
那么我们说对于连续型的随机变量的分布的话
那么我们说通常我们没有办法把它的数值
一一列举出来
它是一个连续的
那么经常我们怎么来描述呢
经常我们就会用一个数学模型来描述随机变量
和它的取值概率之间的一个关系
那么在统计上用的最多的就是用概率密度函数
或者说用概率分布函数
来描述连续性随机变量的分布
在后面我们讲到正态分布的时候
还会再返回来去讲这样的一些概念
那么我们就知道说对于概率分布的话
从它的大类上来讲
分为离散型的和连续型的
然后在实际中离散型和连续型
又会对应于不同的这样的一个分布
那么在我们的实践中最常用到的
一些离散型的分布
有类似于二项分布泊松分布等等
那么常用到的连续型的随机分布
比如说有均匀分布正态分布对数正态分布
等等指数分布等等
那么我们说这样的一些连续性的
这样的一些分布
这是我们第一个部分
我们主要要了解到概率分布和随机变量
这样的一些概念
那么下面我们会结合离散型数据分布里面
最常用的二项分布
来介绍一下二项分布的相关的内容
首先我们来看一下什么是二项分布
二项分布从它的字面意思来理解
就是我实验的结果有两种类型
也就是说我的实验的结果有两个结果
A出现
A不出现
那么我们说这个实验可以被独立的重复N次
假如说这个实验我重复了N次
每一次实验的结果又只有两个
A出来现和A不出现
并且在每一次实验里面
这个事件A出现的概率都是P
不出现的概率我们把它记为q=1-p
那么二项分布描述的是什么呢
二项分布描述的是在这N次实验里面
随机事件A它出现了X次的概率是多少
那么我们说二项分布就是说如果是这样的话
那么在这N次实验里面
这个事件A出现X次的概率
就可以表示为这样的一个形式
那么我们说Cn取X实际上就是说
在N次里面抽取X次的一个组合数
pr是每一次实验里面A出现的概率
q是A不出现的概率
这个就是二项分布这样的一个定义
那么我们说下面我们来看一个例子
来看看二项分布它的一个实际的应用
和我们对二项分布的这样的一个理解
假如我们说一个正常的20岁的成年人
他活到65岁的概率是80%
那么我们说现在有三个成年人
那么其中有两个人可以活到65岁的概率是多少
那么我们来想一想这个地方
我们就知道说假如说我们随机的去抽
假如说我们现在是随机的去抽
那么我们的结果我们关心的结果就有两种了
一个就是说他活到了65岁
一个就说他没有
那么活到65岁的概率是多少呢
这个P的值是等于80%
这就是我们说我们的我们实验做了几次呢
我们抽取了三个人
所以我们的N是等于3
然后我们也可以去想一想说
我所有可能的结果是什么样的
我们把所有可能的结果列下来
我们把所有可能的结果列下来
比如说我抽取了一个人
那么我来判断一下他有没有活到65岁
那么我们知道他活到65岁的概率0.8
它活不到65岁的概率0.2
然后我们再抽第二个人
然后再抽第三个人
所以我们说我抽取三个人
我所有可能的结果有多少种
我们列下来的话
有可能说我们这三个人都是超过65岁的
也有可能他都没有超过
总之我们所有的情况有这么多种
那么我们可以知道这是它所有的情况
就是有八种了
我们可以根据我们上一次课讲的独立事件的
概率的计算的方法
去算出来每一种情况它出现的概率是多少
然后我们知道我们说三个里面有两个人
所以我们就知道它其实是有几种情况
是有三种情况
也就是在这八种里面
那么我们说满足条件的三种情况
然后我们再把这三种情况的概率加起来
就是我们所得到的
那么我刚才所说的这一种计算概率的方法
用上一节课我们讲到的概率的加法定理
和乘法定理就能得到
那么刚才我们所讲到的二项分布里面
我们刚才就说到
就是说在这个里面的话
这样的一个事件它的概率直接的
可以用这样的一个二项分布的形式来算出来
那么我们说N是等于3的
我们现在要抽取出来的满足条件的X是等于2
所以我们说是C3取2
然后里面P是等于0.8
那么0.8的平方再乘以0.2的1次方
我们就可以计算出来它的概率
那么它计算出来的概率应该是一样的
这就是我们说二项分布
基于二项分布
我们就可以计算很多
随机事件的这样的一些概率了
同样我们刚才前面也讲到了
离散型变量的一个概率分布的形式
那么我们下面说它的分布
我们有两种形式来描述
一种就是以列表的形式
一种也可以把它列成这样的一个二项分布图
什么叫二项分布图
就是以成功事件出现的次数为横坐标
成功事件出现的概率为纵坐标
来画一个多边图或者直方图来描述它
是离散型的分布很常用的一种方式
我们通过一个例子来看二项分布
来看一个离散型的概率分布和二项分布图
假如我们说我们钻油
我们知道我们成功的概率是0.3
我们知道我们成功的概率是0.3
然后一个公司他找了六处
有可能的这样的一个点
然后最后我们要计算的时候
它正好挖到两处
那么我们知道N是等于6了
然后我们要求的X是等于2
利用刚才前面的二项分布
我们就可以直接的得到
那么我们说C6取2
然后0.3的平方
这是我们说因为正好挖到两处
然后0.7的4次方
我们就可以得到X等于2的概率
这是直接利用前面我们说到的二项分布
我们就可以算出来
然后我们说如果我想要把它的概率分布
给它列出来的话怎么办
那么我们说我可以知道就是说X表示
它有多少次成功
那么我们的X有可能你挖了六处
你一次都没有成功
也有可能你成功了一次
成功了两次
成功了三次四次五次六次
那么我们把X的根据刚才的二项分布
我们就能够算出来X等于某一个值的概率
我们可以说X有可能的取值就是0到6
然后根据二项分布可以计算得到它的概率
这样的一个列表的形式
其实就是一个离散型变量的概率分布
你就列出来重点两个了
一个就是列出了X的值
还有一个就是它取这个值的概率
那么我们同样还可以用一个图的形式
把它表现出来
这个就是一个二项分布图了
那么我们说横坐标是X出现的次数
纵坐标描述它的概率
这是离散型的
分布通常会用的表示的方式
那么说到二项分布图的话
那么我们还可以知道
说所画出来的二项分布图的样子
应该和p和q的值是有关系的
如果说p和q是相等的
那么我们说我们近似得到
这样的一个对称的形式
如果说p和q不相等
P的值比较小
那么我们说它的值比较小的概率就比较大
它就是一个正偏态的分布
如果说P的值比较大
那么它将会是一个负偏态的这样的一个分布
我们可以去画这样的一些二项分布的图
但是不管它是什么样的
我们说随着N的增大
也就是说我重复次数的增大
我X的分布的形态就逐渐会接近于正态分布
这是在二项分布里面很重要的一点
我们又把它叫做二项分布的极限分布
它说的是什么呢
说N趋于无穷大的时候
但是我们知道N趋于无穷大
在实际中怎么用
说在实际中N很大
大到什么程度说np和nq的值
都大于等于10
那么这时候二项分布它就会接近于正态分布
接近于什么样的正态分布
接近于均值是N乘以P
标准差是npq开平方根
这样的一个正态分布
那么根据这一点的话
可以简化我们二项分布的很多的计算
我们可以举一个例子来看
假如说一个学生一次测验
他回答20道是非判断题
那么每一题得一分
那么它得了18分
我们问他假如说学生他都是猜测的
他猜测得到18分以上的概率有多少
那么如果用二项分布的话
我们也是可以算的
因为我们可以去算
他得到18分以上
其实就得19分和得20分
我们说了X等于19
X等于20我们就可以去算
但是我们知道等于N很大的时候
实际上去计算它的概率的时候
计算量还是比较大的
但是我们说如果我们用它近似服从
正态的这样的一个性质的话
我们就知道说这时候他就会接近一个正态分布
均值是N乘以P那么我们均值是10
然后我们也可以算出来它的标准差
然后我们说我就可以在这个标准的
这个正态分布里面去算X大于18
那么我们要知道的是
X大于18的概率的
X它是近似服从一个正态分布了
我们可以通过它的一个标准化的转换
我们Z分数其实就是对它做一个标准化的转换
也就是相当于在标准正态分布里面
我们查在3.57以上的概率是多少
那么我们说关于这一点
我们下一节课的正态分布还会再讲到
如何利用正态分布表来计算一些随机变量
它落到某一个区间里面的概率的问题
这一个部分呢
虽然我们因为正态分布没有学
你这个概率你可能算不出来
但是这个部分要让大家理解的
N趋无穷大的时候
二项分布就近似于一个正态分布了
我们总结一下这一节课所学的内容
首先我们这一节课说到了随机变量这个概念
随机变量和概率分布之间的一个联系
我们又讲到了离散型和连续型
两种不同的概率分布
最后我们讲到了一个很重要的离散型的分布
二项分布
然后我们说二项分布
我们可以来描述它的一个分布的形态
讲到了二项分布图这样的一个概念
这是我们这一节课的重点
好谢谢大家
-1.1 统计学的意义
-1.2 心理统计简介
-1.3 基本概念介绍1
-1.4 基本概念介绍2
-1.4 基本概念介绍2--作业
-1.5 研究方法
--1.5 研究方法
-2.1 统计表和统计图简介
--2.1 统计图表
-2.1 统计表和统计图简介--作业
-2.2 频数分布表
-2.2 频数分布表--作业
-2.3 频数分布图
-2.3 频数分布图--作业
-2.4 百分位数和百分等级
-2.4 百分位数和百分等级--作业
-3.1 平均数
--3.1 平均数
-3.1 平均数--作业
-3.2 中数
--3.2 中数
-3.2 中数--作业
-3.3 众数
--3.3 众数
-3.3 众数--作业
-4.1 全距和四分位距
-4.1 全距和四分位距--作业
-4.2 标准差和方差
-4.2 标准差和方差--作业
-4.3 差异系数
--4.3 差异系数
-4.3 差异系数--作业
-5.1 Z分数介绍
-5.1 Z分数介绍--作业
-5.2 Z分数的分布及转换
-5.2 Z分数的分布及转换--作业
-6.1 概率的基本概念
--6.1 概率与二项分布--作业
-6.2 概率与二项分布
-6.2 概率与二项分布--作业
-6.3 概率与正态分布
-6.3 概率与正态分布--作业
-6.4 抽样分布与推论统计
-6.4 抽样分布与推论统计--作业
-7.1 假设检验的一般原理
-7.1 假设检验的一般原理--作业
-7.2 假设检验的一般过程
-7.2 假设检验的一般过程--作业
-7.3 假设检验的不确定性和误差
-7.3 假设检验的不确定性和误差--作业
-7.4 有方向的假设与单侧检验
-7.4 有方向的假设与单侧检验--作业
-8.1 t统计量与t检验
-8.1 t统计量与t检验--作业
-8.2 单样本t检验的方法
-8.2 单样本t检验的方法--作业
-8.3 有方向的检验和单侧检验
-8.3 有方向的检验和单侧检验--作业
-9.1 独立样本t检验
-9.1 独立样本t检验--作业
-9.2 独立样本t检验的应用
-9.2 独立样本t检验的应用--作业
-10.1 相关样本t检验方法
-10.1 相关样本t检验方法--作业
-10.2 有方向的假设和单侧检验
-10.2 有方向的假设和单侧检验--作业
-11.1 效应量的测量
-11.1 效应量的测量--作业
-11.2 均值检验效应量
-11.2 均值检验效应量--作业
-11.3 统计检验力及其影响因素
-11.3 统计检验力及其影响因素--作业
-12.1 参数估计的基本内容
-12.1 参数估计的基本内容--作业
-12.2 用t统计量作参数估计
-12.2 用t统计量作参数估计--作业
-12.3 假设检验和参数估计
-12.3 假设检验和参数估计--作业
-13.1 方差分析的逻辑
-13.1 方差分析的逻辑--作业
-13.2 方差分析的计算
-13.2 方差分析的计算--作业
-14.1 完全随机单因素方差分析
-14.1 完全随机单因素方差分析--作业
-14.2 方差分析的测量效应和事后检验
-14.2 方差分析的测量效应和事后检验--作业
-15.1 重复测量单因素实验设计
-15.1 重复测量单因素实验设计--作业
-15.2 重复测量单因素方差分析的逻辑和计算
-15.2 重复测量单因素方差分析的逻辑和计算--作业
-16.1 完全随机两因素实验设计
-16.1 完全随机两因素实验设计--作业
-16.2 完全随机两因素方差分析的逻辑和计算
-16.2 完全随机两因素方差分析的逻辑和计算--作业
-16.3 简单效应检验
-16.3 简单效应检验--作业
-16.4 完全随机两因素方差分析的效应值和事后检验
-16.4 完全随机两因素方差分析的效应值和事后检验--作业
-17.1 相关概述
-17.1 相关概述--作业
-17.2.1 皮尔逊相关1
-17.2.1 皮尔逊相关1--作业
-17.2.2 皮尔逊相关2
-17.2.2 皮尔逊相关2--作业
-17.3 等级相关
-17.3 等级相关--作业
-17.4 点二列相关和二列相关
-17.4 点二列相关和二列相关--作业
-17.5 φ相关
--17.5 φ相关
-17.5 φ相关--作业
-18.1 简单线性回归
-18.1 简单线性回归--作业
-18.2 回归模型和回归系数
-18.2 回归模型和回归系数--作业
-18.3 线性回归的基本假设
-18.3 线性回归的基本假设--作业
-18.4 变异的分解
-18.4 变异的分解--作业
-18.5 回归方程的估计标准误
-18.5 回归方程的估计标准误--作业
-18.6 回归方差的有效性检验
-18.6 回归方差的有效性检验--作业
-19.1 二项检验
-19.1 二项检验--作业
-19.2 卡方检验
-19.2 卡方检验--作业
-19.3 四格表及列联表
-19.3 四格表及列联表--作业
-20.1 非参数检验概述
-20.1 非参数检验概述--作业
-20.2 单样本非参数检验
-20.2 单样本非参数检验--作业
-20.3 两独立样本非参数检验
-20.3 两独立样本非参数检验--作业
-20.4 多个独立样本非参数检验
-20.4 多个独立样本非参数检验--作业
-20.5 两个配对样本非参数检验
-20.5 两个配对样本非参数检验--作业
-20.6 多配对样本的非参数检验
-20.6 多配对样本的非参数检验--作业