当前课程知识点:概率论与数理统计 > 第二周:条件概率和独立性 > 应用实例 > 2.4 应用实例
我们已经学习了概率的事件表达
条件概率的计算等基本方法
这一节课
我们运用所学的概念和方法
分析和理解两个应用实例
第一个例子是关于研究生招生的
1973年
加州大学伯克利分校的研究生招生过程中
从全部8442名男生申请者中
录取了44%
从全部4321名女生申请者中
录取了35%
女生录取率比男生录取率低了9个百分点
这一情况引起了社会的争议
伯克利大学在研究生招生过程中
是否对女生有歧视呢
大学方面
并没有任视女生的政策和做法
但录取比例上的差异是客观的事实
作为伯克利大学
如何解释让公众消除误解呢
伯克利大学的几位统计学教授
细致地考察了
研究生招生过程中的数据
终于澄清了事实
给出自身公正性的有说服力的解释
他们利用统计工具
对这一案例做了非常深刻的分析
以至于最终的研究结果
发表在国际权威的学术期刊Science上
我们这里只给出一个
有一定说服力的最初步的解释
更为细致的数据是
伯克利大学各专业的申请、录取信息
实际专业数很多
这里我们只列出最大的
6个专业研究生入学的录取信息
6个专业分别用编号A到F表示
数据包括各专业的
男、女生申请人数和录取比例
计算这6个专业总体的男、女生录取率
男生为44.5% 女生为30.3%
甚至比全校的数据更不利于女生
而表中各个专业的男、女生录取率
其实并无大的差别
那么最终的差异来自哪里呢
再进一步观察不难发现
录取率相对较高的专业
男生申请人数明显多于女生申请人数
而录取率相对较低的专业
则男女生申请人数差不多
女生似乎还更多一些
考虑极端的情况
A专业录取率为80%
B专业录取率为20%
而男生全都申请A专业
女生全部申请B专业
自然得到表面上的结果
就是男生录取率80%
女生录取率20%
虽然这里并没有任何性别因素
所以简单的看入学率是不合理的
简单的看各专业的录取率
同样不全面
对入学难度更合理的考察
应该综合考虑各系的规模和录取率
类似于全概率公式的方法
计算加权入学率
经过计算
男生的加权平均入学率约为39%
女生的加权平均入学率约为43%
如果一定要说出某种倾向性的话
似乎录取更偏向女生
第二个例子是Monty Hall问题
Monty Hall 是上个世纪六七十年代
美国的一位电视节目主持人
他曾经主持一个现场互动节目
在节目中准备三扇门
并且在这三扇门中随机的选一扇
后面放一辆汽车
而另外两扇门呢
后面放一些更廉价的东西
为了趣味性
他在剩下两扇门后各放一只山羊
节目的规则是主持人选择一名观众
请他上台在三扇门中任选一扇
如果选定了某扇门
则主持人将此扇门打开
观众得到门后面的东西
因为车和羊的价值非常悬殊
就增加了节目的悬念
节目的进程是
当参加互动的观众选择一扇门后
主持人并不马上打开
这名观众选中的门
而是在另外两扇门中打开一扇
露出门后的山羊
这是一定能做到的
因为无论观众选择那一扇门
剩下两扇中都至少有一扇后面是羊
主持人然后问这名参与互动的观众
要不要换另一扇仍然关着的门
此时换好还是不换好
就涉及到了概率计算问题
刚开始三扇门后面有汽车的概率
显然均为1/3
主持人打开一扇门后
剩下两扇门后面有汽车的概率
会不会因为前面的操作而发生变化
这个问题之所以出名
一方面是这个节目本身比较受欢迎
有相当的知名度
另一个原因是著名数学家Erdos
曾经对这个问题感到很困惑
Erdos是上个世纪最著名的数学家之一
他很出名的一项工作是
与另一位数学家塞尔伯格
几乎同时
而又是相互独立地
给出了素数定理最早的初等证明
素数定理就是前n个自然数中
素数所占比例大约是n分之ln(n)
是数论中一个非常基本的结果
Erdos还是20世纪最高产的数学家
一生写了1500多篇学术论文
获得过数学界
终身成就的最高奖沃尔夫奖
就是这样一位世界级的数学家
居然对这么一个数学游戏问题
感到困惑
就使得这个问题
在数学界非常有名了
当然Erdos不是不知道
该如何求解这个问题
他的困惑是他无法从直觉上
充分理解正确的计算结果
下面我们分析这个问题
首先不失一般性
我们不妨假设观众选择的是1号门
以汽车所处位置分三种情况考虑
第一种情况汽车在1号门之后
则这个时候2 3号门后面都是山羊
那么主持人会在
2 3号门中随机打开一扇
第二种情况汽车在2号门之后
此时主持人必然打开3号门
第三种情况汽车在3号门后门
此时主持人必然打开2号门
所以实际只有4种不同的情形会出现
分别是车在1号门后
主持人打开2号门
车在1号门后
主持人打开3号门
车在2号门后
主持人打开3号门
车在3号门后主持人打开2号门
因为汽车在三扇门后面的概率均为1/3
所以这4种情形出现的概率
依次分别是1/6 1/6 1/3 1/3
如树形分叉图所示
树形分叉图的最后两列
分别表示换与不换对两种选择下
分别对应的观众所得结果
可以看到不换
也就是坚持选择1号门
得到车的总的概率是1/3
而换门得到车的总的概率是2/3
所以换门比不换门
得到汽车的可能性高2倍
关于换门后可得到更大概率
我们设想一种更加极端的情况
可能会获得更明显的感受
考虑有一万扇门
其中1个门后面有车
其他9999扇门后面都是山羊
当观众选择一扇门后
主持人打开另外没有羊的9998扇门
指着剩下的唯一一扇尚且关闭的门
问观众要不要换
这时这名观众可能想都不想就会交换
最后我们用随机事件的语言
表达这一问题
并进行概率计算
令A1 A2 A3分别表示事件
汽车在1 2 3号门后面
仍然假设观众第一次选择的是1号门
然后我们设定B为事件
主持人打开了2号门
则我们要计算的是
在主持人打开2号门的条件下
汽车在1号门和3号门
后面的概率分别是多少
用事件的语言表达这两个概率
即为事件B条件下A1的概率
和事件B条件下A3的概率
而事件B发生在后 是结果
A1 A3事件发生在前是原因
所以这两个条件概率
可借助贝叶斯公式计算得到
具体计算过程
事件A1 A2 A3发生的条件均为1/3
事件A1条件下B的概率
即为车在1号门后
主持人打开2号门的概率是1/2
事件A2条件下B的概率
即为车在2号门后
主持人打开2号门的概率当然是0
事件A3条件下B的概率
即为车在3号门后
主持人打开2号门的概率显然为1
事件B的概率
即可由全概率公式算出为1/2
再利用贝叶斯公式
分别得到事件B条件下
A1和A3的概率
关于条件概率
及其计算我们就学习到这里
下一周的课
我们将开始学习随机变量
-随机试验与随机事件
-古典概型
--1.2 古典概型
--第一周:古典概型
-事件间的关系与事件的运算
--第一周:事件间的关系与事件的运算
-两个著名的例子
--第一周:两个著名的例子
-讲义
-条件概率
--2.1 条件概率
--第二周:条件概率
-有关条件概率的三个重要计算公式
--第二周:有关条件概率的三个重要计算公式
-事件的独立性
--第二周:事件的独立性
-应用实例
--2.4 应用实例
--第二周:应用实例
-网球比赛胜率的计算
--Video
-讲义
-随机变量及分布函数
--第三周:随机变量及分布函数
-离散型与连续型随机变量
--第三周:离散型与连续型随机变量
-分布函数的性质与特殊的例子
--第三周:分布函数的性质与特殊的例子
-概率论所需微积分要点回顾
--第三周:概率论所需微积分要点回顾
-讲义
-二项分布与负二项分布
--第四周:二项分布与负二项分布
-泊松分布
--4.2 泊松分布
--第四周:泊松分布
-几何分布与指数分布
--第四周:几何分布与指数分布
-正态分布
--4.4 正态分布
--第四周:正态分布
-讲义
-随机变量函数的分布
--第五周:随机变量函数的分布
-随机变量的数学期望
--第五周:随机变量的数学期望
-随机变量的方差
--第五周:随机变量的方差
-原点矩与中心矩
--第五周:原点矩与中心矩
-期望和方差的一些补充性质
--第五周:期望和方差的一些补充性质
-讲义
-二项分布与泊松分布的期望与方差
--第六周:二项分布与泊松分布的期望与方差
-几何分布的期望与方差
--第六周:几何分布的期望与方差
-均匀、指数和正态分布的期望与方差
--第六周:均匀、指数和正态分布的期望与方差
-随机变量数学期望的应用实例
--第六周:随机变量数学期望的应用实例
-快速排序算法的平均计算量分析
--Video
-讲义
-多维随机变量
-第七周:多维随机变量
-常见多维随机变量举例
--第七周:常见多维随机变量举例
-随机变量的独立性
--第七周:随机变量的独立性
-独立随机变量期望和方差的性质
--第七周:独立随机变量期望和方差的性质
-讲义
-条件分布
--8.1条件分布
--第八周:条件分布
-条件期望
--8.2 条件期望
--第八周:条件期望
-全期望公式(上)
--第八周:全期望公式(上)
-全期望公式(下)
--第八周:全期望公式(下)
-讲义
-随机变量函数的期望
--第九周:随机变量函数的期望
-协方差
--9.2 协方差
--第九周:协方差
-相关系数
-- 9.3 相关系数
--第九周:相关系数
-相关与独立
--第九周:相关与独立
-讲义
-独立随机变量和的分布
--第十周:独立随机变量和的分布
-独立正态分布和的分布
--第十周:独立正态分布和的分布
-最大值、最小值分布
--第十周:最大值、最小值分布
-顺序统计量
--第十周:顺序统计量
-讲义
-正态分布的相关与独立
--第十一周:正态分布的相关与独立
-边缘密度均为正态,联合分布不是二元正态的例子
--第十一周:边缘密度均为正态,联合分布不是二元正态的例子
-二项分布的正态近似
--第十一周:二项分布的正态近似
-正态近似计算实例
--第十一周:正态近似计算实例
-讲义
-大数定律
--12.1大数定律
--第十二周:大数定律
-中心极限定理
--第十二周:中心极限定理
-蒙特卡洛(Monte Carlo)算法
-伪随机数和随机模拟
-讲义
-统计学实例
-总体与样本
-常用统计量
--第十三周:常用统计量
-三种重要的统计分布和分位数
--第十三周:三种重要的统计分布和分位数
-讲义
-参数的矩估计
--第十四周:参数的矩估计
-参数的极大似然估计
--第十四周:参数的极大似然估计
-参数点估计的无偏性和有效性
--第十四周:参数点估计的无偏性和有效性
-参数点估计应用实例
--第十四周:参数点估计应用实例
-讲义
-区间估计的基本思想
--第十五周:区间估计的基本思想
-区间估计的构造方法
--第十五周:区间估计的构造方法
-两个正态总体的区间估计
--第十五周:两个正态总体的区间估计
-大样本置信区间
--第十五周:大样本置信区间
-讲义
-假设检验问题的提示和标准步骤
--第十六周:假设检验问题的提示和标准步骤
-假设检验问题的两类错误和P值
--第十六周:假设检验问题的两类错误和P值
-单个正态总体参数的假设检验
--第十六周:单个正态总体参数的假设检验
-拟合优度检验
--第十六周:拟合优度检验
-讲义
-利用条件概率计算网球比赛胜率
-利用期望的计算性质分析快速排序算法的平均计算量
-讲义
-事件
--事件
-分布函数
--分布函数
-正态
--正态
-指数与二项
--指数与二项
-随机变量函数的分布
-指数分布期望
--指数分布期望
-切比雪夫不等式
--切比雪夫
-二元离散
--二元离散
-协方差
--协方差
-二元特征
--二元特征
-统计量
--统计量
-无偏估计
--无偏估计
-点估计
--点估计
-假设检验
--假设检验
-选择
--选择
-填空
--填空
-大题
--大题