当前课程知识点:基于R语言的社会统计分析 > 第四章:概率分布 > 4.1 概率的基本概念 > Video
本周我们来介绍概率分布
相较于数学科学
统计学其实是一门非常非常年轻的学问
相较于数学科学
统计学其实是一门非常非常年轻的学问
我们这门课所要讲解的大部分内容
大部分的理论都是在最近的一百年才成型的
但是呢
唯独不同的是概率论
我不知道大家有没有了解过
概率的基本理论是从哪件事发展起来的
有的同学可能已经猜到了
对了是赌博
其实呢概率的历史特别特别悠久
早在十七世纪的时候就被用于计算赌博的时候各种战术的赢面
时至今日概率的相关理论已经非常发达了
可以说是枝繁叶茂
很多同学都上过大数课
大数课基本上
在微积分和线数之后我们都要经历
概率论与数理统计的洗礼
但凡经过洗礼的人
应该已经对概率论与数理统计的基本知识有了一定的了解
那这门课呢我们这门是更倾向于应用的课程
不会将概率论的基本理论展开来讲
我们只讲一些后面我们统计推断所必须的知识
那首先
我们需要的知识就包括概率分布的概念
然后我们会了解一下正态分布
还有被认为是统计推断理论发展
最重要基础的一种概率分布也叫作抽样分布
好首先我们来了解一下概率的基本概念
我相信其实我们每个人生活中总在和概率打交道
我们打开电视的时候听天气预报
经常会听到降水概率对吧
我们和别人聊天的时候也经常会说大概
可能好像这种词
那我问你概率到底是一个什么东西呢
我们可以从随机样本和随机试验的角度来理解
实际上想象一个随机样本或者是随机试验
对于每一个观测值
实际上我们都知道它的所有的可能取值
但是并不清楚到底哪一个取值会发生
每次我一开始讲观测值可能取值的时候大家可能就
就关上了就off了
那我们想象一个例子
扔硬币这件事
每次生活中做到两难的抉择时至今日大家有的时候还是要靠
扔硬币来决定
扔硬币有两种可能
不是正面就是反面但是为什么每次都在扔
是因为每次扔的时候我都不能确定到底这次可以得到正面和反面
不是正面就是反面但是为什么每次都在扔
是因为每次扔的时候我都不能确定到底这次可以得到正面和反面
但是我们可以知道
扔正面和扔反面的概率是一模一样的
一半一半都是百分之五十
那概率
实际上可以被理解成
一个长期概念的相对频数
也就是说
对于一个随机现象的某一个特定可能结果来说
这个结果发生的概率
是在一系列的重复的观测中
某一个结果发生的比例
好我们要再严格一些下一个定义
可以这样说
在一个随机样本或者是随机试验中
一个观测值
产生某一特定结果的概率
是在长期的一系列观测研究中
该结果出现的比例
这个定义中有两个关键词
我们提到了长期的还提到了比例
我们一件一件事来说
首先我们来说长期的
长期的意思是说你需要大量的观测值
才可能得出一个精确的结论
长期的意思是说你需要大量的观测值
才可能得出一个精确的结论
比如说刚才我们说扔硬币这个例子
我们假设
我不是扔了好多好多次
我想知道正面出现的概率
于是我做两次实验
扔了两次硬币
两次都出现正面了
那把它对应成
相对频数的概念你会发现出现正面的概率是多少
百分之百对吧
那你能下一个结论说出现正面的概率是100%吗
不太可以
那同样比如说我想知道我身边左撇子的比例
于是乎我就去问了我的家人我的朋友
我问了十个人发现我这十个朋友全是右撇子
你可不可以得出一个结论
说在这个世界上左撇子的概率是零呢
这就说明一个问题
没有一个长期的重复的观测
你所得到的对于概率的预测都是不精确的
所以我们需要长期的
大量的实验才能得到一个靠谱的概率
我们可以看这张图
这是我用计算机去模拟了一个扔硬币的过程
假设我一次都不扔的时候显然就没有概率这码事
假设我只扔一次
这一次出现了正面那首先通过这一次实验我得出的结论认为
正面的概率是百分之百
然后我再扔
然后你会发现
随着我掷硬币数量的增加
我每次依靠这个投掷数得出的概率是在一个不断的震荡中得出的结果
当我扔到一千次的时候你会发现
正面的概率慢慢的收敛到我们
所常识中理解的那个百分之五十的概率了
这是关于长期的这个关键词
然后在这个定义中
另外还有一个关键词叫做比例
有的时候我们叫百分比
比例就告诉我们说概率必然是一个什么样的数
它的取值必须是在0和1之间的不可能出这个范围了
那当你用百分比表示的时候我们通常用0到100%来表示
那我们现在讲了这么多举一个例子
我们经常听的那件事说今天的降水概率是70%
百分之七十这个数是怎么得到的
实际上
严格的解读它的意思是
在过去一系列有类似的大气条件的日子里
降水在百分之七十的日子里发生了
也就是说过去我观察了这件事好多
只要大气有这种条件我就去观测下雨还是没下雨
也就是说过去我观察了这件事好多
只要大气有这种条件我就去观测下雨还是没下雨
结果发现百分之七十的日子下雨了
所以降水概率百分之七十是这样得来的
刚才我们说有一个特别重要的关键词
叫做长期的(long-run)
我们关注长期的观察重复的观察
但是长期观测法有没有局限性呢
我们总是希望能够重复一个试验无限次
多多益善越多越好
但是这种方法在现实世界中显然是很奢侈的不太可能
我们做一个假设
假设说你现在
在考虑全国我们鼓励全民创业全民创新
那你现在要考虑要不要加入创客大军也开展自己的事业
那想要估计这个概率怎么办
根据你目前的条件
你想知道你创业成功的概率是多少
创新创新没有多少人有我这样的条件对吧
那怎么办呢
理论上从统计学的角度那你就开始创业吧
创业第一次成功了我记一个1
创业第二次失败了我记一个0
创业第三次又成功了我记一个1
我自己要创业好多次才能得出一个对创业成功与否概率的估计
那显然是一件很扯的事情对不对
我们没有条件展开这样长期的观察
那缺乏客观的数据呢
你就不得不借助一些主观的判断来对我创业是不是能成功做一些
推断了
这种相对主观的方式
在统计学的研究中也并不是没有的
有一种方法
是我们统计学中非常重要的一个分支
叫做Bayesian statistics贝叶斯统计
它就是使用这种主观概率为基础而发展出的一系列统计方法
当然贝叶斯统计并不是我们这门课要涵盖的内容
有兴趣的同学大家可以自学这个内容也是很有意思的
好下面我们来聊一聊基本概率法则
学了概念就要看法则
我们以前但凡是上过概率论与数理统计的同学
都应该尝试背诵过好多好多的概率法则
我们这节课呢不会给大家那么多的东西要背
实际上与我们后面统计推断息息相关的概率法则只有四条
我们一条一条来看
首先第一道法则
也就是P(not A)
P (A的补集)
就是A不发生的概率
就应该等于1减去A发生的概率
这个很简单非常直观实际上我们高中就学过了
也就是说如果我们说
今天下雨的概率是百分之七十
那不下雨的概率不就是1-70%吗等于30%
这是第一条最最简单的人人欢喜的一个法则
第二条
A或B发生的概率也就是A∪B的概率
A和B只要有一件发生我们就认为它发生了
所以P(A∪B)的概率等于
A发生的概率加上B发生的概率减去
AB同时发生的概率
如果说A和B为互斥事件
或者是不相交的事件
那我们知道A和B必然不可能同时发生
于是乎A∩B的概率就是0
我们进而得到
A和B中至少有一件事情可能发生的概率
就等于P(A∪B)就等于P(A)+P(B)A和B中至少有一件事情可能发生的概率
就等于P(A∪B)就等于P(A)+P(B)
第三条
A和B同时发生的概率前面已经提过了
A和B同时发生的概率就等于P(A∩B)
它就等于A发生的概率乘以
在A发生的前提下B发生的概率
这个在A发生的前提下B发生的概率就是我们后面总要提到的条件概率
那把刚才的那个式子稍微调一调你就会发现
在A发生的前提下B发生的概率就应该等于
AB同时发生的概率除以A发生的概率
我们举一个例子
美国人结婚的概率是56%
然后综合社会调查GSS的数据显示说
如果你问已经结婚的人
你们现在是处于非常幸福、幸福还是不是很幸福的婚姻之中
发现有百分之四十的人
都认为他们的婚姻非常幸福
现在我的问题是
一个人成功的结婚了
并且在婚姻中正感到幸福的概率是多少
一个人成功的结婚了
并且在婚姻中正感到幸福的概率是多少
实际上如果我们把事件A
理解成结婚事件B定义成婚姻幸福
那么结婚并且婚姻幸福的概率就等于P(A∩B)
就等于P(A)乘以P(B)
P结婚的概率乘以
婚姻幸福的概率
也就是0.56乘以0.4等于22%
实际上就是告诉我们说
一共有五分之一的美国人成功结婚了
并且在婚姻中感受着幸福
这是
A和B有关系的情况下
显然你必须得成功的结婚才能有权说你在婚姻中是不是幸福
那有的时候呢AB和两个事件并不一定有任何关联
这个时候我们管它叫相互独立
如果是A和B没有任何关系的时候我们会
得到一个很重要的结论
就是说在A发生的前提下
B发生的概率
就应该直接等于
B发生的概率
也就是说我不管你A发生不发生
我B发生的概率都不变
也就是P(B∣A)等于P(B)
然后我把上面的式子再调一调
发现P(B∣A)等于
P(A)∩P(B)除以P(A)
于是乎我又换一换就发现
P(B)等于P(A)∩P(B)
除以P(A)
把这个式子再调一调
你会得到一个非常非常重要的法则
也就是我们的概率法则四
当事件A和B相互独立的时候
我们会有
A∩B发生的概率等于P(A)乘P(B)
而且这是两事件独立的充要条件
所以后面有的时候会有一些练习让你证明
让你证明两事件独立
要想证明两事件独立
你必须能够得出一个结论发现P(A∩B)等于P(A)乘P(B)
要想证明两事件独立
你必须能够得出一个结论发现P(A∩B)等于P(A)乘P(B)
这是关于独立事件
然后有的时候有同学会混淆
我们前面有提到过互斥事件
什么叫互斥事件
也就是如果A发生了
我能百分之百的确定B是不会发生的
两事件没有同时发生的可能性
然后有同学就认为互斥事件就是独立事件
这是完全不同的
实际上独立的意思是说
AB发生互不干扰
我不管A发生不发生B发生的概率都是一样的
那
你们想想互斥和独立其实到底存在着什么样的关系
如果我告诉你说两事件互斥
对独立会有怎么样的推论呢
其实互斥
就告诉你说两事件必然不可能是相互独立的
因为A发生了B肯定不发生
A对B产生了影响两个事情就不是完全独立的事件了
所以不要混淆
如果说两事件相互互斥
那它必然不可能是独立的了
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video