当前课程知识点:基于R语言的社会统计分析 > 第四章:概率分布 > 4.2 离散型与连续型变量的概率分布 > Video
好讲完了概率的四条基本法则
让我们来介绍一下离散型和连续型随机变量的概率分布是什么样子的
首先让我们再回忆一下变量
我们前面说变量是一个取值在变的量
所以它既然是一个变量它至少会有两个不同的取值
那对于一个随机实验
或者是随机样本来说
每一个可能出现的结果都会对应它发生的一个概率
或者是随机样本来说
每一个可能出现的结果都会对应它发生的一个概率
于是乎我们就有了随机变量这个概念
有的同学一说随机变量就觉得显得高深了
于是乎我们就有了随机变量这个概念
有的同学一说随机变量就觉得显得高深了
其实随机呢只是把每一个可能的取值
和概率的概念联系在一起了
随机这个术语强调了
不同的观测值中变量的取值是按照一定的概率规律而变化的
当然在后面的学习中呢我们总是会提到变量这个词
每次提到概率的时候我们就不会每次都刻意的说这是一个随机变量了
所以每次说变量的时候大家记在心里
实际上说的是随机变量的意思
因为我们研究的所以问题都是希望研究它的概率的
如果不知道概率的话就不放在统计课上来学了
所以如果没有特殊说明它们指的都是随机变量
那我们再回忆一下我们第二周学到的内容
第二周的时候我们谈到了说变量有好多种类型
其中有一种区分呢就是把变量区分成离散型
和连续型
离散型变量呢也就是说它的取值
是一组自然数或者整数的时候
我说偷懒的想
如果这个数取不掉小数点后头一般就可以理解成
我说偷懒的想
如果这个数取不掉小数点后头一般就可以理解成
离散型的变量
那另外呢还有一种呢叫做连续型变量我们说
在一个区间之中
取值可以连续变化
可以取到小数点以后无限位的一个无限连续的数
取值可以连续变化
可以取到小数点以后无限位的一个无限连续的数
就是连续型的变量
那概率分布呢
列出了变量的所有的可能取值和它们的概率
大家可以想象一下离散型的时候
概率是有限个可能
那连续型变量的时候
变量的取值有无限种可能所以
研究他的概率分布的时候不同的变量类型
概率分布也是不一样的
所以我们要分开来讲
首先让我们介绍一下什么是离散型变量的概率分布
离散型变量的概率分布是一个包含了
变量所有可能取值以及他们所对应的概率的表格
列表或者是公式
这里面有两个关键词
一个是一定要包含这个变量所有的可能的取值
另外一个是要知道有一个取值我就要知道它的概率是多少
所谓的表格列表和公式你选择一种即可
这个所谓的概率分布并不一定是大家
理解的传统意义上的公式
并不一定非得有一个公式的说明
我们举一个例子
如果说
X是一个可能取值为X1X2一直到Xn的随机变量
并且我们知道它的每个取值
所对应的概率分别为
P(x1)P(x2)一直到P(xn)
如果对i的所有取值
X发生的概率呢
满足下面这样一个规律
就是说X发生概率它一定是在0和1之间的数
如果把所有的概率加和发现它们的和刚好是1的话
那么下面你们看到的这个东西
X1P(x1)X2对应P(x2)一直到
那么下面你们看到的这个东西
X1P(x1)X2对应P(x2)一直到
Xn刚好对应P(xn)
他就是一个有效的概率分布
这个东西是一个list是一个列表
它就是概率分布的一种形式
那还有一种形式
我们举一个例子
特别刚才我们讲扔硬币
现在我们讲掷骰子
掷骰子的时候呢
我们一个骰子有六个点对吧
每一个点数发生的概率是多少
六分之一对吧
如果说骰子是一个均匀的骰子
我每次扔的时候都可以看成一个随机试验
它所有的可能取值是123456
然后我又知道每一个取值它发生的概率是六分之一
简单的总结一下我们得到了下面这张表
这又是一个概率分布
其实概率分布并不一定是我们想象那么复杂的一个数学关系
一定是一个函数关系
只要
你给我把所有的可能取值列出来
并且给我每一个值它发生的概率
你给我把所有的可能取值列出来
并且给我每一个值它发生的概率
它就是一个非常完整的概率分布了
那我们想描述一个概率分布
可能单靠一个列表一个表格甚至是一个式子还不够我希望
更好地提取它的特征
我们前面讲描述统计的时候我们说
我们看特征的时候想看数据的集中趋势在哪里
数据的重心在哪
我们看特征的时候想看数据的集中趋势在哪里
数据的重心在哪
我想知道数据的离散程度怎么样
我还想知道有一些观测值在这个数据中它的相对位置是什么情况
那同样的原则拿到研究概率分布的时候一样适用
对于任意一个分布
我想知道它的中心在什么地方
我也想知道它的离散程度是什么样子的
那中心呢就用均值来描述
离散程度呢
就用我们特别爱的标准差来表达
我们来看看
均值的表达
均值同样用希腊字母μ来表示
它等于一个大Σxi乘以P(Xi)什么意思
每一个可能的取值
乘以与之相对应的概率
那把所有的取值和概率的乘积加和
就得到了总体的均值
实际上你们可能在上高中的时候就学过加权平均这个概念
实际上这个时候就是某一种意义的加权平均
可能取值乘以与之相对应的概率加和就得到了概率分布的均值
那这个参数呢
有的时候也被称为叫做变量X的期望值
用符号E(X)来表示
E代表的是英文的expectation也就是期望的意思
用符号E(X)来表示
E代表的是英文的expectation也就是期望的意思
然后期望这个名词它的意思是
在一系列的重复的观测之后
我们所期望看到的X的均值是什么样子
为什么是期望看到呢因为我们与概率这个概念联系在一起了
有的时候学着学着我们同学会混淆
发现有三个词特别类似
经常分不清楚
我们有平均数有均值还有期望值
我们不是很知道什么时候要对应期望
什么时候要用均值什么时候要用平均数
首先我们来说平均数是什么
上高中的时候我们就学过平均数的种类有很多
有几何平均数有算数平均数可能还有加权平均数
我们所说的均值实际上是算数平均数
也就是最直观的把所有数的加和除以样本量的这样一个表达
那期望是什么时候使用
只要我的公式里有概率这个意思
我就面对的是一个在重复了很多次操作做了好多次试验以后
你期望得到的最终的取值
这是我们稍微把均值平均数和数学期望做一下区分
把均值介绍完了以后我们另外一个非常重要的特征想知道
数据的离散程度
也就是我很关注我的观测值和观测值之间到底有多不同
那不同这个概念当然是要用距离来衡量
就是每一个观测值
那不同这个概念当然是要用距离来衡量
就是每一个观测值
和均值之间相差了多远
于是我们得到了这样一个表达
我们说标准差Σ
它应该等于
Xi减去μ把它加一个平方乘以
P(xi)把它们都加和以后再开一个根号
我们看看Xi减μ什么意思
很简单就是每个观测值与总体均值之间的差距
为什么要平方之前已经解释过了
有的值比均值大有的值会比均值小
有的时候正负一抵消显得说我数据没有变化了
为了保证变化可以被体现出来
我们要看它的绝对距离所以要加一个平方
然后每一个观测值它发生的概率是不同的所以要把它
和概率的值乘在一起
最后把所有观测值的这个乘积加和
和概率的值乘在一起
最后把所有观测值的这个乘积加和
加和了以后因为前面有平方我实际上对应的是方差
那现在为了变成标准差我要把它开根号再开回来
总结一下总体的均值
概率分布的均值就等于
xi乘以P(xi)加和
那概率分布的标准差就等于根号下的这个东西
现在我们讲完了离散型变量的概率分布
以此类推呢
我们来聊聊什么是连续型变量的概率分布
以此类推呢
我们来聊聊什么是连续型变量的概率分布
其实和离散型完全是异曲同工
在描述一个连续型变量的概率分布的时候
我们同样需要所有变量的可能取值
以及与之相对应的概率
那想象一下我们刚刚说离散的时候说有三种形式
它可能是一个列表
可能是一个表格也可能是一个函数关系
那
转嫁到连续型变量
你们认为一个列表或者是表格的形式还可能吗
转嫁到连续型变量
你们认为一个列表或者是表格的形式还可能吗
显得就不太可能了对吧
你怎么可能把一个连续型变量的所有可能取值一一的列出来呢
那这个时候我们实际上就改变一点点
我们认为连续型变量的概率分布
是一个包含了
变量所有可能取值以及他们所对应的概率的图示
或者是函数
那这个函数
通常被称为连续型随机变量的概率密度
简称密度函数
前面我们说理解概率分布这个概念要关注两个关键词
一个关键词是所有可能取值
另一个关键词是与之相对应的概率
那么在理解连续型变量的概率分布的时候
实际上我们关注的并不是某一个特定的取值
而转为是变量落入某一区间的概率
这个区间才是我们关注的对象
那变量落入任意一个特定区间的概率呢
一定都仍然是在0和1之间的数
我们之前说概率的特性就是它必然是一个在0和1之间的数
0代表的是没有发生不可能事件
1代表的是百分之百发生率
那连续型变量概率分布
我们说可以由两种方式来表达
一种方式呢写一个公式用密度函数来表达
另一种方式是用图示来表达
当用图示来表达的时候
连续型变量概率分布就是一条平滑的曲线
这条曲线下的面积
代表的就是变量落入某一个特定区间的概率
我们管这条曲线叫做密度曲线
英文叫做density curve
density curve
下面我们用一个例子来说明
这个例子是我完全假想的例子
我们现在经常通过各种各样的网络平台来买机票
尤其是买国际机票的时候你可能会发现就是
从你订票到真正的确认出票之间
通常会有一个等待时间
尤其是如果你不是从官网直接买
而是用第三方比如说携程网这样的平台来买票的时候
那假设说我现在研究问题就是我想知道
买机票这个确认等待时间呢
概率分布长成什么样子
所以假设最近的一项研究
收集了关于网络购票买机票
从预订到确认的时间的数据
这里面我们关注的连续型变量
用X表示X就等于等待时间
你现在可以看右边的这张图
它是一个典型的连续型变量概率分布的分布图
那横轴呢
我觉得应该写X等于waiting time等待时间
测量单位是小时
纵轴写的是density代表的是密度哈密度
密度函数通常用f(x)来表示
那我乍一看这张概率分布图你可以得到什么样的信息呢
首先他是一个右偏分布对吧
我们说右偏分布的特点是右尾巴长
小山包反而是在左边的所以这是一个右偏分布
说明大部分人他们的等待时间可能集中在
我不负责任地说大部分人的等待时间集中在0到4小时之间
好像随着时间的推移等待时间变长呢
概率会变得越来越小
然后密度函数的意思是什么实际上
这条曲线的位置
精确的曲线的位置是由密度函数来确定的
也就是说
给一个X值
我就会得到一个与之对应的密度函数的取值f(x)
所以给定我举一个例子
给定X等于4
那么与之对应的密度函数的取值就是f(x=4)
这点必然就落在这条密度曲线上
那有同学看到这张图特别自然地就说
恩当X等于4的时候
纵轴就代表的是X等于4的发生概率
这是大错特错的
你一定要记住
曲线代表的是密度函数
而概率针对的是曲线下对应的区间的面积
连续型变量的概率分布
一定是
以面积作为测量基础的
所以如果我问你X等于4它发生的概率是多少
我很负责的告诉你说
X等于4也就是等待时间是四个小时发生的概率是0
很多同学特别不能理解说为什么
等待时间是4它的概率一定是0
我们前面说我永远关注的是区间的概念我关注的是曲线以下
对应的某一区间的面积是多少
有一个很笨的记法
你想想我关注的是面积
当X等于某一特定取值的时候它对于的是一条直线
那这条直线没有面积所以
P(x=4)就等于0了
那换一种更正规的渠道
我们想象一下假设说X的可能取值
在这张图里我这是假设
是在0到10之间
然后我们说
X可以取到0到10之间的任意一个取值
它可以是4也可以是4.00000001
4后面多少个0都可以它可以4.000一百个01
也就是说你可以把0到10
之间的这个区间无限无限的细分
那么具体到概率呢
也就是说
X停留到具体的任意一个取值上的概率
也就是说
X停留到具体的任意一个取值上的概率
都被无限的细分了也就是
实际上你可以理解成1除以无穷这样一个数所以它就等于0了
所以连续型变量的概率分布有一个很重要的特点
就是X等于某一特定取值的概率一定是0
想象一下无限细分统共我的概率加和起来才是1
如果把它无限细分的话它就一定是相邻趋近的一个数了
那么下面呢
我们说连续型变量的概率分布怎么样来更严谨的计算
它实际上是对密度函数求积分的
这是
再回忆一下我们上微积分课学的知识我们有一条曲线
然后想求曲线下的面积
那就通过对它求积分获得
这个积分的下限是A上限是B
也就是说X落入AB这个区间的概率
这个积分的下限是A上限是B
也就是说X落入AB这个区间的概率
就等于对f(x)求积分下限是A上限是B
那左边这个图代表的是
X落入区间2到3之间的概率
是阴影部分那一部分面积等于0.181
这是题目本身告诉我们的
我自己生成了数据所以我就知道它的密度函数所以我就可以计算出来
然后
右边这张图代表的是X大于6的概率
X大于6发生的概率相对较低也就是说
等待时间超过6个小时的概率
相当于十分之一大一点
这是我们说的
连续型变量的概率分布
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video