当前课程知识点:基于R语言的社会统计分析 >  第四章:概率分布 >  4.2 离散型与连续型变量的概率分布 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

好讲完了概率的四条基本法则

让我们来介绍一下离散型和连续型随机变量的概率分布是什么样子的

首先让我们再回忆一下变量

我们前面说变量是一个取值在变的量

所以它既然是一个变量它至少会有两个不同的取值

那对于一个随机实验

或者是随机样本来说

每一个可能出现的结果都会对应它发生的一个概率
或者是随机样本来说

每一个可能出现的结果都会对应它发生的一个概率

于是乎我们就有了随机变量这个概念

有的同学一说随机变量就觉得显得高深了
于是乎我们就有了随机变量这个概念

有的同学一说随机变量就觉得显得高深了

其实随机呢只是把每一个可能的取值

和概率的概念联系在一起了

随机这个术语强调了

不同的观测值中变量的取值是按照一定的概率规律而变化的

当然在后面的学习中呢我们总是会提到变量这个词

每次提到概率的时候我们就不会每次都刻意的说这是一个随机变量了

所以每次说变量的时候大家记在心里

实际上说的是随机变量的意思

因为我们研究的所以问题都是希望研究它的概率的

如果不知道概率的话就不放在统计课上来学了

所以如果没有特殊说明它们指的都是随机变量

那我们再回忆一下我们第二周学到的内容

第二周的时候我们谈到了说变量有好多种类型

其中有一种区分呢就是把变量区分成离散型

和连续型

离散型变量呢也就是说它的取值

是一组自然数或者整数的时候

我说偷懒的想

如果这个数取不掉小数点后头一般就可以理解成
我说偷懒的想

如果这个数取不掉小数点后头一般就可以理解成

离散型的变量

那另外呢还有一种呢叫做连续型变量我们说

在一个区间之中

取值可以连续变化

可以取到小数点以后无限位的一个无限连续的数
取值可以连续变化

可以取到小数点以后无限位的一个无限连续的数

就是连续型的变量

那概率分布呢

列出了变量的所有的可能取值和它们的概率

大家可以想象一下离散型的时候

概率是有限个可能

那连续型变量的时候

变量的取值有无限种可能所以

研究他的概率分布的时候不同的变量类型

概率分布也是不一样的

所以我们要分开来讲

首先让我们介绍一下什么是离散型变量的概率分布

离散型变量的概率分布是一个包含了

变量所有可能取值以及他们所对应的概率的表格

列表或者是公式

这里面有两个关键词

一个是一定要包含这个变量所有的可能的取值

另外一个是要知道有一个取值我就要知道它的概率是多少

所谓的表格列表和公式你选择一种即可

这个所谓的概率分布并不一定是大家

理解的传统意义上的公式

并不一定非得有一个公式的说明

我们举一个例子

如果说

X是一个可能取值为X1X2一直到Xn的随机变量

并且我们知道它的每个取值

所对应的概率分别为

P(x1)P(x2)一直到P(xn)

如果对i的所有取值

X发生的概率呢

满足下面这样一个规律

就是说X发生概率它一定是在0和1之间的数

如果把所有的概率加和发现它们的和刚好是1的话

那么下面你们看到的这个东西

X1P(x1)X2对应P(x2)一直到
那么下面你们看到的这个东西

X1P(x1)X2对应P(x2)一直到

Xn刚好对应P(xn)

他就是一个有效的概率分布

这个东西是一个list是一个列表

它就是概率分布的一种形式

那还有一种形式

我们举一个例子

特别刚才我们讲扔硬币

现在我们讲掷骰子

掷骰子的时候呢

我们一个骰子有六个点对吧

每一个点数发生的概率是多少

六分之一对吧

如果说骰子是一个均匀的骰子

我每次扔的时候都可以看成一个随机试验

它所有的可能取值是123456

然后我又知道每一个取值它发生的概率是六分之一

简单的总结一下我们得到了下面这张表

这又是一个概率分布

其实概率分布并不一定是我们想象那么复杂的一个数学关系

一定是一个函数关系

只要

你给我把所有的可能取值列出来

并且给我每一个值它发生的概率
你给我把所有的可能取值列出来

并且给我每一个值它发生的概率

它就是一个非常完整的概率分布了

那我们想描述一个概率分布

可能单靠一个列表一个表格甚至是一个式子还不够我希望

更好地提取它的特征

我们前面讲描述统计的时候我们说

我们看特征的时候想看数据的集中趋势在哪里

数据的重心在哪
我们看特征的时候想看数据的集中趋势在哪里

数据的重心在哪

我想知道数据的离散程度怎么样

我还想知道有一些观测值在这个数据中它的相对位置是什么情况

那同样的原则拿到研究概率分布的时候一样适用

对于任意一个分布

我想知道它的中心在什么地方

我也想知道它的离散程度是什么样子的

那中心呢就用均值来描述

离散程度呢

就用我们特别爱的标准差来表达

我们来看看

均值的表达

均值同样用希腊字母μ来表示

它等于一个大Σxi乘以P(Xi)什么意思

每一个可能的取值

乘以与之相对应的概率

那把所有的取值和概率的乘积加和

就得到了总体的均值

实际上你们可能在上高中的时候就学过加权平均这个概念

实际上这个时候就是某一种意义的加权平均

可能取值乘以与之相对应的概率加和就得到了概率分布的均值

那这个参数呢

有的时候也被称为叫做变量X的期望值

用符号E(X)来表示

E代表的是英文的expectation也就是期望的意思
用符号E(X)来表示

E代表的是英文的expectation也就是期望的意思

然后期望这个名词它的意思是

在一系列的重复的观测之后

我们所期望看到的X的均值是什么样子

为什么是期望看到呢因为我们与概率这个概念联系在一起了

有的时候学着学着我们同学会混淆

发现有三个词特别类似

经常分不清楚

我们有平均数有均值还有期望值

我们不是很知道什么时候要对应期望

什么时候要用均值什么时候要用平均数

首先我们来说平均数是什么

上高中的时候我们就学过平均数的种类有很多

有几何平均数有算数平均数可能还有加权平均数

我们所说的均值实际上是算数平均数

也就是最直观的把所有数的加和除以样本量的这样一个表达

那期望是什么时候使用

只要我的公式里有概率这个意思

我就面对的是一个在重复了很多次操作做了好多次试验以后

你期望得到的最终的取值

这是我们稍微把均值平均数和数学期望做一下区分

把均值介绍完了以后我们另外一个非常重要的特征想知道

数据的离散程度

也就是我很关注我的观测值和观测值之间到底有多不同

那不同这个概念当然是要用距离来衡量

就是每一个观测值
那不同这个概念当然是要用距离来衡量

就是每一个观测值

和均值之间相差了多远

于是我们得到了这样一个表达

我们说标准差Σ

它应该等于

Xi减去μ把它加一个平方乘以

P(xi)把它们都加和以后再开一个根号

我们看看Xi减μ什么意思

很简单就是每个观测值与总体均值之间的差距

为什么要平方之前已经解释过了

有的值比均值大有的值会比均值小

有的时候正负一抵消显得说我数据没有变化了

为了保证变化可以被体现出来

我们要看它的绝对距离所以要加一个平方

然后每一个观测值它发生的概率是不同的所以要把它

和概率的值乘在一起

最后把所有观测值的这个乘积加和
和概率的值乘在一起

最后把所有观测值的这个乘积加和

加和了以后因为前面有平方我实际上对应的是方差

那现在为了变成标准差我要把它开根号再开回来

总结一下总体的均值

概率分布的均值就等于

xi乘以P(xi)加和

那概率分布的标准差就等于根号下的这个东西

现在我们讲完了离散型变量的概率分布

以此类推呢

我们来聊聊什么是连续型变量的概率分布
以此类推呢

我们来聊聊什么是连续型变量的概率分布

其实和离散型完全是异曲同工

在描述一个连续型变量的概率分布的时候

我们同样需要所有变量的可能取值

以及与之相对应的概率

那想象一下我们刚刚说离散的时候说有三种形式

它可能是一个列表

可能是一个表格也可能是一个函数关系

转嫁到连续型变量

你们认为一个列表或者是表格的形式还可能吗
转嫁到连续型变量

你们认为一个列表或者是表格的形式还可能吗

显得就不太可能了对吧

你怎么可能把一个连续型变量的所有可能取值一一的列出来呢

那这个时候我们实际上就改变一点点

我们认为连续型变量的概率分布

是一个包含了

变量所有可能取值以及他们所对应的概率的图示

或者是函数

那这个函数

通常被称为连续型随机变量的概率密度

简称密度函数

前面我们说理解概率分布这个概念要关注两个关键词

一个关键词是所有可能取值

另一个关键词是与之相对应的概率

那么在理解连续型变量的概率分布的时候

实际上我们关注的并不是某一个特定的取值

而转为是变量落入某一区间的概率

这个区间才是我们关注的对象

那变量落入任意一个特定区间的概率呢

一定都仍然是在0和1之间的数

我们之前说概率的特性就是它必然是一个在0和1之间的数

0代表的是没有发生不可能事件

1代表的是百分之百发生率

那连续型变量概率分布

我们说可以由两种方式来表达

一种方式呢写一个公式用密度函数来表达

另一种方式是用图示来表达

当用图示来表达的时候

连续型变量概率分布就是一条平滑的曲线

这条曲线下的面积

代表的就是变量落入某一个特定区间的概率

我们管这条曲线叫做密度曲线

英文叫做density curve

density curve

下面我们用一个例子来说明

这个例子是我完全假想的例子

我们现在经常通过各种各样的网络平台来买机票

尤其是买国际机票的时候你可能会发现就是

从你订票到真正的确认出票之间

通常会有一个等待时间

尤其是如果你不是从官网直接买

而是用第三方比如说携程网这样的平台来买票的时候

那假设说我现在研究问题就是我想知道

买机票这个确认等待时间呢

概率分布长成什么样子

所以假设最近的一项研究

收集了关于网络购票买机票

从预订到确认的时间的数据

这里面我们关注的连续型变量

用X表示X就等于等待时间

你现在可以看右边的这张图

它是一个典型的连续型变量概率分布的分布图

那横轴呢

我觉得应该写X等于waiting time等待时间

测量单位是小时

纵轴写的是density代表的是密度哈密度

密度函数通常用f(x)来表示

那我乍一看这张概率分布图你可以得到什么样的信息呢

首先他是一个右偏分布对吧

我们说右偏分布的特点是右尾巴长

小山包反而是在左边的所以这是一个右偏分布

说明大部分人他们的等待时间可能集中在

我不负责任地说大部分人的等待时间集中在0到4小时之间

好像随着时间的推移等待时间变长呢

概率会变得越来越小

然后密度函数的意思是什么实际上

这条曲线的位置

精确的曲线的位置是由密度函数来确定的

也就是说

给一个X值

我就会得到一个与之对应的密度函数的取值f(x)

所以给定我举一个例子

给定X等于4

那么与之对应的密度函数的取值就是f(x=4)

这点必然就落在这条密度曲线上

那有同学看到这张图特别自然地就说

恩当X等于4的时候

纵轴就代表的是X等于4的发生概率

这是大错特错的

你一定要记住

曲线代表的是密度函数

而概率针对的是曲线下对应的区间的面积

连续型变量的概率分布

一定是

以面积作为测量基础的

所以如果我问你X等于4它发生的概率是多少

我很负责的告诉你说

X等于4也就是等待时间是四个小时发生的概率是0

很多同学特别不能理解说为什么

等待时间是4它的概率一定是0

我们前面说我永远关注的是区间的概念我关注的是曲线以下

对应的某一区间的面积是多少

有一个很笨的记法

你想想我关注的是面积

当X等于某一特定取值的时候它对于的是一条直线

那这条直线没有面积所以

P(x=4)就等于0了

那换一种更正规的渠道

我们想象一下假设说X的可能取值

在这张图里我这是假设

是在0到10之间

然后我们说

X可以取到0到10之间的任意一个取值

它可以是4也可以是4.00000001

4后面多少个0都可以它可以4.000一百个01

也就是说你可以把0到10

之间的这个区间无限无限的细分

那么具体到概率呢

也就是说

X停留到具体的任意一个取值上的概率
也就是说

X停留到具体的任意一个取值上的概率

都被无限的细分了也就是

实际上你可以理解成1除以无穷这样一个数所以它就等于0了

所以连续型变量的概率分布有一个很重要的特点

就是X等于某一特定取值的概率一定是0

想象一下无限细分统共我的概率加和起来才是1

如果把它无限细分的话它就一定是相邻趋近的一个数了

那么下面呢

我们说连续型变量的概率分布怎么样来更严谨的计算

它实际上是对密度函数求积分的

这是

再回忆一下我们上微积分课学的知识我们有一条曲线

然后想求曲线下的面积

那就通过对它求积分获得

这个积分的下限是A上限是B

也就是说X落入AB这个区间的概率
这个积分的下限是A上限是B

也就是说X落入AB这个区间的概率

就等于对f(x)求积分下限是A上限是B

那左边这个图代表的是

X落入区间2到3之间的概率

是阴影部分那一部分面积等于0.181

这是题目本身告诉我们的

我自己生成了数据所以我就知道它的密度函数所以我就可以计算出来

然后

右边这张图代表的是X大于6的概率

X大于6发生的概率相对较低也就是说

等待时间超过6个小时的概率

相当于十分之一大一点

这是我们说的

连续型变量的概率分布

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。