当前课程知识点:基于R语言的社会统计分析 >  第四章:概率分布 >  4.3 正态分布 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

我们说

连续型变量的种类其实真的是多种多样

你们现在可以看到这张五颜六色图

好多好多种连续型变量的概率分布的形态

比如说我们有

有柯西分布这是我们上课的时候讲过的

有指数分布(Exponential Distribution)

我们有Johnson

有拉普拉斯(Laplace)

还有LogNormal、LogLogistic等等等等

你看到了这么多密密麻麻的小图以后

我要说其实你看到的只是连续型分布的形态的冰山一角

因为我们有太多太多的分布可能
我要说其实你看到的只是连续型分布的形态的冰山一角

因为我们有太多太多的分布可能

这门课呢我们没有办法一一的介绍每一种分布

实际上在以前大数概率论与数理统计的时候

很多同学已经学了

不同类型的连续型概率分布基本的密度函数的表达

我们这节课

只要你们记在心中的一个非常重要的连续型的概率分布也就是

传说中的正态分布

normal distribution是每个人做梦都可以梦到的一种分布

为什么说正态分布非常重要是我们必须了解的

是因为这个分布代表了真实世界中很多变量的分布形态

比如说我们经常提到的身高、体重、血压

很多物理学的测量

都是服从正态分布的

另外一个很重要的原因

正态分布在统计推断中它发挥着举足轻重的作用

很多更高级的理论实际上它的最基本的假设

就是认为变量是服从正态分布的
很多更高级的理论实际上它的最基本的假设

就是认为变量是服从正态分布的

所以首先

我们要看看正态分布到底是一个什么样的分布
所以首先

我们要看看正态分布到底是一个什么样的分布

我们刚才讲了英文里面管它叫normal distribution

另外其实还有一个名字

叫做高斯分布

有的同学突然间拿着作业来问我

说这个高斯分布又是什么分布我们没学过

正态分布就是高斯分布一模一样的

gaussian distribution呢它是来自于

被认为是正态分布创始人的高斯

当然

像很多科学一样

对于这个方法到底是谁发明的经常有很多争论

那正态分布谁是最初的发明者

也一直在被争论着

那这门课呢不是统计史所以我们可以

比较安全的说

不管高斯是不是最初的创始人

他起码对正态分布的理论化系统化

发挥了非常非常重要的作用

这也就是为什么正态分布也用高斯分布命名

那这个分布呢

之所以流传至今

一直被广泛应用是因为它有很多很多非常漂亮的特性

我们是真心觉得它很漂亮

第一条特性

我们可以看看这个分布长成什么样子

你们看到的这张照片是一个钟

然后我们看看正态分布的概率分布形态

它首先是一个完全完美的对称的一个分布

而且形状呢像钟一样呈钟形

对称分布的好处在什么地方

这样的一个对称分布而且是钟形的分布会保证数据的中心

均值等于中位数等于众数

这保证了我们所得到的均值

绝对是数据的中心

它是数据的绝对中心

然后

另外一条非常非常重要的性质

实际上我们所看到的数学表达可能看似有点复杂

但正态分布已经是

在整个的连续型分布家族之中

相对简单的一种分布形式了

说简单什么意思呢

我们用两个总体参数

就可以完全的

决定这个分布的形状

这两个总体参数就是我们再熟悉不过的均值和标准差

也就是说你给定一个均值的取值

给定一个标准差的取值

你就可以百分之百的确定一个分布的位置还有它的离散程度了

我们看这张图

这张图显示的是均值和标准差取值不同的时候

会得到的不同的正态分布的形状

当均值为0的时候

所有的正态分布都是以0为中心的

然后标准差越大呢说明数据的离散程度越大

这个分布就摊的越广

越宽

那有同学就不明白了说为什么

只有均值和标准差你就能完全决定一个正态分布的形状呢

我们来看看正态分布的密度函数

正态分布的密度函数它等于

我们看首先啊它实际上这个

根号下2π乘以σ的平方分之一

然后乘以e的

负的

2σ平方分之x减μ的平方

这么样的一个函数

这个函数很长但实际上你会发现

大部分内容都是常数

我们有π

e这些都是我们知道取值的东西

唯一

我们可以做做手脚的一个是σ

一个是μ那x是什么呢x是每一个

x的可能取值啊

所以只要你变换了σ和μ

f(x)这个函数的形状就会

改变

所以说

正态分布的分布形状是由均值μ

和标准差σ全权决定的

这是一条很好的特性一般很多的

连续型变量的

概率分布都需要好多好多参数来决定它的形状

而正态分布呢只需要两条我们最熟悉的均值和标准差就可以做到了

好第三条

特别棒的性质

它代表了真实世界的很多变量

的分布或者说它

高度的近似于真实世界的很多

变量的分布

我们前面已经说过了

说正态分布

人的身高是服从正态分布的

体重是服从正态分布的

如果你是一套特别好的IQ考题你会

发现人们的IQ得分也是服从正态分布的

包括你从超市里买大米

你每次这一兜子米说是五十斤你真正上磅去约一约

不一定是百分之百的五十斤

总是有一点点振动啊

然后假设说

我吃饱了撑的买了一千袋大米

你可以看看大米的重量到底

服从一个什么分布啊实际上它也会服从正态分布的

你可以这么理解啊我们

我们把

大陆地区把正态分布翻译成

正态分布

那在台湾地区呢它直接把它翻译成常态分布

也就是说它代表的是一种

服从正常状态的一个

分布现象

那我们现在看到的这张图呢

代表的是从两2001年到2010年收集的来自于

美国国家疾控中心美国的CDC的数据

然后你会看到红色的代表的是女性的身高分布

蓝色的代表的是男性身高分布

非常非常完美的正态分布啊

然后发现女性的平均身高

其实也不是很高啊在一米六二到一米六三附近

然后男性的平均身高呢在一米七六七七左右

然后它们都是完全对称的

比如说你女性

处在一米四

比一米四矮的概率很小人很少

然后右边呢你

高呢女性也高不太过这个一米八五一米九啊

这是怎么看这张图

第三条特性就说的是正态分布呢

它高度的近似着

真实世界的很多种数据的分布

正态分布的第四条非常漂亮的性质是它有一个经验法则

我们可以一起看看这张图看看这张图这张蓝色的图

这张图表现的是

观测值落入

一个标准差两个标准差三个标准差范围内的

概率分别是多少

我们看中间这一部分代表的是

观测值落入一倍标准差内的概率

大概是百分之六十八左右

小于

均值一倍标准差的概率是

百分之三十四点一因为它完全对称那大于均值一倍标准差的概率

也是百分之三十四点一

然后落入两倍标准差的概率

大了很多

其实把他们加和相当于百分之九十五

然后3σ

就是落入与均值三倍标准差之间的概率

达到了百分之九十九点八

有的时候我们学统计的人开玩笑说

这件事是一个3σ事件也就是说百分之九十九点八

可能有百分之九十九点八的概率发生

这是一个非常重要的经验法则这张图后面我们在讲

估计的时候还会被重复使用啊这在

构建置信区间的时候会起到非常重要的作用

另外

很多

统计推断的方法都会借力于一种

特别的正态分布

这种正太分布呢叫做标准正态分布

它的特点就是我们刚才说只要给定一个均值的取值还有一个标准差的取值

我们就知道这个正态分布长成什么样子

那标准正态分布呢就是一个均值为0

标准差为1的正态分布

实际上它是把任何的一个

变量经过标准化以后

都可以得到的一种分布形式

如果你们还记得我们第二周讲过

数据的标准化过程

每一个变量我们都可以把它标准化标准化的过程是减均值除标差

减去它的均值也就是去中心化

然后除以标差是除以它的离散程度

以后我们实际上就把这个数据标准化了

那把任何一个变量标准化以后

如果这个变量本身是服从均值为μ

标准差是σ的正态分布

标准化之后它自然就会

服从均值为0标准差为1的正态分布了

这是关于标准正态分布

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。