Video慕课视频播放-基于R语言的社会统计分析-MOOC慕课视频教程-柠檬大学

本周我们来介绍概率分布

相较于数学科学

统计学其实是一门非常非常年轻的学问
相较于数学科学

统计学其实是一门非常非常年轻的学问

我们这门课所要讲解的大部分内容

大部分的理论都是在最近的一百年才成型的

但是呢

唯独不同的是概率论

我不知道大家有没有了解过

概率的基本理论是从哪件事发展起来的

有的同学可能已经猜到了

对了是赌博

其实呢概率的历史特别特别悠久

早在十七世纪的时候就被用于计算赌博的时候各种战术的赢面

时至今日概率的相关理论已经非常发达了

可以说是枝繁叶茂

很多同学都上过大数课

大数课基本上

在微积分和线数之后我们都要经历

概率论与数理统计的洗礼

但凡经过洗礼的人

应该已经对概率论与数理统计的基本知识有了一定的了解

那这门课呢我们这门是更倾向于应用的课程

不会将概率论的基本理论展开来讲

我们只讲一些后面我们统计推断所必须的知识

那首先

我们需要的知识就包括概率分布的概念

然后我们会了解一下正态分布

还有被认为是统计推断理论发展

最重要基础的一种概率分布也叫作抽样分布

好首先我们来了解一下概率的基本概念

我相信其实我们每个人生活中总在和概率打交道

我们打开电视的时候听天气预报

经常会听到降水概率对吧

我们和别人聊天的时候也经常会说大概

可能好像这种词

那我问你概率到底是一个什么东西呢

我们可以从随机样本和随机试验的角度来理解

实际上想象一个随机样本或者是随机试验

对于每一个观测值

实际上我们都知道它的所有的可能取值

但是并不清楚到底哪一个取值会发生

每次我一开始讲观测值可能取值的时候大家可能就

就关上了就off了

那我们想象一个例子

扔硬币这件事

每次生活中做到两难的抉择时至今日大家有的时候还是要靠

扔硬币来决定

扔硬币有两种可能

不是正面就是反面但是为什么每次都在扔

是因为每次扔的时候我都不能确定到底这次可以得到正面和反面
不是正面就是反面但是为什么每次都在扔

是因为每次扔的时候我都不能确定到底这次可以得到正面和反面

但是我们可以知道

扔正面和扔反面的概率是一模一样的

一半一半都是百分之五十

那概率

实际上可以被理解成

一个长期概念的相对频数

也就是说

对于一个随机现象的某一个特定可能结果来说

这个结果发生的概率

是在一系列的重复的观测中

某一个结果发生的比例

好我们要再严格一些下一个定义

可以这样说

在一个随机样本或者是随机试验中

一个观测值

产生某一特定结果的概率

是在长期的一系列观测研究中

该结果出现的比例

这个定义中有两个关键词

我们提到了长期的还提到了比例

我们一件一件事来说

首先我们来说长期的

长期的意思是说你需要大量的观测值

才可能得出一个精确的结论
长期的意思是说你需要大量的观测值

才可能得出一个精确的结论

比如说刚才我们说扔硬币这个例子

我们假设

我不是扔了好多好多次

我想知道正面出现的概率

于是我做两次实验

扔了两次硬币

两次都出现正面了

那把它对应成

相对频数的概念你会发现出现正面的概率是多少

百分之百对吧

那你能下一个结论说出现正面的概率是100％吗

不太可以

那同样比如说我想知道我身边左撇子的比例

于是乎我就去问了我的家人我的朋友

我问了十个人发现我这十个朋友全是右撇子

你可不可以得出一个结论

说在这个世界上左撇子的概率是零呢

这就说明一个问题

没有一个长期的重复的观测

你所得到的对于概率的预测都是不精确的

所以我们需要长期的

大量的实验才能得到一个靠谱的概率

我们可以看这张图

这是我用计算机去模拟了一个扔硬币的过程

假设我一次都不扔的时候显然就没有概率这码事

假设我只扔一次

这一次出现了正面那首先通过这一次实验我得出的结论认为

正面的概率是百分之百

然后我再扔

然后你会发现

随着我掷硬币数量的增加

我每次依靠这个投掷数得出的概率是在一个不断的震荡中得出的结果

当我扔到一千次的时候你会发现

正面的概率慢慢的收敛到我们

所常识中理解的那个百分之五十的概率了

这是关于长期的这个关键词

然后在这个定义中

另外还有一个关键词叫做比例

有的时候我们叫百分比

比例就告诉我们说概率必然是一个什么样的数

它的取值必须是在0和1之间的不可能出这个范围了

那当你用百分比表示的时候我们通常用0到100％来表示

那我们现在讲了这么多举一个例子

我们经常听的那件事说今天的降水概率是70％

百分之七十这个数是怎么得到的

实际上

严格的解读它的意思是

在过去一系列有类似的大气条件的日子里

降水在百分之七十的日子里发生了

也就是说过去我观察了这件事好多

只要大气有这种条件我就去观测下雨还是没下雨
也就是说过去我观察了这件事好多

只要大气有这种条件我就去观测下雨还是没下雨

结果发现百分之七十的日子下雨了

所以降水概率百分之七十是这样得来的

刚才我们说有一个特别重要的关键词

叫做长期的(long-run)

我们关注长期的观察重复的观察

但是长期观测法有没有局限性呢

我们总是希望能够重复一个试验无限次

多多益善越多越好

但是这种方法在现实世界中显然是很奢侈的不太可能

我们做一个假设

假设说你现在

在考虑全国我们鼓励全民创业全民创新

那你现在要考虑要不要加入创客大军也开展自己的事业

那想要估计这个概率怎么办

根据你目前的条件

你想知道你创业成功的概率是多少

创新创新没有多少人有我这样的条件对吧

那怎么办呢

理论上从统计学的角度那你就开始创业吧

创业第一次成功了我记一个1

创业第二次失败了我记一个0

创业第三次又成功了我记一个1

我自己要创业好多次才能得出一个对创业成功与否概率的估计

那显然是一件很扯的事情对不对

我们没有条件展开这样长期的观察

那缺乏客观的数据呢

你就不得不借助一些主观的判断来对我创业是不是能成功做一些

推断了

这种相对主观的方式

在统计学的研究中也并不是没有的

有一种方法

是我们统计学中非常重要的一个分支

叫做Bayesian statistics贝叶斯统计

它就是使用这种主观概率为基础而发展出的一系列统计方法

当然贝叶斯统计并不是我们这门课要涵盖的内容

有兴趣的同学大家可以自学这个内容也是很有意思的

好下面我们来聊一聊基本概率法则

学了概念就要看法则

我们以前但凡是上过概率论与数理统计的同学

都应该尝试背诵过好多好多的概率法则

我们这节课呢不会给大家那么多的东西要背

实际上与我们后面统计推断息息相关的概率法则只有四条

我们一条一条来看

首先第一道法则

也就是P（not A）

P (A的补集)

就是A不发生的概率

就应该等于1减去A发生的概率

这个很简单非常直观实际上我们高中就学过了

也就是说如果我们说

今天下雨的概率是百分之七十

那不下雨的概率不就是1-70％吗等于30％

这是第一条最最简单的人人欢喜的一个法则

第二条

A或B发生的概率也就是A∪B的概率

A和B只要有一件发生我们就认为它发生了

所以P（A∪B）的概率等于

A发生的概率加上B发生的概率减去

AB同时发生的概率

如果说A和B为互斥事件

或者是不相交的事件

那我们知道A和B必然不可能同时发生

于是乎A∩B的概率就是0

我们进而得到

A和B中至少有一件事情可能发生的概率

就等于P（A∪B）就等于P（A）+P（B）A和B中至少有一件事情可能发生的概率

就等于P（A∪B）就等于P（A）+P（B）

第三条

A和B同时发生的概率前面已经提过了

A和B同时发生的概率就等于P（A∩B）

它就等于A发生的概率乘以

在A发生的前提下B发生的概率

这个在A发生的前提下B发生的概率就是我们后面总要提到的条件概率

那把刚才的那个式子稍微调一调你就会发现

在A发生的前提下B发生的概率就应该等于

AB同时发生的概率除以A发生的概率

我们举一个例子

美国人结婚的概率是56％

然后综合社会调查GSS的数据显示说

如果你问已经结婚的人

你们现在是处于非常幸福、幸福还是不是很幸福的婚姻之中

发现有百分之四十的人

都认为他们的婚姻非常幸福

现在我的问题是

一个人成功的结婚了

并且在婚姻中正感到幸福的概率是多少
一个人成功的结婚了

并且在婚姻中正感到幸福的概率是多少

实际上如果我们把事件A

理解成结婚事件B定义成婚姻幸福

那么结婚并且婚姻幸福的概率就等于P（A∩B）

就等于P（A）乘以P（B）

P结婚的概率乘以

婚姻幸福的概率

也就是0.56乘以0.4等于22％

实际上就是告诉我们说

一共有五分之一的美国人成功结婚了

并且在婚姻中感受着幸福

这是

A和B有关系的情况下

显然你必须得成功的结婚才能有权说你在婚姻中是不是幸福

那有的时候呢AB和两个事件并不一定有任何关联

这个时候我们管它叫相互独立

如果是A和B没有任何关系的时候我们会

得到一个很重要的结论

就是说在A发生的前提下

B发生的概率

就应该直接等于

B发生的概率

也就是说我不管你A发生不发生

我B发生的概率都不变

也就是P(B∣A)等于P(B)

然后我把上面的式子再调一调

发现P(B∣A)等于

P(A)∩P(B)除以P(A)

于是乎我又换一换就发现

P(B)等于P(A)∩P(B)

除以P(A)

把这个式子再调一调

你会得到一个非常非常重要的法则

也就是我们的概率法则四

当事件A和B相互独立的时候

我们会有

A∩B发生的概率等于P(A)乘P(B)

而且这是两事件独立的充要条件

所以后面有的时候会有一些练习让你证明

让你证明两事件独立

要想证明两事件独立

你必须能够得出一个结论发现P(A∩B)等于P(A)乘P(B)
要想证明两事件独立

你必须能够得出一个结论发现P(A∩B)等于P(A)乘P(B)

这是关于独立事件

然后有的时候有同学会混淆

我们前面有提到过互斥事件

什么叫互斥事件

也就是如果A发生了

我能百分之百的确定B是不会发生的

两事件没有同时发生的可能性

然后有同学就认为互斥事件就是独立事件

这是完全不同的

实际上独立的意思是说

AB发生互不干扰

我不管A发生不发生B发生的概率都是一样的

那

你们想想互斥和独立其实到底存在着什么样的关系

如果我告诉你说两事件互斥

对独立会有怎么样的推论呢

其实互斥

就告诉你说两事件必然不可能是相互独立的

因为A发生了B肯定不发生

A对B产生了影响两个事情就不是完全独立的事件了

所以不要混淆

如果说两事件相互互斥

那它必然不可能是独立的了

基于R语言的社会统计分析课程列表：

第一章：绪论

-1.1 什么是统计学?

-1.2 数据

-1.3 随机化原则

-1.4 数据收集方法

-第一章：绪论--1.5 习题

第二章：描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章：描述统计--2.6 习题

第三章：基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章基于R语言的探索性数据分析

第四章：概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章：概率分布--4.5 习题

-第四章概率分布

第五章：统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章：统计推断 - 估计--5.5 习题

-第五章抽样分布

第六章：统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章：统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章统计推断 - 区间估计

第七章：统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章：统计推断 - 显著性检验--7.6 习题

-第七章统计推断 - 显著性检验

第八章：两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析（选学）

--Video

-第八章：两组比较和多组比较--8.6 习题

第九章：变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章：变量间的关联分析--9.4 习题

-第九章 R Code

第十章：简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章：简单线性回归--10.6 习题

-第十章简单线性回归模型 - 讲义

-第十章 R Code

第十一章：多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章：多元回归--11.5 习题

-第十一章 R Code

-第十一章多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video在线视频

Video

Video课程教案、知识点、字幕

基于R语言的社会统计分析课程列表：

第一章：绪论

第二章：描述统计

第三章：基于R语言的探索性数据分析

第四章：概率分布

第五章：统计推断 - 估计

第六章：统计推断 - 区间估计

第七章：统计推断 - 显著性检验

第八章：两组比较和多组比较

第九章：变量间的关联分析

第十章：简单线性回归

第十一章：多元回归

第十二章: Logistic回归和其他高级统计方法简介

Video笔记与讨论

也许你还感兴趣的课程:

Video在线视频

Video

Video课程教案、知识点、字幕

基于R语言的社会统计分析课程列表：

第一章：绪论

第二章：描述统计

第三章：基于R语言的探索性数据分析

第四章：概率分布

第五章：统计推断 - 估计

第六章：统计推断 - 区间估计

第七章： 统计推断 - 显著性检验

第八章：两组比较和多组比较

第九章：变量间的关联分析

第十章：简单线性回归

第十一章：多元回归

第十二章: Logistic回归和其他高级统计方法简介

Video笔记与讨论

也许你还感兴趣的课程:

第七章：统计推断 - 显著性检验