当前课程知识点:概率论与数理统计 >  第十三周 统计学基本概念 >  统计学实例 >  13.1 统计学实例

返回《概率论与数理统计》慕课在线视频课程列表

13.1 统计学实例在线视频

13.1 统计学实例

下一节:13.2.总体与样本

返回《概率论与数理统计》慕课在线视频列表

13.1 统计学实例课程教案、知识点、字幕

从这一讲开始

我们进入到统计学的内容

介绍一些统计学的基本概念和方法

引用《不列颠百科全书》对统计学的定义

统计学是收集与分析数据的科学与艺术

统计学和概率论它们的研究目的

都是对不确定的对象和现象进行量化

都是对不确定性的量化理解

统计学和概率论有着密切的关联

但是它们之间又有鲜明的区别

概率论是数学的一个分支

它的基本特征是从法则到结果

所有结果都是由公理体系

建立的法则推出的

是从一个坚实的基础

演绎推理出来的

而统计学是一门科学

它的基本特征是从结果到法则

人们从实际数据出发

通过对观测数据结果的分析、归纳

从中提炼出有用的信息

得到法则

统计学作为一门实用科学

从结果到法则的过程是不断改进

不断提升的

从数据结果提炼出来了法则

进而再利用这些法则

解读新的数据结果

对未知的事物进行推断

对未来可能发生事件做出预测

这些法则在不断深入的使用过程中

随着观测结果的不断增加

人们会逐渐发现其中的不足

不断给出改进和修订

使得它们能够越来越好地实现

解释和预测等等的功能

统计学的应用非常广泛

在很多领域发挥着重要的作用

可以说统计学

发挥重要功能的领域是不胜枚举的

我们这里仅仅简单地列举几个

在科学研究中

实证的科学研究离不开

对数据的收集和分析

例如

孟德尔在发展他的遗传理论的过程中

就做了大量统计数据的分析

技术的创新和改进

需要作试验

和对试验数据进行分析

例如

一种新型钢材的强度指标

是否比传统工艺生产的钢材

有明显改进

就需要获取充分的对比数据

进行统计推断

工农业生产中

也大量地使用统计方法

例如产品质量的控制和管理

深刻地使用了统计方法

并且由此产生了新的统计理论

在经济领域

对经济金融形势的分析和预测展望

建立量化模型

也离不开对大量数据的分析

政府部门的管理和决策

需要统计学的帮助

几乎所有的政府

都会设立统计局

这样的专门单位从事统计工作

统计学还在天气、医药、人口

社会卫生、收入保障体系的制定等等方面

发挥着基础性的作用

为了让同学们首先

对统计学这个学科

产生更多一些的感性认识

我们先列举两个真实发生过的实例

看看统计学在现实问题中

是以什么方式呈现的

是怎么样发挥作用的

第一个例子是统计学

帮助印度政府

解决难题的一个故事

1947年印度刚刚独立不久

由于宗教等各种复杂的原因

社会秩序还很不安定

比较动荡

时常发生一些冲突

因为首都德里发生的一次暴乱

有一批难民躲避到一个被称为

红色堡垒的保护区

把自己封闭起来

政府无法解决争端

并且因为安全等等的原因

也不能随意的进入到保护区

但是新的政府有职责供应难民的

基本生活必需品

保证他们能够生存下去

没有办法

政府就将这个任务交给了承包商

承包商向难民供应生活的必需品

由政府来买单

这个项目涉及的金额巨大

政府很自然担心承包商夸大账目

从中谋取暴利

但政府又缺乏对难民人数

等一些基本信息的了解

对于判断账目的这个真实性呢

感到无从下手

是个棘手的问题

这时候

有人建议让统计学家

来尝试一下这个任务

政府听从了这个建议

承担这个任务的是刚从英国学成回来的

一位年轻的统计学家叫马哈拉诺比斯

马哈拉诺比斯后来成立了

印度统计研究所

而且他还提出了以他的名字来命名的

距离度量公式

成为了世界知名的统计学家

当时面对政府的难题

马哈拉诺比斯他只用了非常简单的办法

就给与了解决

没有用到任何高深的数学公式和数学知识

同学们也可以帮助印度政府来想一想

有什么好的办法

下面我们看马哈拉诺比斯的解决办法

统计学家的擅长是处理数据

当时所能够得到的数据

就是承包商交给政府的账单

这些账单记录了

各种生活用必须品的实际供应量

包括大米、豆子和食盐等

豆子对我们可能不是必须品

但是在印度社会或许它是

饮食中必不可少的

总之有这样的一些数据

考虑全体避难者

一天所需要的米、豆和盐的总量

分别用大写的R,P和S

也就是它们的英文首字母来表示

然后呢再通过对普通人的

日常需求量的调查

估计出每人每天平均所需的

米、豆、盐的使用量

分别表示为小写的r,p和s

这样

通过三个比值

大R除以小r

大P除以小p

大S除以小s

就可以大体估计出

红色堡垒内的难民人数

正常情况下

这三个比值的大小应该是差不多的

当马哈拉诺比斯做了这一个工作之后

他发现三个比值有明显的差异

其中大S除以小s它的值最小

大R除以小r

明显地大于其他两个比值

也就是

用米的使用量估计出的人数

远远多于用盐的使用量

估计出的人数

与盐相比

商品中大米的数量

很可能被夸大

这样

问题就有了一个合理的解释

因为在当时

米的利润比较高

而食盐几乎没有利润

商人他们作假的手段

也比较直接和低劣

没有利润的他就没有多要没有多说数字

利润高的就夸大了这个使用量

因此

被统计学家轻易地发现了破绽

帮助政府解决了大问题

进一步考虑

如果商人更精明些

将盐和豆子的需求量也相应地夸大

这样就不会那么轻易的显露出破绽了

但是

只要做了手脚

应该还是会在数据中有所体现的

只不过这个时候破绽可能藏得更隐蔽些

需要更深入的分析才能够发现

统计学的基本任务就是面对数据

通过对数据的分析

发现隐藏在数据背后的规律

规律比较明显

那么相对简单的统计方法可能就会生效

规律隐藏得更深

那么可能就需要

引入更复杂的统计工具

进行分析才会生效

第二个例子是关于

小儿麻痹症疫苗有效性的检验

1954年

美国政府对当时研发出的一种新的

小儿麻痹症疫苗

进行了一项研究

目的是评价它的有效性

也就是这个疫苗是否会有效地

减少幼儿患小儿麻痹的发病率

研究人员将参加这项研究的幼儿

分为两组

一个组按照规定接受三次疫苗

称为试验组

另一组不接受疫苗

但是要接受三次生理盐水

医学上称为安慰剂接受这样的注射

被称为对照组

为了对比接种疫苗

和不接种疫苗的差异

对照组是必不可少的

而且试验组和对照组的儿童人数

应该尽可能相同

由于小儿麻痹症的发病率非常之低

所以两个组都需要大量的幼儿

参加试验

这样才能保证有足够的病例发生

从而为进行比较提供足够可靠的基础

最终有超过40万名幼儿参加了测试

有文章称这项研究是

有史以来最大规模的公共卫生试验

试验组和对照组

两个组的幼儿人数

都达到了20万人以上的规模

具体的项目进行中

对每一位参加测试的幼儿

对其注射疫苗

还是注射生理盐水

必须随机地决定

因为这个试验的目的

是为了了解新的疫苗

对所有美国儿童的效果

所以需要被测儿童分散在美国的各州

而且人口多的地区要多选些测试幼儿

人口少的地区则要少选些测试幼儿

这样尽可能保证

参加测试的幼儿的代表性

否则

如果在一个小儿麻痹高发区

抽取了过多的幼儿

结果就缺乏足够的说服力了

关于如何在大量的个体中

抽取到足够有代表性的

少数个体

其本身就是统计学的

一个重要分支

称为抽样理论

这个表中列出了实际的测试结果

可以看到

大约20万名接受疫苗的幼儿工

后来发病的人数是33人

而20万名未接受疫苗的幼儿

后来有115人患病

发病率相差4倍左右

表面看这个差别是相当明显的

但是由于含有随机因素

直觉上的差异未必都是完全可靠的

比如

投掷一颗骰子

一个人投出了6点

而另一个人投出1点

这个差别是明显的

但我们不能说投出6点的人

比投出1点的人水平更高

因为结果具有强烈的随机性

具有随机性的数据

要从它的概率意义进行理解

才能够对它们的真实含义

有更加正确的认识

如何在概率意义下量化

不同的随机数据的差异

所得到的差异是否是显著的

显著性如何具体地刻画等等

这些都是统计推断理论要回答的基本问题

统计学有自己独特的思维方式与方法

教材中总结了几个关键的认识

我们在这里强调一下

或许有助于同学们

更好的学习后面的具体方法

首先

统计学的目的

是回答实际领域中提出的各种问题

对科学结论提供定量分析的依据

为发现新的理论模型

提供线索预测未来

为决策提供支持等

因此统计学以问题为导向

而不是以理论为导向

统计学本质上是一门应用性

方法性的学科

另一个要点

作为统计学研究对象的数据

它们是部分的

因为我们不可能把所有

可能的数据都拿到

同时数据又是具有不确定性的

因为这些原因

所有的统计结论

都可能是错的

统计学不可能得到绝对正确的结论

只能设法尽可能的降低

因为犯错误而造成的损失

例如

一枚均匀的硬币

连续抛掷100次

全部都得到正面

这个可能性也是存在的

只不过发生的概率非常非常的小

那么针对连续100次投掷

全部都得到正面的观测结果

无论我们得出硬币是均匀的这样的结论

还是硬币是不均匀的这样的结论

都是可能出错的

只不过

这个时候硬币不均匀的结论

它出错的概率更小而已

还有

对具体问题所产生数据的统计分析

其结果

不必具有数学和科学意义的一般性

必须与实际问题的背景相结合

这样呢来加以解释

简单地说“Yes” 或 “No”

很有可能会让你误入歧途

最后要强调一点

没有一种统计方法是“最好的”

反之

对同一组数据

完全有可能

用不同的方法去进行分析

甚至会得到相互矛盾的结论

任何一组数据都有其特定的背景

用什么方法分析可以得到

“好的”或“更好的”结果

这需要大量的统计分析的实践经验

在这个意义下

某种程度上可以说

统计既是科学

又是艺术

概率论与数理统计课程列表:

第一周:随机事件及其概率运算

-随机试验与随机事件

--1.1 随机试验与随机事件

-古典概型

--1.2 古典概型

--第一周:古典概型

-事件间的关系与事件的运算

--1.3 事件间的关系与事件的运算

--第一周:事件间的关系与事件的运算

-两个著名的例子

--1.4 两个著名的例子

--第一周:两个著名的例子

-讲义

第二周:条件概率和独立性

-条件概率

--2.1 条件概率

--第二周:条件概率

-有关条件概率的三个重要计算公式

--2.2 条件概率的三个重要计算公式

--第二周:有关条件概率的三个重要计算公式

-事件的独立性

--2.3 事件的独立性

--第二周:事件的独立性

-应用实例

--2.4 应用实例

--第二周:应用实例

-网球比赛胜率的计算

--Video

-讲义

第三周:随机变量

-随机变量及分布函数

--3.1.随机变量及分布函数

--第三周:随机变量及分布函数

-离散型与连续型随机变量

--3.2 离散型随机变量

--第三周:离散型与连续型随机变量

-分布函数的性质与特殊的例子

--3.3 分布函数的性质与特殊的例子

--第三周:分布函数的性质与特殊的例子

-概率论所需微积分要点回顾

--3.4 概率论所需微积分要点回顾

--第三周:概率论所需微积分要点回顾

-讲义

第四周:常见随机变量

-二项分布与负二项分布

--4.1 二项分布与负二项分布

--第四周:二项分布与负二项分布

-泊松分布

--4.2 泊松分布

--第四周:泊松分布

-几何分布与指数分布

--4.3 几何分布与指数分布

--第四周:几何分布与指数分布

-正态分布

--4.4 正态分布

--第四周:正态分布

-讲义

第五周:随机变量函数的分布及随机变量的数字特征

-随机变量函数的分布

--5.1 随机变量函数的分布

--第五周:随机变量函数的分布

-随机变量的数学期望

--5.2 随机变量的数学期望

--第五周:随机变量的数学期望

-随机变量的方差

--5.3 随机变量的方差

--第五周:随机变量的方差

-原点矩与中心矩

--5.4 原点矩与中心矩

--第五周:原点矩与中心矩

-期望和方差的一些补充性质

--5.5 期望和方差的一些补充性质

--第五周:期望和方差的一些补充性质

-讲义

第六周:常见随机变量的期望方差和应用实例

-二项分布与泊松分布的期望与方差

--6.1二项分布与泊松分布的期望与方差

--第六周:二项分布与泊松分布的期望与方差

-几何分布的期望与方差

--6.2 几何分布的期望与方差

--第六周:几何分布的期望与方差

-均匀、指数和正态分布的期望与方差

--6.3 均匀、指数和正态分布的期望与方差

--第六周:均匀、指数和正态分布的期望与方差

-随机变量数学期望的应用实例

--6.4 随机变量数学期望的应用实例

--第六周:随机变量数学期望的应用实例

-快速排序算法的平均计算量分析

--Video

-讲义

第七周:多维随机变量,独立性

-多维随机变量

--7.1. 多维随机变量

-第七周:多维随机变量

-常见多维随机变量举例

--7.2. 常见多维随机变量举例

--第七周:常见多维随机变量举例

-随机变量的独立性

--7.3 随机变量的独立性

--第七周:随机变量的独立性

-独立随机变量期望和方差的性质

--7.4 独立随机变量期望和方差的性质

--第七周:独立随机变量期望和方差的性质

-讲义

第八周:条件分布与条件期望

-条件分布

--8.1条件分布

--第八周:条件分布

-条件期望

--8.2 条件期望

--第八周:条件期望

-全期望公式(上)

--8.3 全期望公式(上)

--第八周:全期望公式(上)

-全期望公式(下)

--8.4 全期望公式(下)

--第八周:全期望公式(下)

-讲义

第九周 协方差与相关系数

-随机变量函数的期望

--9.1. 随机变量函数的期望

--第九周:随机变量函数的期望

-协方差

--9.2 协方差

--第九周:协方差

-相关系数

-- 9.3 相关系数

--第九周:相关系数

-相关与独立

--9.4 相关与独立

--第九周:相关与独立

-讲义

第十周 独立随机变量和的分布与顺序统计量

-独立随机变量和的分布

--10.1. 独立随机变量和的分布

--第十周:独立随机变量和的分布

-独立正态分布和的分布

--10.2 独立正态分布和的分布

--第十周:独立正态分布和的分布

-最大值、最小值分布

--10.3 最大值、最小值分布

--第十周:最大值、最小值分布

-顺序统计量

--10.4 顺序统计量

--第十周:顺序统计量

-讲义

第十一周 正态分布专题

-正态分布的相关与独立

--11.1 正态分布的相关与独立

--第十一周:正态分布的相关与独立

-边缘密度均为正态,联合分布不是二元正态的例子

--11.2 边缘密度均为正态,联合分布不是二元正态的例子

--第十一周:边缘密度均为正态,联合分布不是二元正态的例子

-二项分布的正态近似

--11.3 二项分布的正态近似

--第十一周:二项分布的正态近似

-正态近似计算实例

--11.4 正态近似计算实例

--第十一周:正态近似计算实例

-讲义

第十二周 大数定律和中心极限定理

-大数定律

--12.1大数定律

--第十二周:大数定律

-中心极限定理

--12.2 中心极限定理

--第十二周:中心极限定理

-蒙特卡洛(Monte Carlo)算法

--12.3 蒙特卡洛(Monte Carlo)算法

-伪随机数和随机模拟

--12.4 伪随机数和随机模拟

-讲义

第十三周 统计学基本概念

-统计学实例

--13.1 统计学实例

-总体与样本

--13.2.总体与样本

-常用统计量

--13.3 常用统计量

--第十三周:常用统计量

-三种重要的统计分布和分位数

--13.4 三种重要的统计分布和分位数

--第十三周:三种重要的统计分布和分位数

-讲义

第十四周 参数点估计

-参数的矩估计

--14.1参数的矩估计法

--第十四周:参数的矩估计

-参数的极大似然估计

--14.2参数的极大似然估计法

--第十四周:参数的极大似然估计

-参数点估计的无偏性和有效性

--14.3 参数点估计的无偏性和有效性

--第十四周:参数点估计的无偏性和有效性

-参数点估计应用实例

--14.4 参数点估计应用实例

--第十四周:参数点估计应用实例

-讲义

第十五周 参数的区间估计

-区间估计的基本思想

--15.1 区间估计的基本思想

--第十五周:区间估计的基本思想

-区间估计的构造方法

--15.2 区间估计的构造方法

--第十五周:区间估计的构造方法

-两个正态总体的区间估计

--15.3 两个正态总体的区间估计

--第十五周:两个正态总体的区间估计

-大样本置信区间

--15.4 大样本置信区间

--第十五周:大样本置信区间

-讲义

第十六周 假设检验

-假设检验问题的提示和标准步骤

--16.1假设检验问题的提示和标准步骤

--第十六周:假设检验问题的提示和标准步骤

-假设检验问题的两类错误和P值

--16.2假设检验问题的两类错误和P值

--第十六周:假设检验问题的两类错误和P值

-单个正态总体参数的假设检验

--16.3 单个正态总体参数的假设检验

--第十六周:单个正态总体参数的假设检验

-拟合优度检验

--16.4拟合优度检验

--第十六周:拟合优度检验

-讲义

应用实例

-利用条件概率计算网球比赛胜率

--利用条件概率计算网球比赛胜率

-利用期望的计算性质分析快速排序算法的平均计算量

--利用期望的计算性质分析快速排序算法的平均计算量

-讲义

习题课一

-事件

--事件

-分布函数

--分布函数

-正态

--正态

-指数与二项

--指数与二项

习题课二

-随机变量函数的分布

--随机变量函数的分布

-指数分布期望

--指数分布期望

-切比雪夫不等式

--切比雪夫

-二元离散

--二元离散

-协方差

--协方差

-二元特征

--二元特征

习题课三

-统计量

--统计量

-无偏估计

--无偏估计

-点估计

--点估计

-假设检验

--假设检验

习题课四

-选择

--选择

-填空

--填空

-大题

--大题

13.1 统计学实例笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。