Video慕课视频播放-基于R语言的社会统计分析-MOOC慕课视频教程-柠檬大学

下面我们来看看比例的显著性检验

刚才说均值的时候

我们讲到了均值检验的五个部分

那比例同样也要关注那五个部分

首先我们看看假定

假定数据类型的话既然用比例

它一定是一个分类变量

然后同样我希望

一个随机化的过程

有随机化的过程才能保证

我的数据我的样本是具有代表性的

那另外呢

比例的检验可能比均值的检验要求更高一点

我希望

我的样本量一定是足够大的因为

本身分类变量就是一个非常离散的变量

它总体不可能服从正态分布对吧

它是一个二分变量

那

总体不服从正态分布的话怎么办

我们一定要需要中心极限定理

那中心极限定理要求样本量足够大

所以这个时候我们一定是希望样本量足够大的

然后就是我们的理论假设

我们理论的假设是原假设

π等于π0后面要渐渐习惯π是

对比例的表达

π等于π0那我的备择假设一样

也就是π不等于π0这是双尾的备择假设

也可能是π大于π0也可能是π小于π0

下面我们看看

检验统计量的构建

如果还记得

上周还有上上周学的内容的话

我们认为样本比例应该服从什么样的分布

我们样本比例用

π(hat)来表达

样本比例呢首先

如果是样本量足够大

我们就可以使用那个传说中的中心极限定理

我们简称central limit theorem CLT

如果

样本足够大我就可以认为

样本比例服从正态分布

那这个正态分布的均值是

π就是总体的那个比例

这个正态分布的标准差

就是根号下π

乘以1减π

除以n

然后下面的问题就是说

如果说我有一个理论假设

我就会对我的总体有一个猜测

我认为π是等于π0的对吧

我的H0

认为π等于π0

那回到上面这个关系里面实际上

我认为样本的比例π(hat)

应该服从

正态分布

我现在把所有的π都加一个0就好了

这是在原假设为真的情况下

我认为

样本比例应该服从的分布

它服从正态分布那下面很简单

我就减均值除标差把它标准化吧

我有π(hat)

减去π0

除以根号下

π0乘以1减π0

除以n

这个东西减均值除标差得到的是

标准计分

它就应该服从一个正态分布

这个正态分布的均值是0

标准差是1

于是乎我的检验统计量也就出来了

那检验统计量就是

样本均值和总体的

参数猜测之间有多大的区别

样本比例和
参数猜测之间有多大的区别

样本比例和

猜测的总体比例之间有多大的区别

它是它们的区别相当于

多少个标准误的距离

那看了这个检验统计量的表达以后

你可能已经发现了

它和前面研究总体

均值的那个检验统计量的表达有

很类似的形式

不难发现

不管是Z统计量还是之前我们用到的

均值检验时的Ｔ统计量

它们都有一个通用的形式

就是参数估计值

减去原假设下的参数值

除以估计量的标准误

然后最后呢

p值还有结论呢

和原来均值的检验是一模一样的

我这里面就不再多说了

下面我们直接看一个例子

这个例子是关于政府

在减少服务

和增加税收之间的两难抉择

这些天呢无论是在地方

州还是国家层面上

政府通常都面临缺乏

足够的资金去支付它所提供的各种服务的困难

就是说政府经常是

心是好的但是因为确实没钱所以总是要

做出取舍

那处理这个问题的一种方法是提高税收

另一种方法是减少服务

那

政府呢希望居民会告诉他们说

你更喜欢哪种

所以2006年的时候佛罗里达州Florida的

民意调查随机采访了

1200名佛罗里达州的居民

然后这个

访谈的结果告诉他们说

52％的人回答提高税收

48％的人回答减少服务

所以

其实已经是一个非常接近的一个

比例了

但是政府呢总要给出一个决断

所以他要给出一个决定

说到底是

很严谨的决定到底是

提高税收还是减少服务

这个时候我们就需要做检验了

因为如果说我们假设说这个

全体居民对

到底是减少服务还是增加税收无所谓

没有什么特别的倾向性

那么总体的比例应该是多少

应该是百分之五十

说明一半支持一半反对没有一个特别

极端的倾向

那但是呢我们得到这个数是52％支持

52％的人支持

提高税收48％的人支持减少服务

所以还是很近的

就是说52％虽然大于50％

但仍然可能是由于

样本的随机性而引起的一个向上的一个小小振动

所以一定要用统计学的

严谨方法去检验

所以这里面呢我们会令π

代表全州居民中希望增加税收的居民的比例

我们关注的是

居民到底有没有一个具体的倾向

也就是说总体的这个π

是不是等于0.5

翻译成统计学的语言

也就是我认为原假设H0

为π等于0.5

而备择假设Ha是π不等于0.5

然后我们已经得到了

π的点估计的取值

也就是样本估计值π(hat)

等于0.52

我们希望知道的是

在原假设为真的情况下

得到这个0.52的概率或者是

得到比0.52还要极端的概率

到底是多少

那首先我需要知道的是

原假设为真的情况下

样本比例估计的标准误是多少

注意之前我们在对

样本均值进行检验的时候

我们用的是

样本的

标准差去代替了那个总体标准差

用s直接代表的那个σ

但是呢发现在

比例的这个里面呢

其实我们是可以比较严谨的算出

样本比例估计值的标准误的

也就是se0它应该等于根号下π0乘以1减π0

除以n

注意这个地方经常犯错

有的同学觉得这是样本的特征直接把π0

本来应该是π0但他代的0.52

代的是样本的比例

不对

我们关注的是在原假设为真的情况下

样本比例可能会出现的误差

你的0.52只是众多样本中

一个而我们关注的是

所有样本观测值离散程度

所以这里面代的仍然是

你猜测的那个总体比例值0.50

所以就应该等于根号下0.50乘以0.50除以1200

这个标准误就等于0.0144

然后下面我们继续代公式

检验统计量的取值是什么呢

我关注的是样本比例

和我猜测的总体比例之间到底相差了多少个标准误的距离

于是乎这个Z统计量的取值

就等于0.52减0.50

除以0.0144等于1.39

下面这是一个双尾检验

于是乎我关注的P值是

Z大于1.39的概率

然后还要再乘以2

然后我仍然用之前

类似的语句

之前我们用的是ptT检验

现在我们用Pnorm也就是说

x大于1.39的比例是多少

你看我用pnorm什么都不写的时候

我们之前说它的默认是

lower tail等于true也就是说它

实际上这里面显示的是

Pz小于1.39的概率

它等于0.9177356

然后我发现不对我要的是Pz大于1.39的概率

一定要加一个lower.tail

F F代表是false

说明你要的是upper tail

这个右尾概率

等于0.08226444

然后另外你还要乘以二最后你得出P值等于0.16

好在刚才的那个例子中我们得到的P值并不小那个P值等于0.16

所以

原假设中的π等于0.5我们认为是可以被信服的

那这种情况下你怎么去报告你的结论呢

你的结论会说

不拒绝原假设

因为数据并不反对原假设H0

英文原文教材上说的是就是the evidence do not contradict H0

do not contradict

我们说不拒绝而为什么不说接受呢

很多同学就经常会想我要接受原假设

那有一件事要记住我们永远不能接受原假设为什么呢

因为除了原假设所假设的那个值以外

其实还有很多的其他的

假设的参数值可能导致目前的观测值

比如说我们构建上面那个例子之中总体比例的置信区间

你可以复习一下置信区间是怎样构建的

带一个数在构建置信区间的过程中呢

你可能发现总体的比例可能的取值会在0.49和0.55之间

那但凡你的总体的猜测值

在0.49和0.55之间就说明

你有可能得到你目前样本的这个点估计

所以我们强调不拒绝

是为了强调

原假设只是众多可信的参数取值之中的一个

那你也可以这样理解啊通常情况下

我们设计一个研究使了半天劲收集了好多数据

目的实际上是为了证明备择假设是真的

那为了证明备择假设是真的

原假设永远是我们的假想敌永远是我们的敌人

我很想打败它

我很不想承认它是真的于是乎我们就需要

不断的一次两次三次去收集证据去打败这个原假设

有一种君子报仇十年不晚的劲头

就今天我没有成功的把你拒绝掉我并不接受你明天我还要再试着拒绝你

这是关于我们永远都不能接受原假设

下面我们来看看样本量对P值的影响

上一周呢我们样本量是1200可能已经不小了

但是

假设我样本还可以再大

大到多大呢我假设是一个4800的样本

那在4800的样本情况下你会发现标准误减少了一倍

变成了0.0072

那样本统计量的取值就会增大你可以带公式算算

于是就从原来的1.39增加成了2.77

那么在原假设为真的情况下发生了什么了呢

我们发现样本观测值的概率就是

在原假设为真的情况下得到这样的样本观测值

或者是比它还要极端的概率

就变小了

原来我的P值是0.16现在

新版下我的

样本当大到4800的时候P值就变成0.006

那这事就大了原来我们的结论是

不拒绝原假设因为P值不够小

现在P值一下就降到显著性水平以下了

我们就有足够的证明去拒绝原假设了

那样本量的变化起到了颠覆性的这个检验结论的改变

为什么因为样本量越大

估计的标准误就会越小

我越可以确定说

你目前所观测到的这个关系

来自与总体的关系而不是样本的随机性

这是关于样本量对于P值的影响

基于R语言的社会统计分析课程列表：

第一章：绪论

-1.1 什么是统计学?

-1.2 数据

-1.3 随机化原则

-1.4 数据收集方法

-第一章：绪论--1.5 习题

第二章：描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章：描述统计--2.6 习题

第三章：基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章基于R语言的探索性数据分析

第四章：概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章：概率分布--4.5 习题

-第四章概率分布

第五章：统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章：统计推断 - 估计--5.5 习题

-第五章抽样分布

第六章：统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章：统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章统计推断 - 区间估计

第七章：统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章：统计推断 - 显著性检验--7.6 习题

-第七章统计推断 - 显著性检验

第八章：两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析（选学）

--Video

-第八章：两组比较和多组比较--8.6 习题

第九章：变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章：变量间的关联分析--9.4 习题

-第九章 R Code

第十章：简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章：简单线性回归--10.6 习题

-第十章简单线性回归模型 - 讲义

-第十章 R Code

第十一章：多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章：多元回归--11.5 习题

-第十一章 R Code

-第十一章多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video在线视频

Video

Video课程教案、知识点、字幕

基于R语言的社会统计分析课程列表：

第一章：绪论

第二章：描述统计

第三章：基于R语言的探索性数据分析

第四章：概率分布

第五章：统计推断 - 估计

第六章：统计推断 - 区间估计

第七章：统计推断 - 显著性检验

第八章：两组比较和多组比较

第九章：变量间的关联分析

第十章：简单线性回归

第十一章：多元回归

第十二章: Logistic回归和其他高级统计方法简介

Video笔记与讨论

也许你还感兴趣的课程:

Video在线视频

Video

Video课程教案、知识点、字幕

基于R语言的社会统计分析课程列表：

第一章：绪论

第二章：描述统计

第三章：基于R语言的探索性数据分析

第四章：概率分布

第五章：统计推断 - 估计

第六章：统计推断 - 区间估计

第七章： 统计推断 - 显著性检验

第八章：两组比较和多组比较

第九章：变量间的关联分析

第十章：简单线性回归

第十一章：多元回归

第十二章: Logistic回归和其他高级统计方法简介

Video笔记与讨论

也许你还感兴趣的课程:

第七章：统计推断 - 显著性检验