当前课程知识点:基于R语言的社会统计分析 >  第七章: 统计推断 - 显著性检验 >  7.3 均值的显著性检验 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

好我们首先来看看均值的显著性检验

对于数值型变量我们一般

最关注的就是它的中心在什么地方

所以显著性检验最常关注的

就是对总体均值μ的一个判断

下面呢我们就来看

做总体均值检验的五个部分分别是什么

首先

基本假定和之前很类似

数据的类型

肯定是数值型的我们才会关注它的均值

然后一定我们还希望它是一个随机化的过程

才能使你的样本具有代表性

我才好做推断

另外呢

如果说你的样本比较小

我希望总体是服从正态分布的

只有在总体服从正态分布的时候

我们才可以用T检验

那理论假设呢

原假设其实是一致的

我一定是认为总体的均值μ

等于某一个特定的取值μ0

一定是μ等于μ0没有之二

然后

Ha也就是备择假设

备择假设可能有三种情况

有一种

我只关注的是总体是不是

等于你猜的那个数

那如果不等于

我就认为是备择假设成立了这个时候

我关注的是μ不等于μ0

它对应的是一个双尾的

备择假设

那有的时候我可能只关注μ是不是大于

你猜的那个数那是μ大于μ0

另外还有μ小于μ0

我们

下面看看检验统计量

我们最终的目的

是用样本的均值

X(bar)去估计总体的均值μ

如果说我的总体是服从正态分布的

我们就可以认为

样本均值X(bar)

它的抽样分布也服从正态分布

那而且

根据中心极限定理

在总体不是正态分布的情况下

样本足够大

我也可以认为样本均值的抽样分布

服从正态分布

也就是说在原假设为真的情况下

我认为总体的均值μ等于μ0

那样本均值抽样分布的中心

也就是X(bar)的均值就是μ0

那借机我们可以回顾一下上周学习的内容

如果我们认为样本具有随机性

那么不同的样本

一定会产生不同的样本均值的估计

这些不同的估计呢就会有一个离散程度

这也就是样本均值的标准差

我们

对样本均值的标准差有一个特别的词管它叫做

标准误standard error

抽样分布的标准误是什么呢

我们推导过了

我们认为σX(bar)应该等于

总体的标准差σ

除以根号n

如果你忘记了可以回去自己再推推看

然后讨厌的事情是因为

σ是总体的特征

我们不知道

于是乎需要用样本的标准差s来代替

于是乎就

又生成了一个东西它叫做

估计标准误

estimate standard error

估计标准误呢用se来表示

它等于s除以根号n

把之前那个σ用s来替换了
它等于s除以根号n

把之前那个σ用s来替换了

很讨厌因为

用s替换了那个σ我们引入了

可能

一些不可避免的偏差

那原来本来

我们看

X(bar)减μ0除以σ除以根号n应该是

服从正态分布的

标准正态分布的

现在因为

引入了一些我不希望看到的误差

我们就说尾巴变胖了离散程度变大了

于是乎你就要把原来的标准正态分布

用T分布来代替

所以我们说

X(bar)减μ0除以s除以根号n

它应该是服从T分布的

那这就是我们在

显著性检验

检验总体均值的时候

需要用到的那个检验统计量

然后下面就是p值了

p值的话我们

实际上你可以画一个关于T分布

T分布的图

如果说总体服从正态分布或者说样本足够大

我们认为检验统计量

应该是服从一个T分布的

那假设

我抽到了一个数假设我

通过抽样

我得到了样本的统计量

得到它等于2.3

然后我现在就想知道

T值等于多少那实际上也就是

T大于2.3的概率是多少

就是我们右边阴影部分的

内容

这是关于P值

好假设我们的总体

服从正态分布又或者是我们的样本量足够大

那我们可以说

检验统计量test statistic

应该是服从T分布的

然后我们看看假设我的检验统计量

服从一个T分布

然后我抽了一个样

这个样本呢得出

你的这个样本的检验统计量

T值在这个地方我们就说它等于2

这个分布中心是什么

一定中心是0

然后我得到了一个检验统计量它等于2

T值在哪里呢

这首先

根据你的备择假设的不同

T值的求法是不一样的

我们先看假设我的

T值只关注我的

假设我的备择假设

关注的是μ大于μ0

那么我的备择假设的意思就是

当你的样本的取值

远远地大于总体参数的时候

我们才认为它是极端值

那于是乎

备择假设的方向必然是在

整个分布的右端

所以后面大于2的概率

也就是我们所要找的P值
所以后面大于2的概率

也就是我们所要找的P值

根据这个P值我这里随便说

假设说我得了一个P值

然后说这个值是0.06

0.06

然后因为我的显著性水平

在这个研究中定的是0.05

然后虽然

它和0.05只差了0.01

我也可以说

我不拒绝原假设

认为这个概率还不够小

这是

关于p值的一个结论

当然这样说可能比较笼统

我们现在拿一个例子来讲一讲

这个例子是关于

询问每一个受访对象

你在社会阶层中处于

什么位置

我们管它叫社会阶层小梯子的这么一个例子

来具体的看看怎么样

对总体的均值进行显著性检验

在很多的社会学研究中我们都会

关注被测群体的阶级认同感

我们这里看到的例子呢是

中国综合社会调查

之前老举的那个例子

2013年的一道访谈的题目

它是这样说的啊它说

在我们的社会里有些人处在社会的上层

有些人处在社会的下层

然后访谈员会拿出一个卡片

给被访对象看这是一个梯子

他说这个梯子呢要从上往下看

最高十分代表你处在社会的最顶层

最低代表一分代表

最底层

那您认为

您自己目前在哪个等级上

然后就计分

有的时候这个题还会问说你

您觉得自己十年前在哪个等级上

或者是十年后在哪个等级上

这是非常非常典型的

社会学调查常用的一道题

这我们这里面的这个直接是从问卷里截图截下来的

现在我的问题就是说

假设

我认为这个社会是平衡的

那理论上我认为所有人的阶级认同感

的平均值应该是

当然不要拿社会学理论去质疑我

就是我们这里面不谈及社会学理论

只是给大家举个例子

假设说我原假设认为

大家阶层认同感的均值

应该是5

下面我要怎么去证实或者去证伪它

好下面我们就来看看这个检验统计量的构建

这个样本我们之前提过很多次

样本量在11000多

然后我发现在去除了缺失值以后

有效的样本是11395

然后我做了一个特别粗略的计算

发现样本均值是4.31

样本标准差是1.68

有同学一看说样本均值4.31小于5

已经可以说它不一样了所以回到之前我们讲的

虽然说我样本足够大

将近12000的样本

但它离全国人民

那十三四亿人还差的远着呢

所以我不能说

4.31就能够证明说

总体均值不等于5了

它完全有可能是

总体均值在5的情况下

因为样本随机性而引起的一点小小的浮动

所以我还是要很认真的

很严谨的做检验

原假设H0μ等于5

备择假设Ha也就是μ

不等于5

然后下面我就要构建检验统计量了

检验统计量之前

已经介绍过了用T检验

T等于X(bar)减去μ0除以s除以根号n

再强调一下它怎么理解呢

X均值代表的是样本均值

μ0代表是你假设的假想的那个总体应该有的值

实际上T代表的这个意思就是说

样本均值

和我猜测的那个总体均值之间

到底相差了多远

我用什么来衡量呢

我用标准误为单位

来衡量

我想知道样本均值

和总体均值之间

到底相差了多少个标准误的距离

标准误的计算方法是s除以根号n

然后你发现前面这个X(bar)的取值

s还有根号n我们都已经有了

把数字代进去4.31

减5除以1.68

再除以根号下11395这种样本量

发现等于负的43.84

下面我就要给一个解释了

这个负的43.84说明什么呢

说明在

总体均值为5的情况下

总体均值在5的情况下

我得到的这个样本均值和总体猜测值

相差了-43.84个

标准误的距离

那这个距离到底远不远呢

你乍一看已经可以猜测到

应该是很远的了

我们之前T检验应该都是和-2.36

来比较

那我非要算一个p值

后面我们会讲用R怎么去算这个p值

实际上P值就等于p

T的取值小于-43.84

再加上

T的概率大于43.84的概率

之和发现它等于0

也就是说

在原假设为真的情况下

就是假设我总体均值真的是5

得到我眼前这样样本或者是

比这个样本还不靠谱的样本的概率

是0

说明什么呢

说明总体的均值不等于5

我们就成功的把原假设拒绝掉了

好下面我们快速的演示一下

刚才在那个例子中我们用到的

几条特别特别简短的R语言的命令

我已经准备好了一个R的

一个编辑器文件

就存在叫社会阶层小梯子这个这个文件里

我直接双击把它点开

然后你们看到这个第一行很直接就是

我用来计算T统计量的那个表达

这个就不花时间讲了

然后很多同学都讲知道P值是怎么算出来的

然后其实上节课我也已经给大家演示过了

我们看这个P 值啊

我们计算出P值等于负的37.84

所以用到的命令呢就是pt

如果你不清楚PT是什么的话很简单你打一个问号敲PT

然后你会发现有一个帮助文件就跳出来了

然后这里面关于所有就是

和T检验相关的所有关于它分布的语句

比如说它有

怎么样去生成一些服从T分布的随机数

它一共有4条语句

那我们这里面用到的就是

这里面的第二个叫做pt

q代表的就是

分界值啊就是t值

实际上如果说把负的43.84写进去我的意思就是我想知道

小于负43.84的概率

在这个T分布中小于负43.84的概率会是多少

后面你会看到它这有df代表的是这个T分布它的自由度是多少

然后

ncp代表的是non-centrality parameter这个是比较高阶的

T分布才会用到的参数而针对我们来说呢就不用管它了

用标准的用默认的就可以了

然后lower tail代表的是左尾概率

所以默认的情况下是左尾概率为真

也就是我关注的是t小于某一个取值的概率

那我们现在后面那就先不管log p=false就先不管

我们回来用到的是pt负43.84

11394是什么呀

对应的是我这个T分布对应的自由度

我们之前说这个分布的样本量是11395然后

t分布的自由度应该是n减1所以它的自由度是11394

然后我现在敲一下pt

然后因为是双尾概率所以我要乘以二

我现在跑一下发现它等于零

等于零的意思是就是概率小小小小到基本趋近于零其实约等于零的意思

然后下面我们看看

如果说你从P值这看的还不够带劲的话

我非想用图示的方法表达一下

我可以先看看

一个自由度为11394的t分布大概长成什么样子

画t分布的时候我可以用dt dt代表的是

t分布然后x我现在就是说什么都不写啊

然后用11394来代表它的自由度

xlim等于c(-3,3)说明我希望我x轴的

下限和上限分别是-3到3啊

一会你会看到这张图说明为什么

curve是我们用到的一个画分布图常用的

一个公式因为

你在用curve的情况下不太用具体的表达

x值每一个取值的取值分别是什么

所以你看我这个x向量直接

直接敲一个x就可以了然后你给出这个向量下限上限

它就会画出一条非常平滑的曲线

否则的话如果你用

这个命令的话你一定要给出x这个值

x这个向量的每一个具体取值

好现在我们用curve

你看这是画出了一条非常

平滑非常规整

典型的t分布

然后

我们之前算出来那个t值是负的43.84

你看看当我的这张图上当t等于-3的时候

其实已经看出这个

已经是很极端的尾巴了啊发生的可能性不大

那你非要看看这个-43.84

处在什么样的位置我可以把这张图的下限和上限扩大

我把它左尾左边

最小值设成-50最大值设成50

然后我在看一看

这个分布就长成这个样子了啊等于

你看现的中间这个t非常的集中

然后负的43点多这边

这里面左尾显然

比负43.84还要小的概率

如果你去画阴影面积的话就没有意义啊本来我想

画一个阴影后来发现这根本就没有意义已经

缩减成一条小小的直线了

所以从这个图你就可以看出来啊

在原假设为5的情况下

得到

样本量是4.31的这个概率是非常非常小的

刚才我是用实际上算是手算的方法算出的这个p值啊

下面其实用R呢有一条非常非常简单的命令你可以直接进行t检验

进行假设检验啊

然后当然第一步呢我要把数据

输入进来

用到的命令是

CSV

讲到这个数据的录入

其实有很多很多细节啊

根据你用到统计软件不同

我们有不同的录入不同数据格式的方法

现在呢我的数据存在excel文件

用的是CSV格式所以我用的read.csv这条命令

那假设说你很费解啊

我想看看read.csv代表的是什么意思

我仍然怎么办打问号read.csv

然后你会看到关于

读数据它说

这是关于读数据的好多好多种表达

读csv文件的

有读table有时候读TXT文件的有时候读

这个一逗号为区分的文件

你可以根据自己的需要去问R

到时候后面我会专门

用一个小的section来讲讲数据的读入因为

发现很多同学

用R用的很惯了以后这个

读数据读不进来

记得以前上课有同学花了一上午时间终于把

数据读出来了激动万分啊

那我们现在看read.csv下面你需要给出你这个数据文件的路径

我现在放空了啊之前这个打星星是之前我在PC里面的文件

和其他的

路径文件没什么区别啊你只要

乖乖的打出C盘然后

什么users我的名字什么 然后一点点来啊

然后

有的同学说mac反而很复杂其实一点都不复杂我这个数据就放在桌面上了

弄不清楚这个路径在哪这个很简单你

看它的属性get info

在属性里面有一个关于它位置where

你可以看它是macintosh HD User luohao然后desktop

我直接把它复制到这个双引号里面

你看它就长成这个样子了啊变成Users luohao

然后当然还没有数据文件本身的名字所以我在打一个斜杠

然后这个数据文件叫ladder.

csv

然后我现在

这个叉掉啊

然后我现在把它

用apple L

快捷键

可以看到数据实际上已经读出来了

然后这是只有一个变量的数

你看

一共有11395个数

第二列代表的是它每在社会阶层认同感这道题上呢

每一个人的

得分

然后下面

做检验只需要用一个特别简单的命令叫做t.text

就好像跟R对话一样

然后t.text的时候首先

你要给出你做检验的那个向量我们这个

例子里面就是数据 里面就是叫做class的那个向量

你可以看到上面

我这个变量名叫class

然后有同学说我你这个拉来拉去的还不够烦的吗

看一个数据里面有哪些

变量变量名分别是什么的

命名很简单啊用name

可以看到我这里面只有一个变量它的名字叫做class

然后一定要ladder然后用一个美元的符号dollar sign

否则如果说你没有ladder这个命令直接打class

它觉得你指入不清楚它不知道你要读哪一个数据里的哪一个变量

所以一定是ladder $ class

然后你要告诉说我的原假设是什么

这里面我的原假设是5

就是说我的总体均值等于5然后我再用apple L

快捷键你可以看到出来的结果啊

可能你已经会发现比起SPSS或者是stata结果这个

这个结果又显得朴实了一点

然后T值等于43.594就是因为

它用到的这个数据的计算那个小数点比我们用到得多啊

然后自由度是11394

P值小于2.2乘以10的

-16次方说明已经

非常非常小实际上已经就是约等于0的意思

然后它告诉你 备择假设是

真值不等于5 true mean is not equal to 5

然后它同时给了你

95%的置信区间

然后告诉你说这个样本

均值是4.314085

然后P值小于这个数

就已经告诉你说要拒绝原假设了

这是双尾检验啊然后有的同学说

那我用stata的时候

双尾检验单尾检验的值都

一下就给我出出来了那如果我用R

想做一个单尾检验怎么办

用R做一个单尾检验的话实际上

如果你不确定这个t.text每一个参数应该怎么样去

赋值

还是问号t.text

看看啊

我们看这个帮助文件又写的很规整

t.text第一个参数是x

x是代表的是你关注的那个向量啊

然后你看y是什么

这里面y=norm

然后argument它是说

这是一个

选择性可填可不填的

当我们只对一个

变量做

一个样本做

显著性检验的时候这个第二个变量就直接空着就可以了

然后这里面alternative给了你一些选项

是双尾检验

单尾检验左尾检验还是右尾检验

左尾检验是less右尾检验是greater

所以

我们这里面

很简单的一个操作t.text ladder class不变

加一个参数叫alternative

=less

less是文字的表达所以一定给它加上双引号啊

然后同时你还是要告诉它你的原假设是μ等于5

下面我们看看会发生什么啊

其他的都没有变化啊

t仍然等于-43.594自由度不变

P值其实也没有变化因为它

也仍然是很小啊

然后你会看到alternative hypothesis

这个备择假设就变成了

真实值是小于5的

刚才的例子是一个双尾检验

我们关注的是点估计是不是显著的

不同于原假设

就只要它是不等的

我们就可以推翻原假设了

那在实际的研究中呢我们

经常会有一定的倾向性

认为点估计在某一个特定的方向上

显著的不同原假设

比如说我们举一个例子

就假设我们是想

进行减肥的一个干预

我就想想比如说一个特别的

这个运动计划看看能不能让人体重减轻

那原假设是什么

原假设就是这个新的干预没有作用

所以原假设是体重保持不变μ等于μ0

那备择假设呢

这个时候我不能说它不等于

原来的体重我就结束了

我一定要关注的是体重是减轻的

所以在这种情况下你用到的是单尾检验

这个时候我们更注重的

是样本观测值是否显著的小于原假设

这个活力就要放在分布的尾部了

而不是被两边平分了

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。