当前课程知识点:基于R语言的社会统计分析 >  第九章:变量间的关联分析 >  9.2 列联分析 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

那这个时候回到

用有限的样本推测大大的总体的问题

我们需要建立检验统计量了

那统计上的独立呢

指的是总体的独立

它要求的是

一个变量在另一个变量的每个分类中

总体的条件分布相同

即各分类的百分比相同

如果我们很幸运

眼前的就是总体数据

那么只要我看到的这个比例不同

我们就可以大踏步的很安全的说

两个变量是有关系的

那正是因为我们看到的是样本

是有限的样本只存在变异性的样本

在看到了

性别和党派属性这个例子的时候

我们看到我们的样本量是

2771

虽然已经很大了但它能够提供给我们的

只是证明

两变量是否相关的一套证据

一个证据而不是最终的结论

那想真正的证明

两变量是独立还是相依

我们需要看看它们的检验统计量

要进行显著性检验

那和前面提到的检验一样

但凡是一个显著性检验它就有

五个共同的部分

首先第一个我们要有

基本的假定要有Assumption

然后要有一个理论假设

我们要建立检验统计量

看看P值是多少

最后要下出

下一个这个

回到现实中来

对我现实问题做出一个结论

那在检验列联表里面

两个变量是不是存在相关关系的时候

假定是什么呢

随机化你们可以认为是我们永远的

黄金的这个假定

我希望在

选择样本的过程中

永远的是一个随机化的过程

才能确定说我的样本对总体是具有足够的

代表性的

另外

我希望这个样本越大越好

样本越大说明对总体的代表性就越强

那假设呢

很多同学在做列联表分析的时候

又摸不清楚这个原假设和备择假设分别是什么了

我们经常说

说原假设研究的是一个

原始的状态我假设什么事都没发生

或者说我可以假设

两个变量之间是没有任何关系的

a对b没有效应

所以回到列联表中来

原假设一定是两变量相互独立

没有关系

那我的备择假设呢

通常我关注的是

最好有关系才有故事

所以我的备择假设一般都是说

它们是相依的

那下面我们看看检验统计量

中心的意思

每次看检验统计量的时候我都想看

样本的统计量和我的理论假设之间

是否存在差别

那现在要想把列联表里的信息进行一个量化

我们就需要有一个对总体的假设

我刚才说

说两变量相互独立

你很难抽象出一个数字的概念

我们之前讲其他的

对均值对比例的显著性检验的时候

我们经常有μ等于μ0

还有π等于π0

这些很具体的对参数取值的假定

那回到列联表的分析中来

我的原假设的那个参数值是什么呢

那下面我们就要看看具体的例子

这里面又要用到一个新的概念了

这个概念呢叫做期望频数

之前我们看到每一个

表里面的每一个单元格里面

出现的那个频数呢叫做观察频数

是我们抽了一个样本实际看到的数字

那其实

如果我认为两个变量相互独立

我会有一个预期

我会期望小格子里会出现一个频数

那我们现在就来看看期望频数是怎么计算的

好首先我们要给观察频数和预测频数

或者期望频数下一个定义

好假设f0表示

列联表中每个单元的观察频数

那fe

这个e代表expected expectation

fe表示的是一个期望频数

它是在变量相互独立时

我们期望看到的

每个列表单元中的频数

它等于行和乘以列和除以

样本总数

然后有同学经常很纠结

说他不明白为什么

说期望频数等于行和

乘以列和除以样本总和

那下面呢我们就给大家推导一下这个过程

很简单

如果你们还记得在

前面中间的部分我们其实有

学过就是如果说

两个事件a和b是相互独立的

于是乎我们就有

Pa∩b等于Pa乘Pb

这是我们之前讲过的一个概念

而且是当且仅当

是两变量相互独立的充要条件

然后下面我们来看

那回到这个实际的例子中

我们认为

政党属性是一个事件

然后性别也是一个事件

所以Pa∩b呢

假设说我以573为例中间这个数

这其实是说

是女性并且是民主党的概率

所以事件A呢

这个人是女性我现在写一下

原来的a和b变了

Pa代表是女性

然后b呢它是民主党

如果说

两事件相互独立

性别和政治倾向是完全独立的

我们认为

是女性并且是民主党的概率

就应该等于这个人她是女性的概率

乘以她是民主党的概率

然后我们看看

是女性并且是民主党的概率是多少呢

首先我们说这是在

原假设为真

也就是两变量相互独立的条件下

这里面实际上

就应该等于这个格格里面

我们在独立的条件下期望出现的频数

除以总数除以2771

所以这里面实际上对应的是fe

expected期望值

除以的是2771

它就应该等于下面

这个人是女性的概率是多少

实际上就要看边际分布了对吧

好我不管你是民主党独立人士还是共和党

我们看边际

分布这一部分右边

统共有2771个人其中

女性占了1511个人

所以

整个的样本中

是女性的概率就是1511除以2771

所以这个地方呢

1511

2771

那以此类推是民主党的概率是多少呢

看下面的这个条件分布

我不管他是男是女

总的来说有2771个人

一共有959个民主党

991个独立人士所以

实际上就是959除以2771

好显然等式左边这么多个2771

我消一消就好了

这边就剩下了期望频数对吧

期望频数就等于1511乘以959除以2771

1511是谁啊

是这个格所对应的行和

和它

列和959是它对应的列和

所以我们就证明了啊就说

期望频数就应该等于这个单元

对应的行和乘以列和再除以

整个的样本总量

刚刚我们通过女性和民主党的这个例子

告诉了大家期望频数是怎么算出来的

看到后面这张列联表你可以想象就是

列联表里的每一个单元格我们都可以算出

这个单元格所对应的期望频数

那如果说

每一个期望频数和我们实际看到的观测频数作比较

那就是构建检验统计量的这么一个过程了

那我们想一想啊

如果说让你去构建检验统计量的话

我们要观察期望频数和观测频数之间的区别

你的第一个反应可能就是把它们相减然后把所有的每个

格的这些差距加和起来

实际上离我们所说的卡方检验已经很近了啊

我们来看看卡方检验这个真正的

严谨的检验统计量是怎么构建的

你现在看到的就是

卡方检验的表达啊

我们f0

代表的是或者是fo代表的是observe

观察频数观测频数

那fe呢说的就是expected期望频数

首先我们用f0减去fe是我们可以想到的

但是和很多问题一样啊我们

和我们讲离散程度的时候我们看距离的时候

最怕的就是正负抵消

所以看距离一般的话

要加一平方

才能表示他真正的区别离散程度啊

然后下面呢

我除以fe其实相当于一个标准化的过程

我希望了解的是相对区别

所以f0-fe加一个平方除以fe这是对于每一个格

我都可以计算出一个相对的差异

如果说我的列联表里有六个格那么我就会有六个这样的差异

只要把所有的差异加和加一个大σ把它们加在一起

那通过对这个检验统计量的观察你可能已经发现了啊

如果说期望频数和

观察频数相距甚远

那我们得到的f0和fe呢会是一个很大的数

你再加一个平方显得更大了啊

那把它们每一个格的差距加和起来卡方应该是一个特别大的数

也就是说

如果

你实际上观测到的这个列联表是一个特别相关的两个变量

我们假设是完全独立的情况

那假设你的两个变量相关性特别强啊

你可能观测到的f0和

fe之间的差距就非常大

所以

你可以预见到卡方值越大

说明实际

和理想之间的距离越远

那我们越有证据证明原假设为假

于是乎两变量之间的关系可能就得正了

显然我们又说说我做检验统计量的时候得出了一个是对距离的总结

那我下面还是想知道

我要做一个概率总结

我想知道

在原假设为真的情况下

得到我样本观测值的概率

到底有多大

那我们就要用到

卡方分布的知识了啊我们现在建立的是一个

近似于卡方分布的检验统计量

那卡方分布长成什么样呢你现在看到的这张图

就是不同自由度不同参数取值情况下的卡方分布的情况啊

其中这条黑线

代表的适当自由度等于1的时候

卡方分布的形态

那蓝线呢是自由度等于2

然后你会发现随着自由度的增加

实际上偏离的程度是在逐渐变小的

另外如果你观察这张图的话你会发现都是从0开始的这个分布

所有的取值都应该是一个正数都大于0的

那你看我们的检验统计量

也可以猜到fo-fe的平方必然是一个正数

然后再除以fe fe既然是一个期望频数它也是一个正的所以

卡方值一定是一个正数

所以它有一个特别重要的特性就是它都集中在实数轴的

正方向

那对于大样本

卡方检验的统计量呢就近似的服从卡方的概率分布

它是一个

右偏分布

没有像t分布和正态分布那么对称啊你可以看到它的

波峰很偏

它是一个右偏分布

然后呢

决定它形状的

参数叫做自由度啊

又是degree freedom

t分布也是t分布说决定

t分布形状也是自由度这个自由度等于n-1

那么卡方分布呢它的均值就等于它的自由度你看这个图

当自由度等1的时候实际上这个分布的均值也在1

然后如果

自由度等于2这个分布的中心这个均值也在2

然后标准差

标准差等于自由度开根号

那自由度这个数到底是怎么算出来的啊t分布的时候μ是n-1

那卡方分布呢

我们这里写的是r-1乘以c-1

r代表的是行数

c代表的是列数

那回到之前性别

和党派属性关系的这个里面

r我们有两行对吧2-1就=1

然后有三列3-1=2

那这个

列联表它的自由度就是2

那行数和列数越大

degree freedom也就会越大

卡方的值也会越大

你可以这样理解啊

行数和列数越多

说明你列联表里的小格格单元格就会越多

那单元格越多说明

这个造成差距的可能性也会越多

那实际上均值就会显得更大一点了

有一个基本假设啊在做卡方检验的时候

我们希望样本量是足够大的

大到多大呢

要求的是期望频数也就是每个

观测单元的期望频数应该是超过5的

然后我们想像一下啊

就是如果说你是

抽到了一个样本然后抽到的这个样本的检验统计量比较大

我就可以认为在原假设为真的情况下

得到你目前观测到的这个卡方值的

概率是比较小的

于是乎我就可以推翻原假设

原假设是独立的那个假设啊

于是乎我就成功的证明出x和y是有关系的了

卡方检验呢是我们所有的检验统计量之中当之无愧的

年纪最大的检验统计量

它是英国的统计学家叫Karl Pearson

在1900年的时候提出的啊

后来对很多学科的发展都

做出了重大的贡献

然后卡方值要

多大

我们才可能认为

不是随机的效应不是因为样本的变异性

而是因为总体中两变量确实是有关系的呢

那显然我们又需要一个概率的总结了

我们就需要计算出P值

我们

刚才说在计算P值的过程中就需要知道卡方分布的自由度是多少啊

这个一般的软件都可以很快地给它算出对应的

卡方值是多少

那下面有同学又很纠结了说你老说自由度

这个自由度degree freedom到底是什么呢

下面我们试图做一个简单的定义啊

自由度呢在统计学中指的是

计算某一个统计量的时候

取值不受限制的变量的个数

我们通常用df=n-k来表达

那k代表的就是

取值会受到限制的条件或者是变量的个数

n呢就是我们经常所说的样本量

那我们看刚才

性别和政党属性的那个例子啊

我们

本来这个列联表里头说是2*3的列联表一共有六个格

然后我们知道

女性的数量男性的数量民主党独立人士

还有共和党它们的

边际分布分别是什么

你看这个例子里假设说我给出了

是女性并且是民主党的

观察频数573

同时我又给出了独立人数的观察频数是516

然后你会发现

只要有了

边际分布

我共和党的数量就可以

1511-573-516

就算出来了对吧

这个值是已经被提前决定好的

那以此类推我每一个列都有一个列和

那么每一个列和前面女性的数都算出来

以后列和减去女性的频数就得出了男性的频数

于是乎只要你在列联表里面

有两个值确定了另外的四个值实际上已经被决定了

所以就这样一个2*3的列联表你能特别

自由的取值的数量只有2

也就是我们刚才讲的那个例子它所对应的

自由度是2

然后下面呢我们就来具体的讲一讲在

刚才那个例子中如果我要

计算卡方值并且求出一个

P值并得出最后的研究结论

是一个怎么样的过程

好我们具体来看

政党身份和性别的卡方检验

在这个例子中呢我们的原假设就是政党身份和性别是统计上独立的

然后备择假设是我们真正想证明的

那个结论啊我们希望证明

政党身份和性别是在统计上相依的是有关联的

那下面我们需要建立

检验统计量也就是我们希望计算出卡方值

我的chi-square他就等于之前用到的那个公式啊

也就是观测频数减去

去预测频数的平方再除以预测频数再把

一个格的这个区别加和

那之前已经给大家

计算过了对于列联表

中的每一个单元

我们都有与之对应的预测频数

所以只要把数代进去就好比如说第一个格我们是573

这是我观测到的减去

在独立的情况下应该出现那个频数522.9

然后它们的平方再除以522.9然后每一个格都做这样的计算我一共

有六个格

那把这六个区别的平方除以

预测频数把它加和

然后我们会获得一个卡方值

等于16.2

而且这个卡方呢应该是

服从一个自由度为2的

卡方分布

近似地服从啊不一定是

百分百的服从所以经常会说

approximately近似地服从一个自由度为2的

卡方分布

然后对于自由度为2的卡方分布呢我们可以对它求P值

这里面P值实际上就是

想知道

卡方大于16.2的概率

通过R软件啊我们用到的

语句用到的函数是

pchisq然后首先我会敲

那个分界值16.2我要大于16.2

第二个参数我要告诉R软件这个卡方

它的自由度是多少是2

然后lower tail等于

false的意思是我希望卡方大于

某一个数的取值如果是

lower tail=true是它的默认值lower tail=true就是

关注的是左尾概率了

那它

P值就等于0.0003多少多少啊

这个值显然是小于0.001的

也就是说

在原假设为真的情况下

我真的

抽到一个样本显示出了这样一个

观察频数的

这样的一个列联表的概率是非常小的

所以我说提供了极强的证据反对原假设也就是说在总体里

政党身份和性别很有可能是有关联的

好下面我们用R软件演示一下怎么样用

R语言来进行卡方检验

好我们打开一个R的

屏幕然后

怎么样直接收呢个列联表呢

有一个很直接的方法我可以直接说第一行起名字row1

按等于把那三个数输进去

刚才我们看的政党身份和性别的那个例子里面
按等于把那三个数输进去

刚才我们看的政党身份和性别的那个例子里面

73516

422

这第一行

一个回车已经赋值了

第二个对row2赋值

代表的是第二行的向量啊

386然后

475

399

我读进去了

其实你的列联表就是把这两行数合在一起对吧

那你可以给你的表格起一个特别简单的名字叫它table

table=用到函数是R

bind相当于rowbind把两行

bind绑定在一起

然后绑谁呢row1row2

再一回车现在我直接敲table

显示一下我这个列连表就出来了啊

构成一个两行三列的列联表

然后下面我可以直接对这个列联表里的数字

进行卡方检验用到的函数特别简单chi-square

chisq然后

然后下面你直接把下面那个表

table这个名字敲进去就行了

然后回车然后你看直接就出现了一个卡方检验的结果

和我们之前例子里面

一模一样卡方值等于16.2

自由度是2然后P值呢

0.0003

都是完全一致的

这就是怎么用

怎么样用R

输入一个列联表的

结果然后直接进行卡方检验

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。