当前课程知识点:基于R语言的社会统计分析 > 第九章:变量间的关联分析 > 9.2 列联分析 > Video
那这个时候回到
用有限的样本推测大大的总体的问题
我们需要建立检验统计量了
那统计上的独立呢
指的是总体的独立
它要求的是
一个变量在另一个变量的每个分类中
总体的条件分布相同
即各分类的百分比相同
如果我们很幸运
眼前的就是总体数据
那么只要我看到的这个比例不同
我们就可以大踏步的很安全的说
两个变量是有关系的
那正是因为我们看到的是样本
是有限的样本只存在变异性的样本
在看到了
性别和党派属性这个例子的时候
我们看到我们的样本量是
2771
虽然已经很大了但它能够提供给我们的
只是证明
两变量是否相关的一套证据
一个证据而不是最终的结论
那想真正的证明
两变量是独立还是相依
我们需要看看它们的检验统计量
要进行显著性检验
那和前面提到的检验一样
但凡是一个显著性检验它就有
五个共同的部分
首先第一个我们要有
基本的假定要有Assumption
然后要有一个理论假设
我们要建立检验统计量
看看P值是多少
最后要下出
下一个这个
回到现实中来
对我现实问题做出一个结论
那在检验列联表里面
两个变量是不是存在相关关系的时候
假定是什么呢
随机化你们可以认为是我们永远的
黄金的这个假定
我希望在
选择样本的过程中
永远的是一个随机化的过程
才能确定说我的样本对总体是具有足够的
代表性的
另外
我希望这个样本越大越好
样本越大说明对总体的代表性就越强
那假设呢
很多同学在做列联表分析的时候
又摸不清楚这个原假设和备择假设分别是什么了
我们经常说
说原假设研究的是一个
原始的状态我假设什么事都没发生
或者说我可以假设
两个变量之间是没有任何关系的
a对b没有效应
所以回到列联表中来
原假设一定是两变量相互独立
没有关系
那我的备择假设呢
通常我关注的是
最好有关系才有故事
所以我的备择假设一般都是说
它们是相依的
那下面我们看看检验统计量
中心的意思
每次看检验统计量的时候我都想看
样本的统计量和我的理论假设之间
是否存在差别
那现在要想把列联表里的信息进行一个量化
我们就需要有一个对总体的假设
我刚才说
说两变量相互独立
你很难抽象出一个数字的概念
我们之前讲其他的
对均值对比例的显著性检验的时候
我们经常有μ等于μ0
还有π等于π0
这些很具体的对参数取值的假定
那回到列联表的分析中来
我的原假设的那个参数值是什么呢
那下面我们就要看看具体的例子
这里面又要用到一个新的概念了
这个概念呢叫做期望频数
之前我们看到每一个
表里面的每一个单元格里面
出现的那个频数呢叫做观察频数
是我们抽了一个样本实际看到的数字
那其实
如果我认为两个变量相互独立
我会有一个预期
我会期望小格子里会出现一个频数
那我们现在就来看看期望频数是怎么计算的
好首先我们要给观察频数和预测频数
或者期望频数下一个定义
好假设f0表示
列联表中每个单元的观察频数
那fe
这个e代表expected expectation
fe表示的是一个期望频数
它是在变量相互独立时
我们期望看到的
每个列表单元中的频数
它等于行和乘以列和除以
样本总数
然后有同学经常很纠结
说他不明白为什么
说期望频数等于行和
乘以列和除以样本总和
那下面呢我们就给大家推导一下这个过程
很简单
如果你们还记得在
前面中间的部分我们其实有
学过就是如果说
两个事件a和b是相互独立的
于是乎我们就有
Pa∩b等于Pa乘Pb
这是我们之前讲过的一个概念
而且是当且仅当
是两变量相互独立的充要条件
然后下面我们来看
那回到这个实际的例子中
我们认为
政党属性是一个事件
然后性别也是一个事件
所以Pa∩b呢
假设说我以573为例中间这个数
这其实是说
是女性并且是民主党的概率
所以事件A呢
这个人是女性我现在写一下
原来的a和b变了
Pa代表是女性
然后b呢它是民主党
如果说
两事件相互独立
性别和政治倾向是完全独立的
我们认为
是女性并且是民主党的概率
就应该等于这个人她是女性的概率
乘以她是民主党的概率
然后我们看看
是女性并且是民主党的概率是多少呢
首先我们说这是在
原假设为真
也就是两变量相互独立的条件下
这里面实际上
就应该等于这个格格里面
我们在独立的条件下期望出现的频数
除以总数除以2771
所以这里面实际上对应的是fe
expected期望值
除以的是2771
它就应该等于下面
这个人是女性的概率是多少
实际上就要看边际分布了对吧
好我不管你是民主党独立人士还是共和党
我们看边际
分布这一部分右边
统共有2771个人其中
女性占了1511个人
所以
整个的样本中
是女性的概率就是1511除以2771
所以这个地方呢
1511
2771
那以此类推是民主党的概率是多少呢
看下面的这个条件分布
我不管他是男是女
总的来说有2771个人
一共有959个民主党
991个独立人士所以
实际上就是959除以2771
好显然等式左边这么多个2771
我消一消就好了
这边就剩下了期望频数对吧
期望频数就等于1511乘以959除以2771
1511是谁啊
是这个格所对应的行和
和它
列和959是它对应的列和
所以我们就证明了啊就说
期望频数就应该等于这个单元
对应的行和乘以列和再除以
整个的样本总量
刚刚我们通过女性和民主党的这个例子
告诉了大家期望频数是怎么算出来的
那
看到后面这张列联表你可以想象就是
列联表里的每一个单元格我们都可以算出
这个单元格所对应的期望频数
那如果说
每一个期望频数和我们实际看到的观测频数作比较
那就是构建检验统计量的这么一个过程了
那我们想一想啊
如果说让你去构建检验统计量的话
我们要观察期望频数和观测频数之间的区别
你的第一个反应可能就是把它们相减然后把所有的每个
格的这些差距加和起来
那
实际上离我们所说的卡方检验已经很近了啊
我们来看看卡方检验这个真正的
严谨的检验统计量是怎么构建的
你现在看到的就是
卡方检验的表达啊
我们f0
代表的是或者是fo代表的是observe
观察频数观测频数
那fe呢说的就是expected期望频数
首先我们用f0减去fe是我们可以想到的
但是和很多问题一样啊我们
和我们讲离散程度的时候我们看距离的时候
最怕的就是正负抵消
所以看距离一般的话
要加一平方
才能表示他真正的区别离散程度啊
然后下面呢
我除以fe其实相当于一个标准化的过程
我希望了解的是相对区别
所以f0-fe加一个平方除以fe这是对于每一个格
我都可以计算出一个相对的差异
那
如果说我的列联表里有六个格那么我就会有六个这样的差异
只要把所有的差异加和加一个大σ把它们加在一起
那通过对这个检验统计量的观察你可能已经发现了啊
如果说期望频数和
观察频数相距甚远
那我们得到的f0和fe呢会是一个很大的数
你再加一个平方显得更大了啊
那把它们每一个格的差距加和起来卡方应该是一个特别大的数
也就是说
如果
你实际上观测到的这个列联表是一个特别相关的两个变量
我们假设是完全独立的情况
那假设你的两个变量相关性特别强啊
你可能观测到的f0和
fe之间的差距就非常大
所以
你可以预见到卡方值越大
说明实际
和理想之间的距离越远
那我们越有证据证明原假设为假
于是乎两变量之间的关系可能就得正了
那
显然我们又说说我做检验统计量的时候得出了一个是对距离的总结
那我下面还是想知道
我要做一个概率总结
我想知道
在原假设为真的情况下
得到我样本观测值的概率
到底有多大
那我们就要用到
卡方分布的知识了啊我们现在建立的是一个
近似于卡方分布的检验统计量
那卡方分布长成什么样呢你现在看到的这张图
就是不同自由度不同参数取值情况下的卡方分布的情况啊
其中这条黑线
代表的适当自由度等于1的时候
卡方分布的形态
那蓝线呢是自由度等于2
然后你会发现随着自由度的增加
实际上偏离的程度是在逐渐变小的
另外如果你观察这张图的话你会发现都是从0开始的这个分布
所有的取值都应该是一个正数都大于0的
那你看我们的检验统计量
也可以猜到fo-fe的平方必然是一个正数
然后再除以fe fe既然是一个期望频数它也是一个正的所以
卡方值一定是一个正数
所以它有一个特别重要的特性就是它都集中在实数轴的
正方向
那对于大样本
卡方检验的统计量呢就近似的服从卡方的概率分布
它是一个
右偏分布
没有像t分布和正态分布那么对称啊你可以看到它的
波峰很偏
它是一个右偏分布
然后呢
决定它形状的
参数叫做自由度啊
又是degree freedom
t分布也是t分布说决定
t分布形状也是自由度这个自由度等于n-1
那么卡方分布呢它的均值就等于它的自由度你看这个图
当自由度等1的时候实际上这个分布的均值也在1
然后如果
自由度等于2这个分布的中心这个均值也在2
然后标准差
标准差等于自由度开根号
那自由度这个数到底是怎么算出来的啊t分布的时候μ是n-1
那卡方分布呢
我们这里写的是r-1乘以c-1
r代表的是行数
c代表的是列数
那回到之前性别
和党派属性关系的这个里面
r我们有两行对吧2-1就=1
然后有三列3-1=2
那这个
列联表它的自由度就是2
那行数和列数越大
degree freedom也就会越大
卡方的值也会越大
你可以这样理解啊
行数和列数越多
说明你列联表里的小格格单元格就会越多
那单元格越多说明
这个造成差距的可能性也会越多
那实际上均值就会显得更大一点了
有一个基本假设啊在做卡方检验的时候
我们希望样本量是足够大的
大到多大呢
要求的是期望频数也就是每个
观测单元的期望频数应该是超过5的
然后我们想像一下啊
就是如果说你是
抽到了一个样本然后抽到的这个样本的检验统计量比较大
我就可以认为在原假设为真的情况下
得到你目前观测到的这个卡方值的
概率是比较小的
于是乎我就可以推翻原假设
原假设是独立的那个假设啊
于是乎我就成功的证明出x和y是有关系的了
卡方检验呢是我们所有的检验统计量之中当之无愧的
年纪最大的检验统计量
它是英国的统计学家叫Karl Pearson
在1900年的时候提出的啊
后来对很多学科的发展都
做出了重大的贡献
然后卡方值要
多大
我们才可能认为
不是随机的效应不是因为样本的变异性
而是因为总体中两变量确实是有关系的呢
那显然我们又需要一个概率的总结了
我们就需要计算出P值
我们
刚才说在计算P值的过程中就需要知道卡方分布的自由度是多少啊
这个一般的软件都可以很快地给它算出对应的
卡方值是多少
那下面有同学又很纠结了说你老说自由度
这个自由度degree freedom到底是什么呢
下面我们试图做一个简单的定义啊
自由度呢在统计学中指的是
计算某一个统计量的时候
取值不受限制的变量的个数
我们通常用df=n-k来表达
那k代表的就是
取值会受到限制的条件或者是变量的个数
n呢就是我们经常所说的样本量
那我们看刚才
性别和政党属性的那个例子啊
我们
本来这个列联表里头说是2*3的列联表一共有六个格
然后我们知道
女性的数量男性的数量民主党独立人士
还有共和党它们的
边际分布分别是什么
你看这个例子里假设说我给出了
是女性并且是民主党的
观察频数573
同时我又给出了独立人数的观察频数是516
然后你会发现
只要有了
边际分布
我共和党的数量就可以
1511-573-516
就算出来了对吧
这个值是已经被提前决定好的
那以此类推我每一个列都有一个列和
那么每一个列和前面女性的数都算出来
以后列和减去女性的频数就得出了男性的频数
于是乎只要你在列联表里面
有两个值确定了另外的四个值实际上已经被决定了
所以就这样一个2*3的列联表你能特别
自由的取值的数量只有2
也就是我们刚才讲的那个例子它所对应的
自由度是2
然后下面呢我们就来具体的讲一讲在
刚才那个例子中如果我要
计算卡方值并且求出一个
P值并得出最后的研究结论
是一个怎么样的过程
好我们具体来看
政党身份和性别的卡方检验
在这个例子中呢我们的原假设就是政党身份和性别是统计上独立的
然后备择假设是我们真正想证明的
那个结论啊我们希望证明
政党身份和性别是在统计上相依的是有关联的
那下面我们需要建立
检验统计量也就是我们希望计算出卡方值
我的chi-square他就等于之前用到的那个公式啊
也就是观测频数减去
去预测频数的平方再除以预测频数再把
一个格的这个区别加和
那之前已经给大家
计算过了对于列联表
中的每一个单元
我们都有与之对应的预测频数
所以只要把数代进去就好比如说第一个格我们是573
这是我观测到的减去
在独立的情况下应该出现那个频数522.9
然后它们的平方再除以522.9然后每一个格都做这样的计算我一共
有六个格
那把这六个区别的平方除以
预测频数把它加和
然后我们会获得一个卡方值
等于16.2
而且这个卡方呢应该是
服从一个自由度为2的
卡方分布
近似地服从啊不一定是
百分百的服从所以经常会说
approximately近似地服从一个自由度为2的
卡方分布
然后对于自由度为2的卡方分布呢我们可以对它求P值
这里面P值实际上就是
想知道
卡方大于16.2的概率
通过R软件啊我们用到的
语句用到的函数是
pchisq然后首先我会敲
那个分界值16.2我要大于16.2
第二个参数我要告诉R软件这个卡方
它的自由度是多少是2
然后lower tail等于
false的意思是我希望卡方大于
某一个数的取值如果是
lower tail=true是它的默认值lower tail=true就是
关注的是左尾概率了
那它
P值就等于0.0003多少多少啊
这个值显然是小于0.001的
也就是说
在原假设为真的情况下
我真的
抽到一个样本显示出了这样一个
观察频数的
这样的一个列联表的概率是非常小的
所以我说提供了极强的证据反对原假设也就是说在总体里
政党身份和性别很有可能是有关联的
好下面我们用R软件演示一下怎么样用
R语言来进行卡方检验
好我们打开一个R的
屏幕然后
怎么样直接收呢个列联表呢
有一个很直接的方法我可以直接说第一行起名字row1
按等于把那三个数输进去
刚才我们看的政党身份和性别的那个例子里面
按等于把那三个数输进去
刚才我们看的政党身份和性别的那个例子里面
73516
422
这第一行
一个回车已经赋值了
第二个对row2赋值
代表的是第二行的向量啊
386然后
475
399
我读进去了
其实你的列联表就是把这两行数合在一起对吧
那你可以给你的表格起一个特别简单的名字叫它table
table=用到函数是R
bind相当于rowbind把两行
bind绑定在一起
然后绑谁呢row1row2
再一回车现在我直接敲table
显示一下我这个列连表就出来了啊
构成一个两行三列的列联表
然后下面我可以直接对这个列联表里的数字
进行卡方检验用到的函数特别简单chi-square
chisq然后
然后下面你直接把下面那个表
table这个名字敲进去就行了
然后回车然后你看直接就出现了一个卡方检验的结果
和我们之前例子里面
一模一样卡方值等于16.2
自由度是2然后P值呢
0.0003
都是完全一致的
这就是怎么用
怎么样用R
输入一个列联表的
结果然后直接进行卡方检验
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video