当前课程知识点:基于R语言的社会统计分析 > 第九章:变量间的关联分析 > 9.1 变量间的关联分析 > Video
寻找变量间的关联关系呢
是很多科学研究都要解决的问题
其实我们在第三周讲
探索性数据分析的时候就已经提到了
我们说我们对数据进行初步探索的时候
并不是漫无目的的在乱试的
我们是有一些特别的原则的
其中有一条呢我们是希望
找到变量间的关联关系
那
现在我们看看就在统计学上
如果得下一个定义就是
当响应变量的分布
在某种程度上
随着解释变量取值的变化而变化的时候
我们就可以认为说
两个变量之间存在着关联关系
那翻译成比较这个简单的语言
其实就是
你变我也变
你的取值有所变化我的取值也会跟着不同
你变我也变
你的取值有所变化我的取值也会跟着不同
就说明两个变量是有关联关系的
那在上一讲中呢
上一讲我们讲了
叫两组的均值还有两组的比例
其实在这个过程中我们已经开始了
探索两变量之间关系的这种尝试
我们关注的呢就是
我们感兴趣的那个结果变量
或者是响应变量的取值是不是随着
组别的不同而不同
如果我们发现
因为分组不同取值而不同
实际上我们就下一个结论
就是说效应产生了这两组
组别确实对于结果变量是有影响的
那当我们有两个组的时候
我们用到的就是T检验和Z检验
当我们有更多的组别
也就是说我的分类变量
有多于两个分组的时候我们就
不能单用Z检验和T检验了
我们用到的是方差分析
是F检验
那你会发现在实际研究中
你面临的变量类型各不相同
如果我们特别粗犷
就把变量分为两类
一种是定量型
一种是分类型
我想想我有两个变量
每一个变量都有两种可能的分类类型
那二乘二一共有四种可能对吧
我们看看这四种可能的情况下
我们需要针对的统计方法
有哪些
首先第一个
假设我的响应变量是定量变量
那我的解释变量是分类变量的时候
其实这就是我们上节课进行两组
比较的时候谈到的内容
如果
分类变量只有两种取值的可能
那我们就用比较两组均值的方法
用到的是T检验
如果说
我的自变量X
有多于2的分类
我用到的就是ANOVA方差分析
用的是F检验
那我这里面说了
响应变量和解释变量这两个词
其实
在真正的研究中我们前面就老说
说证明因果关系仿佛比登天还难
就是响应变量呢实际上是我们的目标
就是我在建立在开始这个研究之前
我认为
y是我潜在的响应变量
我认为
y是我潜在的响应变量
并不一定是真的
并不是靠证明关联关系你就可以真的把
因果关系建立起来的
所以我们这里面你时时刻刻要记住
并不是真的证明成功了的响应变量
它是我潜在的设想中的响应变量
并不是真的证明成功了的响应变量
它是我潜在的设想中的响应变量
那解释变量呢也是我设想中的
可能的原因
那
如果是响应变量是
分类的变量
都是categorical的
解释变量也是categorical
那
统计的方法呢
有两种
当我的分类变量
就是作为解释变量的那个x
只有两个分组的时候实际上又退回到了
上个星期的内容对吧
就是你们还记得
祈祷会不会对一个
这个成功的手术产生作用的时候
祈祷会不会对一个
这个成功的手术产生作用的时候
实际上我们比较的是两组的比例
那大多数情况呢
分类变量的分组会多于2
这种情况下
我们就需要来了解我们这节课要讲的内容了
其实列联表的知识还有
我们就需要来了解我们这节课要讲的内容了
其实列联表的知识还有
有的同学会直接说这是卡方检验
chi-square test
然后另外呢
如果说我的响应变量是定量型的
是numerical的
那解释变量也是numerical的
这是特别理想的一种情况
其实这个时候
你得到的信息是
最多最全的
那这种情况呢我们用到的统计方法
是传说中的相关系数
correlation coefficient
非常流行的方法
很多同学一说到
统计学第一个反应呢就是
它就是一个看correlation的嘛
就是看相关系数的
然后最后
响应变量y如果是分类型的
解释变量x是定量型的
这个时候就用到了一种
相对高级的统计
方法体系啊叫做广义线性模型
generalized linear model
那有的同学可能听说过逻辑斯蒂回归
logistic regression我们说研究的是
定量变量
和一个二分变量之间的关系
那它其实呢就是广义线性模型里面的一个特例
相当于广义线性模型里面其实最简单的一种方法啊
这个我们在最后一节课的时候其实会讲到
我们这周要学习的内容呢就是当响应变量和解释变量
同为分类型变量
和同为
数值性变量的时候用什么方法
首先我们看看如果说两个变量
齐刷刷的都是分类变量的时候
我们用到的方法
叫做关联分析列联表
分析 列联表
英文对应的词是contingency table我每次都要
刻意的把英文对应的这个术语
给大家是因为我们后面在
用软件的时候
很多时候都要对英文的术语进行搜索所以最好大家还是
试图把它记忆一下
然后列联表呢显示的就是两个变量在所有的
所有的可能取值上
观察到的研究对象的数量
我们看一个例子啊
其实我们日常中在没学统计之前你经常画列联表啊
一想到
两变量之间的关系我们上高中的时候就画过这种表格
假设
我的研究问题是
性别和政治信仰之间的关系
我们看这又是美国的一个例子啊
它说最近几年呢美国的政治时事评论员已经在探讨说
在政治信仰中
是否存在性别差异
也就是说他们想知道
男性和女性
在他们的政治思想和选取行为上是不是有所不同
那为了调查这一点呢
我们又收集数据了
用到的是2004年GSS里面的数据
那被试对象呢就被问及了他们
就是对
党派的支持情况
问他们说你们是更强烈的支持民主党
还是共和党还是说你们根本就是独立人士啊就没有党派
然后我们现在看到了这样的一个表格
这是一个特别特别典型的列联表我们管它叫做2乘3的列联表
2代表你有两行3代表你有三列
如果学过线性代数的同学这是
很典型的对于矩阵的表达这个2-by-3的
列联表
然后每行跟每列所对应的行数和列数我们看
行数那有一个加总列数那有一个加总
这个行和和列和实际上被称为边际分布
叫做marginal distribution
其实只有在
列联表的时候我们特意加了一个marginal
这marginal的意思就是说
比如说我们以性别为例啊
我是在跟党派无关
我不知道党派的分布什么情况啊我只看性别
我看看女性占比多少男性占比多少
其实你
作为把性别或者是党派作为一个独立的变量来看百分比的时候
你直接看到的就是边际分布
那比如说我们看到这个表格啊
我们可以说政党的属性就party ID
它的边际频数是959 991 和821
那有同学看完了这个表格会说我看到了一大堆频数
什么几千几百的我也看不出来
这两个变量是不是存在关系
很显然啊我们只看观测频数和这个观察到的频数
是远远不够的
我们实际上是想知道是不是在不同的性别中
政党属性的比例是不一样的
这个时候实际上我们用到的就是条件分布了啊
条件分布在前面讲概率法则的时候在前面已经有提及啊
表达是什么P(A)然后一个竖线B
也就是说在B发生前提下A发生的概率
那回到这个问题实际上条件分布呢就是
分别在男性和女性中
各政党属性所占的比例
也就是说
以性别为条件我想看看政党分布的
这个政党属性的分布是什么样子的
当然有同学说我不想以性别为条件
我想以
政党为条件我想看看在民主党里
女性占了多少男性占了多少啊
完全可以但是
我们要说在实际的研究中呢
我们还是有一些标准的
实际研究的时候
你的研究目标你在建立这个选题的时候
你实际上是有假设的
我研究的是
性别对于政党属性的影响
那很自然的
我希望性别是自变量我想知道
性别对于
因变量y有没有一个影响
那如果说
性别不同
条件分布不同
我就可以说性别对政党属性是有影响的
所以本例的因果关系还是
比较清楚的
那你不能反过来说
说是因为政党的属性影响了性别
因为很显然性别是先于政党属性而存在的
基本上改不了了
那
在描述出条件分布之后呢
我们需要系统的证明关联
之前我们看到的又是一群百分比
看到百分比略有不同
略有不同了以后我们能不能说
就是性别产生了影响呢
还是不太好说
我们需要更系统的方法
这个时候呢
想知道是不是性别不同
党派属性的分布就不同呢
就需要用到
统计上独立还有统计上相依的概念了
一说统计上
英文对应的就是statistically
一说统计上
英文对应的就是statistically
所以统计上独立呢对应的术语是
statistically independent
然后统计上相依呢是
statistically dependent
给一个很确定的这个定义
如果说
两分类变量中
一个变量在另一个变量的每个分类中
它的总体条件分布都相同
我们就说
这两个变量是统计上独立的
如果
这个条件分布不同
那我们就说
它在统计上是相依的
我们下面看一个例子
我们现在看到的是一个
假设统计上独立的例子
如果我们认为两变量相互独立
也就是说不管我的x取值是什么
y雷打不动我该怎么分布还怎么分布
所以它的条件分布应该是一模一样的
那我们看
这个例子我现在不研究
性别对政党身份的影响
假设我研究的是族裔对政党身份的影响
这是一个完全假想的表格
我们看到在白人中
民主党占了44%
然后独立人士14%共和党42%
这样的条件分布在
黑人和西班牙裔中都是一模一样的
这就是一个特别特别典型的统计上
独立的样本
统计上独立的列联表
那刚才在讲
概念的时候你们可能已经
发现了
我们有一个特别重要的词我们说
如果两个分类变量中
一个变量在另一个变量的每个分类中
总体的条件分布相同
或者是总体的条件分布不同
我们才可以说它是统计上独立统计上相依的
所以又回到了一个老问题
我们每次关注的都是总体里面的关系
我想知道在大大的浩瀚的总体中
两个变量是不是有相依的或者独立的关系
但现实很残酷
我们每次抽到的都只是小小的样本
我们假设说总体
确实一点关系都没有
我们假设说总体
确实一点关系都没有
那因为样本的随机性样本的变异性
也可能恰巧你抽到了一个样本
这个样本里面
两个变量恰巧显示的关系是不独立的
所以
你很可能看到
一个条件分布不同的
列联表
但是并不太好
一下就下出结论说
总体里面确实是有关系的
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video