当前课程知识点:基于R语言的社会统计分析 >  第九章:变量间的关联分析 >  9.1 变量间的关联分析 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

寻找变量间的关联关系呢

是很多科学研究都要解决的问题

其实我们在第三周讲

探索性数据分析的时候就已经提到了

我们说我们对数据进行初步探索的时候

并不是漫无目的的在乱试的

我们是有一些特别的原则的

其中有一条呢我们是希望

找到变量间的关联关系

现在我们看看就在统计学上

如果得下一个定义就是

当响应变量的分布

在某种程度上

随着解释变量取值的变化而变化的时候

我们就可以认为说

两个变量之间存在着关联关系

那翻译成比较这个简单的语言

其实就是

你变我也变

你的取值有所变化我的取值也会跟着不同
你变我也变

你的取值有所变化我的取值也会跟着不同

就说明两个变量是有关联关系的

那在上一讲中呢

上一讲我们讲了

叫两组的均值还有两组的比例

其实在这个过程中我们已经开始了

探索两变量之间关系的这种尝试

我们关注的呢就是

我们感兴趣的那个结果变量

或者是响应变量的取值是不是随着

组别的不同而不同

如果我们发现

因为分组不同取值而不同

实际上我们就下一个结论

就是说效应产生了这两组

组别确实对于结果变量是有影响的

那当我们有两个组的时候

我们用到的就是T检验和Z检验

当我们有更多的组别

也就是说我的分类变量

有多于两个分组的时候我们就

不能单用Z检验和T检验了

我们用到的是方差分析

是F检验

那你会发现在实际研究中

你面临的变量类型各不相同

如果我们特别粗犷

就把变量分为两类

一种是定量型

一种是分类型

我想想我有两个变量

每一个变量都有两种可能的分类类型

那二乘二一共有四种可能对吧

我们看看这四种可能的情况下

我们需要针对的统计方法

有哪些

首先第一个

假设我的响应变量是定量变量

那我的解释变量是分类变量的时候

其实这就是我们上节课进行两组

比较的时候谈到的内容

如果

分类变量只有两种取值的可能

那我们就用比较两组均值的方法

用到的是T检验

如果说

我的自变量X

有多于2的分类

我用到的就是ANOVA方差分析

用的是F检验

那我这里面说了

响应变量和解释变量这两个词

其实

在真正的研究中我们前面就老说

说证明因果关系仿佛比登天还难

就是响应变量呢实际上是我们的目标

就是我在建立在开始这个研究之前

我认为

y是我潜在的响应变量
我认为

y是我潜在的响应变量

并不一定是真的

并不是靠证明关联关系你就可以真的把

因果关系建立起来的

所以我们这里面你时时刻刻要记住

并不是真的证明成功了的响应变量

它是我潜在的设想中的响应变量
并不是真的证明成功了的响应变量

它是我潜在的设想中的响应变量

那解释变量呢也是我设想中的

可能的原因

如果是响应变量是

分类的变量

都是categorical的

解释变量也是categorical

统计的方法呢

有两种

当我的分类变量

就是作为解释变量的那个x

只有两个分组的时候实际上又退回到了

上个星期的内容对吧

就是你们还记得

祈祷会不会对一个

这个成功的手术产生作用的时候
祈祷会不会对一个

这个成功的手术产生作用的时候

实际上我们比较的是两组的比例

那大多数情况呢

分类变量的分组会多于2

这种情况下

我们就需要来了解我们这节课要讲的内容了

其实列联表的知识还有
我们就需要来了解我们这节课要讲的内容了

其实列联表的知识还有

有的同学会直接说这是卡方检验

chi-square test

然后另外呢

如果说我的响应变量是定量型的

是numerical的

那解释变量也是numerical的

这是特别理想的一种情况

其实这个时候

你得到的信息是

最多最全的

那这种情况呢我们用到的统计方法

是传说中的相关系数

correlation coefficient

非常流行的方法

很多同学一说到

统计学第一个反应呢就是

它就是一个看correlation的嘛

就是看相关系数的

然后最后

响应变量y如果是分类型的

解释变量x是定量型的

这个时候就用到了一种

相对高级的统计

方法体系啊叫做广义线性模型

generalized linear model

那有的同学可能听说过逻辑斯蒂回归

logistic regression我们说研究的是

定量变量

和一个二分变量之间的关系

那它其实呢就是广义线性模型里面的一个特例

相当于广义线性模型里面其实最简单的一种方法啊

这个我们在最后一节课的时候其实会讲到

我们这周要学习的内容呢就是当响应变量和解释变量

同为分类型变量

和同为

数值性变量的时候用什么方法

首先我们看看如果说两个变量

齐刷刷的都是分类变量的时候

我们用到的方法

叫做关联分析列联表

分析 列联表

英文对应的词是contingency table我每次都要

刻意的把英文对应的这个术语

给大家是因为我们后面在

用软件的时候

很多时候都要对英文的术语进行搜索所以最好大家还是

试图把它记忆一下

然后列联表呢显示的就是两个变量在所有的

所有的可能取值上

观察到的研究对象的数量

我们看一个例子啊

其实我们日常中在没学统计之前你经常画列联表啊

一想到

两变量之间的关系我们上高中的时候就画过这种表格

假设

我的研究问题是

性别和政治信仰之间的关系

我们看这又是美国的一个例子啊

它说最近几年呢美国的政治时事评论员已经在探讨说

在政治信仰中

是否存在性别差异

也就是说他们想知道

男性和女性

在他们的政治思想和选取行为上是不是有所不同

那为了调查这一点呢

我们又收集数据了

用到的是2004年GSS里面的数据

那被试对象呢就被问及了他们

就是对

党派的支持情况

问他们说你们是更强烈的支持民主党

还是共和党还是说你们根本就是独立人士啊就没有党派

然后我们现在看到了这样的一个表格

这是一个特别特别典型的列联表我们管它叫做2乘3的列联表

2代表你有两行3代表你有三列

如果学过线性代数的同学这是

很典型的对于矩阵的表达这个2-by-3的

列联表

然后每行跟每列所对应的行数和列数我们看

行数那有一个加总列数那有一个加总

这个行和和列和实际上被称为边际分布

叫做marginal distribution

其实只有在

列联表的时候我们特意加了一个marginal

这marginal的意思就是说

比如说我们以性别为例啊

我是在跟党派无关

我不知道党派的分布什么情况啊我只看性别

我看看女性占比多少男性占比多少

其实你

作为把性别或者是党派作为一个独立的变量来看百分比的时候

你直接看到的就是边际分布

那比如说我们看到这个表格啊

我们可以说政党的属性就party ID

它的边际频数是959 991 和821

那有同学看完了这个表格会说我看到了一大堆频数

什么几千几百的我也看不出来

这两个变量是不是存在关系

很显然啊我们只看观测频数和这个观察到的频数

是远远不够的

我们实际上是想知道是不是在不同的性别中

政党属性的比例是不一样的

这个时候实际上我们用到的就是条件分布了啊

条件分布在前面讲概率法则的时候在前面已经有提及啊

表达是什么P(A)然后一个竖线B

也就是说在B发生前提下A发生的概率

那回到这个问题实际上条件分布呢就是

分别在男性和女性中

各政党属性所占的比例

也就是说

以性别为条件我想看看政党分布的

这个政党属性的分布是什么样子的

当然有同学说我不想以性别为条件

我想以

政党为条件我想看看在民主党里

女性占了多少男性占了多少啊

完全可以但是

我们要说在实际的研究中呢

我们还是有一些标准的

实际研究的时候

你的研究目标你在建立这个选题的时候

你实际上是有假设的

我研究的是

性别对于政党属性的影响

那很自然的

我希望性别是自变量我想知道

性别对于

因变量y有没有一个影响

那如果说

性别不同

条件分布不同

我就可以说性别对政党属性是有影响的

所以本例的因果关系还是

比较清楚的

那你不能反过来说

说是因为政党的属性影响了性别

因为很显然性别是先于政党属性而存在的

基本上改不了了

在描述出条件分布之后呢

我们需要系统的证明关联

之前我们看到的又是一群百分比

看到百分比略有不同

略有不同了以后我们能不能说

就是性别产生了影响呢

还是不太好说

我们需要更系统的方法

这个时候呢

想知道是不是性别不同

党派属性的分布就不同呢

就需要用到

统计上独立还有统计上相依的概念了

一说统计上

英文对应的就是statistically
一说统计上

英文对应的就是statistically

所以统计上独立呢对应的术语是

statistically independent

然后统计上相依呢是

statistically dependent

给一个很确定的这个定义

如果说

两分类变量中

一个变量在另一个变量的每个分类中

它的总体条件分布都相同

我们就说

这两个变量是统计上独立的

如果

这个条件分布不同

那我们就说

它在统计上是相依的

我们下面看一个例子

我们现在看到的是一个

假设统计上独立的例子

如果我们认为两变量相互独立

也就是说不管我的x取值是什么

y雷打不动我该怎么分布还怎么分布

所以它的条件分布应该是一模一样的

那我们看

这个例子我现在不研究

性别对政党身份的影响

假设我研究的是族裔对政党身份的影响

这是一个完全假想的表格

我们看到在白人中

民主党占了44%

然后独立人士14%共和党42%

这样的条件分布在

黑人和西班牙裔中都是一模一样的

这就是一个特别特别典型的统计上

独立的样本

统计上独立的列联表

那刚才在讲

概念的时候你们可能已经

发现了

我们有一个特别重要的词我们说

如果两个分类变量中

一个变量在另一个变量的每个分类中

总体的条件分布相同

或者是总体的条件分布不同

我们才可以说它是统计上独立统计上相依的

所以又回到了一个老问题

我们每次关注的都是总体里面的关系

我想知道在大大的浩瀚的总体中

两个变量是不是有相依的或者独立的关系

但现实很残酷

我们每次抽到的都只是小小的样本

我们假设说总体

确实一点关系都没有
我们假设说总体

确实一点关系都没有

那因为样本的随机性样本的变异性

也可能恰巧你抽到了一个样本

这个样本里面

两个变量恰巧显示的关系是不独立的

所以

你很可能看到

一个条件分布不同的

列联表

但是并不太好

一下就下出结论说

总体里面确实是有关系的

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。