9079486

当前课程知识点:基于R语言的社会统计分析 >  第九章:变量间的关联分析 >  9.3 定序变量间的关联关系 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:第九章 R Code

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

下面呢我们来讲一讲

两个定序变量之间的关联关系

我们刚刚讲

变量之间关联关系的时候

分类分的很霸气很粗犷

我们说变量只分两种

一种是分类型一种是

数值型或者是定量型

那有同学如果印象比较深

对于前两节课最开始的两节课

知识可能还记得

我们说

分类变量里有一种很特殊的变量叫做

定序型变量ordinal variable

ordinal variable这在我们的社会科学研究中特别常用

我们经常说

某一人他的意见

态度的时候我们经常会问他

你是从非常不同意 不同意

无所谓还是同意非常同意 这是一个

典型的李克特量表我们希望让这个

受试对象从这五个分类之中做出选择

然后有的时候我们问的可能更细我们说

假设你对一件事的态度是0到10

在0到10之间打分让你选一个

那这个时候可能这个

顺序的概念就更强了一点

所以说这种变量呢除了它本身的

类别属性以外

它还提供了关于高低关于大小的信息它是有序的

那如果说我就特别生硬的说

它明明就是一个分类变量我要用

分类变量的方法来处理我做一个列联表就可以了

好像

无形中浪费了一些信息

我们希望把顺序的信息也体现进去

所以呢为了避免这种

损失信息的不道德行为啊我们现在要介绍一种

比较流行的针对定序变量的关联分析方法

它使用的一种系数叫做γ系数

刚刚我们介绍了怎么分析两个分类变量之间的相关关系

我们说当两个

分类变量真的是名义型变量的时候

用到的是卡方检验我们要画一个列联表

然后当两个变量都是定序型变量的时候

我们要用γ系数啊或者其实还有其他的方法

我们这节课就不细细的讲了

那现在呢我们

来到了一个更加常用用场景我们希望研究的是

两个变量同时是

定量性变量的情况

这个时候我们研究的这个

东西呢叫做相关系数

其实我们

之前也是在研究相关啊

当然我们特意说它是关联

关联分析

英文对应的是association

这是因为呢相关这个词被

更多的你一说相关大家就会联想到

两个定量变量之间的相关系数了

那在

两个变量都是定量型变量的时候呢

我们说变量间既存在着关系

但是又不能完全确定

的关系的时候称为相关关系

那在概率论和数理统计之中呢

相关也叫做correlation啊

或称相关系数或者是关联系数

显示的是

两个随机变量之间

线性关系的强度和方向

我这里面特别要强调一个线性关系啊

很多同学一说线性关系想到的是一个大曲线啊

我们这里面所说的linear

是线性的关系讲到的是严格的直线关系

也就是说相关系数是有它很严重的局限性的

我们用相关系数可以检验的是纯的直线的线性关系

如果说是曲线的关系二元的关系的话

我们用相关系数很难很清楚的把它分析出来

那相关分析呢看的是现象之间我们首先要看它是否有关

然后如果发现它有关系了

我们想知道这个相关的方向是什么

是正相关还是负相关啊正相关的意思是说

x增大y也增大

负相关代表的就是x增大y减少啊

首先我想知道有没有关系

发现有关系了想知道是正相关负相关

同时我还想知道相关的强度是多少

密切程度是多少

那一般情况下在

做这个真正计算这个相关系数的时候

并不需要特别严格的区分说哪个是

自变量哪个是因变量哪个是解释变量

那个是响应变量不需要做特别严格的区分因为

你计算的时候是不做区分的

但是一般在做相关系数之前我们需要画一个图

这个图呢是给你一个这个

感官上的认识看看两个变量是不是有一个

大概的相关的趋势

这个图呢叫做散点图

scatter plot啊所有的统计软件

很简单的都可以画出两个变量关系的散点图

我们下面看一个例子啊

这个例子研究的是

降水量和小麦的产量之间的关系

我们这是一个假想的例子用到的

观测值特别的有限啊只有七个

然后我们发现我们画一张图啊x轴代表的是

降水量y轴代表的是小麦的产量

很简单的七个点你已经可以看出了大致上

是有一个相关关系的有一个向上的趋势

也就是说明降水量越多

起码我们说在一定的范围之内啊

估计降水量太多的就涝了

那在一定的取值范围之内

降水量越大

小麦的产量越高

这是通过这张散点图所显示出来的关系

那一般情况下我们说虽然在计算相关系数的时候

并不需要严格的区分因变量和自变量

但如果说你要画一张散点图的话

还是要稍微多想一想啊

一般的话我们会把自变量

放在x轴

然后把因变量放在y轴

那这个例子里面我们认为

降水量应该是小麦产量多少的这个原因影响因素

所以x轴是降水量叫做rainfall

那y轴叫output小麦的产量

散点图呢是我在计算相关系数之前

很常规的一个动作啊我想看看两变量

我们想用可视化的方法看看两变量

到底是不是存在一个大致的相关趋势

那大致上我可以把

两个变量的相关关系

分为7个类型

我们现在

一一的看一下啊首先我们看到

左上角这张图啊

这张图我们

这个抬头叫做low postive correlation叫做

低度的正相关

首先我们承认两个变量是有相关关系的

x增大Y也增大

但是你会发现

它不是一个严格的函数关系就是点还是排的比较散的

这种情况呢大致有一个相关趋势又好像

并不是很紧密啊点离得并不是很近

这是一个典型的低度正相关

然后右边的这个图代表的是

高度正相关啊

基本上可以感觉就是一条直线了啊

然后

左下角低度的负相关

然后右下角高度的负相关

然后我们另外再看这三张图啊

其实这三张图其实最上面这张图特别重要

叫做no correlation

如果说我认为

两个变量没有任何的相关关系

实际上你希望在一个

这个图表中点应该是散落各处的

应该看不到任何的趋势

它应该非常凌乱的散落在各个角落也就是现在你们看到的这张图

然后另外还有两种情况

这在现实生活中

很少出现除非你是在做数学题啊

左下角它叫perfect postive correlation完全的或者完美的正相关

所谓完美就是说

给定一个x值我就有一个y值

与其对应

那说白了这就是一个

一一映射的函数关系这是数学课学的内容

那另外呢

右下角这张图叫做perfect negative correlation

代表的是完美的负相关或者是完全负相关

也是一个很完整的函数关系

这是我们看到的

从散点图来看相关关系的七大种基本的类型

那下面我们看图的时候看到视觉上大体的感觉

我们还是希望

把这个概念

很精细的量化

我们就需要看看公式了啊

我们来看看相关系数到底

是怎么计算的

首先有一个概念我们必须搞清楚啊就是

对于不同数据的

特点实际上有好多种不同的相关系数

那我们这里面介绍的是众多相关系数里面的一种叫做

皮尔逊积差相关系数

英文叫做Pearson's product correlation coefficient

这是最常用的一种方法

一般大家一提到相关系数

直接联想到的都是这个皮尔逊相关系数

那它的定义呢是两个变量协方差

除以两个变量的标准差或者叫做方差的平方根

那对为样本量为n的这样

一组变量xy它的表达式长成一组你现在看到的

这个公式这个样子

有好多同学一看说这是什么东西啊又看不懂了

那其实你仔细看看

第一行这里面的

每一个元素实际上都是你认识的啊

就是

xi减去x均值除以Sx这是什么啊

观测值减均值

除标差实际上这是x的标准计分

对吧是它的standardized score

是它标准化的一个过程同时y也是啊

减均值除标差得到的是y的

标准计分

两个标准积分相乘再

把所有的样本

观测值加和除以n-1

得到的是样本的相关系数

然后

我们很多同学说你这个公式怎么来的啊

不要太去纠结这个问题

就是

统计学家想了很久造成了

造出了这样一个统计量

是为什么呢是因为这个统计量有一个非常好的特性

它必然是一个在-1和1之间的数

然后当这个r值等于0的时候

代表的是两个变量之间完全没有相关关系

所以从

所以极度负相关是-1啊极度正相关是1

就是当它是直线关系的时候完全就是

像我们之前看到那张图啊完美正相关完美负相关

真的在那条直线上啊r值刚好会达到-1到1

然后在0和1之间它可以很好的

描述出相关性从小到大的这样一个变化的过程了

这是关于相关系数

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。