当前课程知识点:基于R语言的社会统计分析 > 第九章:变量间的关联分析 > 9.3 定序变量间的关联关系 > Video
下面呢我们来讲一讲
两个定序变量之间的关联关系
我们刚刚讲
变量之间关联关系的时候
分类分的很霸气很粗犷
我们说变量只分两种
一种是分类型一种是
数值型或者是定量型
那有同学如果印象比较深
对于前两节课最开始的两节课
知识可能还记得
我们说
分类变量里有一种很特殊的变量叫做
定序型变量ordinal variable
ordinal variable这在我们的社会科学研究中特别常用
我们经常说
某一人他的意见
态度的时候我们经常会问他
你是从非常不同意 不同意
无所谓还是同意非常同意 这是一个
典型的李克特量表我们希望让这个
受试对象从这五个分类之中做出选择
然后有的时候我们问的可能更细我们说
假设你对一件事的态度是0到10
在0到10之间打分让你选一个
那这个时候可能这个
顺序的概念就更强了一点
所以说这种变量呢除了它本身的
类别属性以外
它还提供了关于高低关于大小的信息它是有序的
那如果说我就特别生硬的说
它明明就是一个分类变量我要用
分类变量的方法来处理我做一个列联表就可以了
好像
无形中浪费了一些信息
我们希望把顺序的信息也体现进去
所以呢为了避免这种
损失信息的不道德行为啊我们现在要介绍一种
比较流行的针对定序变量的关联分析方法
它使用的一种系数叫做γ系数
刚刚我们介绍了怎么分析两个分类变量之间的相关关系
我们说当两个
分类变量真的是名义型变量的时候
用到的是卡方检验我们要画一个列联表
然后当两个变量都是定序型变量的时候
我们要用γ系数啊或者其实还有其他的方法
我们这节课就不细细的讲了
那现在呢我们
来到了一个更加常用用场景我们希望研究的是
两个变量同时是
定量性变量的情况
这个时候我们研究的这个
东西呢叫做相关系数
其实我们
之前也是在研究相关啊
当然我们特意说它是关联
关联分析
英文对应的是association
这是因为呢相关这个词被
更多的你一说相关大家就会联想到
两个定量变量之间的相关系数了
那在
两个变量都是定量型变量的时候呢
我们说变量间既存在着关系
但是又不能完全确定
的关系的时候称为相关关系
那在概率论和数理统计之中呢
相关也叫做correlation啊
或称相关系数或者是关联系数
显示的是
两个随机变量之间
线性关系的强度和方向
我这里面特别要强调一个线性关系啊
很多同学一说线性关系想到的是一个大曲线啊
我们这里面所说的linear
是线性的关系讲到的是严格的直线关系
也就是说相关系数是有它很严重的局限性的
我们用相关系数可以检验的是纯的直线的线性关系
如果说是曲线的关系二元的关系的话
我们用相关系数很难很清楚的把它分析出来
那相关分析呢看的是现象之间我们首先要看它是否有关
然后如果发现它有关系了
我们想知道这个相关的方向是什么
是正相关还是负相关啊正相关的意思是说
x增大y也增大
负相关代表的就是x增大y减少啊
首先我想知道有没有关系
发现有关系了想知道是正相关负相关
同时我还想知道相关的强度是多少
密切程度是多少
那一般情况下在
做这个真正计算这个相关系数的时候
并不需要特别严格的区分说哪个是
自变量哪个是因变量哪个是解释变量
那个是响应变量不需要做特别严格的区分因为
你计算的时候是不做区分的
但是一般在做相关系数之前我们需要画一个图
这个图呢是给你一个这个
感官上的认识看看两个变量是不是有一个
大概的相关的趋势
这个图呢叫做散点图
scatter plot啊所有的统计软件
很简单的都可以画出两个变量关系的散点图
我们下面看一个例子啊
这个例子研究的是
降水量和小麦的产量之间的关系
我们这是一个假想的例子用到的
观测值特别的有限啊只有七个
然后我们发现我们画一张图啊x轴代表的是
降水量y轴代表的是小麦的产量
很简单的七个点你已经可以看出了大致上
是有一个相关关系的有一个向上的趋势
也就是说明降水量越多
起码我们说在一定的范围之内啊
估计降水量太多的就涝了
那在一定的取值范围之内
降水量越大
小麦的产量越高
这是通过这张散点图所显示出来的关系
那一般情况下我们说虽然在计算相关系数的时候
并不需要严格的区分因变量和自变量
但如果说你要画一张散点图的话
还是要稍微多想一想啊
一般的话我们会把自变量
放在x轴
然后把因变量放在y轴
那这个例子里面我们认为
降水量应该是小麦产量多少的这个原因影响因素
所以x轴是降水量叫做rainfall
那y轴叫output小麦的产量
散点图呢是我在计算相关系数之前
很常规的一个动作啊我想看看两变量
我们想用可视化的方法看看两变量
到底是不是存在一个大致的相关趋势
那大致上我可以把
两个变量的相关关系
分为7个类型
我们现在
一一的看一下啊首先我们看到
左上角这张图啊
这张图我们
这个抬头叫做low postive correlation叫做
低度的正相关
首先我们承认两个变量是有相关关系的
x增大Y也增大
但是你会发现
它不是一个严格的函数关系就是点还是排的比较散的
这种情况呢大致有一个相关趋势又好像
并不是很紧密啊点离得并不是很近
这是一个典型的低度正相关
然后右边的这个图代表的是
高度正相关啊
基本上可以感觉就是一条直线了啊
然后
左下角低度的负相关
然后右下角高度的负相关
然后我们另外再看这三张图啊
其实这三张图其实最上面这张图特别重要
叫做no correlation
如果说我认为
两个变量没有任何的相关关系
实际上你希望在一个
这个图表中点应该是散落各处的
应该看不到任何的趋势
它应该非常凌乱的散落在各个角落也就是现在你们看到的这张图
然后另外还有两种情况
这在现实生活中
很少出现除非你是在做数学题啊
左下角它叫perfect postive correlation完全的或者完美的正相关
所谓完美就是说
给定一个x值我就有一个y值
与其对应
那说白了这就是一个
一一映射的函数关系这是数学课学的内容
那另外呢
右下角这张图叫做perfect negative correlation
代表的是完美的负相关或者是完全负相关
也是一个很完整的函数关系
这是我们看到的
从散点图来看相关关系的七大种基本的类型
那下面我们看图的时候看到视觉上大体的感觉
我们还是希望
把这个概念
很精细的量化
我们就需要看看公式了啊
我们来看看相关系数到底
是怎么计算的
首先有一个概念我们必须搞清楚啊就是
对于不同数据的
特点实际上有好多种不同的相关系数
那我们这里面介绍的是众多相关系数里面的一种叫做
皮尔逊积差相关系数
英文叫做Pearson's product correlation coefficient
这是最常用的一种方法
一般大家一提到相关系数
直接联想到的都是这个皮尔逊相关系数
那它的定义呢是两个变量协方差
除以两个变量的标准差或者叫做方差的平方根
那对为样本量为n的这样
一组变量xy它的表达式长成一组你现在看到的
这个公式这个样子
有好多同学一看说这是什么东西啊又看不懂了
那其实你仔细看看
第一行这里面的
每一个元素实际上都是你认识的啊
就是
xi减去x均值除以Sx这是什么啊
观测值减均值
除标差实际上这是x的标准计分
对吧是它的standardized score
是它标准化的一个过程同时y也是啊
减均值除标差得到的是y的
标准计分
两个标准积分相乘再
把所有的样本
观测值加和除以n-1
得到的是样本的相关系数
然后
我们很多同学说你这个公式怎么来的啊
不要太去纠结这个问题
就是
统计学家想了很久造成了
造出了这样一个统计量
是为什么呢是因为这个统计量有一个非常好的特性
它必然是一个在-1和1之间的数
然后当这个r值等于0的时候
代表的是两个变量之间完全没有相关关系
所以从
所以极度负相关是-1啊极度正相关是1
就是当它是直线关系的时候完全就是
像我们之前看到那张图啊完美正相关完美负相关
真的在那条直线上啊r值刚好会达到-1到1
然后在0和1之间它可以很好的
描述出相关性从小到大的这样一个变化的过程了
这是关于相关系数
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video