当前课程知识点:基于R语言的社会统计分析 > 第十二章: Logistic回归和其他高级统计方法简介 > 12.5 其他多元统计方法 > Video
在实际的研究中呢我们可能会遇到各种各样各具特色的数据
有同学经常跑过来说说我这数据太奇葩了用回归分析
不行用逻辑斯蒂回归也不行我应该用什么样的统计方法啊
只要你参与到了实际的研究
你就会发现我们这节课这是
一个入门级的课程啊
给你提供的只是一些基础知识
不同的研究问题一定会有更多的
对更高级的统计方法的需求
然后有的同学会说
高级的统计方法啊有的时候要用到线性代数啊用到微积分的知识
那些数学的东西太复杂了
我受不了但是我们要说呢
可能作为一个科研人员你
自己的数据你自己在分析
甚至是二手数据的时候都不需要使用一些非常复杂的问题
但是呢
我敢保证你在阅读
文献研究或者是看
其他人的研究的时候
一定会碰到
用其它的更高级的统计方法分析得到的研究结果
那我们觉得即使你没有时间和精力
掌握每一种方法的
数学细节数学原理的计算过程啊
我们也至少应该
知道每种方法的使用条件
还有它的研究目的
再更进一步呢我们希望你能有机会了解
每一种方法的基本思路
那下面呢我们时间不多啊
只能对几种特别常用的高级统计
方法进行一个简单的梳理
我们肯定没有时间去讲它的计算细节了啊
我们会举几个简单的例子讲一讲每种方法它的
针对的数据特色然后它的基本思想是什么
好下面就让我们首先来看一看第一种啊
叫做对追踪数据的分析
同学们肯定已经都
发现了啊已经进入了
第十二周是我们课程的最后一周
我们刚刚把逻辑斯蒂回归讲完啊
如果说放到多元统计分析里面那我们可能
只走了十分之一的路
那
社会科学
有很多很多复杂的研究问题
数据的结构呢也
变得越来越奇葩啊随着我们这个大数据概念引入数据的概念
数据的结构变得很复杂
变量之间的关系变得更复杂
那用传统的所谓多元回归也好
逻辑斯蒂回归也好
可能只能解决小小的一部分问题
那后面呢我们时间不多啊
特别特别快的给大家
提点几句就是还有
那些比较高级的
统计分析方法是
目前的研究中会比较
较常碰到的
当我们这里是能说说这个
方法大致是什么意思啊
每一种方法都需要很长很长的时间来学
用我们学统计学的角度
比如说我自己是学结构方程模型的我整个
博士四五年的时间学了四年的结构方程模型那我不可能用
两分钟的时间给大家
讲清楚结构方程模型是什么啊所以
这里面呢只是很快的给大家
顺一下
大概有那些其他的分析方法供你考虑
供你选择
如果说你真的发现你自己有需要的话
要找到相关的教材
比较深入的学习好好看看模型的使用条件啊
基本假设这些很重要的问题
那我们先说就是除了
多元回归多元斯蒂回归以外有一种
非常重要的方法叫做多水平分析
很多同学就上我统计课上了一半
的时候都会来问我老师这个
我们什么时候会讲多水平分析
当然在课堂上呢我们专门会有
一大节课的时间来讲这种方法
那我们慕课呢目前
只是一个介绍性的课程
所以这个方法并没有展开来讲
但是大家要知道它的存在以及到底用它来解决什么问题啊
这个多水平分析呢别名特别多
有的人管它叫做
多层线性模型啊multilevel linear model MLM
有人叫分层线性模型
可能这个名字听的更多简称HLM
然后随机效应模型 random coefficient model
它有好多好多
其实它们说的都是一个问题
关注的都是数据
具有某种分层结构的时候处理方法
也就是说这种方法呢它认为
数据具有某种的分层结构
那通常响应变量我们的y呢处于最低或者叫
最微观的哪个层级的
然后解释变量呢会
因为它各自解释变量的这个
属性不同呢处于
不同的水平上
那
这个时候就会造成一个问题
就是说传统的线性回归
有一个
对随机误差项呢很严格的要求也就是说
它要求随机误差项之间相互独立
那当
我的数据处于这种比较复杂的分层结构的时候呢
随机误差项
这个相互独立的假设就
没有办法再保证了
当然我现在说了这些呢你肯定觉得很抽象
那我们来看一个例子啊每次一讲多水平分析
基本上都会举到这个例子大家一下就明白
这是一种什么样的数据了
在教育社会学之中我们
经常要研究学生的表现
对吧学生的这个能力水平
那学生呢实际上
我们比如说关注的是学生的考试成绩啊
学生考试成绩是y的时候
这个考试成绩就处于
最低的那个层级
最微观的哪个层级它是从每一个个体
每一个学生身上记录的
但是
学生嵌套于班级
对吧就是每一个班级里面
有不同的学生
那班级上面还有一层就是班级嵌套于学校
以此类推啊你还可以说学校嵌套于学区
学区上面还有城市
城市上面还有省
省上面还有国家
国家上面还有洲啊
一层接一层的如果你还要深究这个问题
那同一个班级的学生的考试成绩呢
可能受
共享同一个老师或者是
同一个教科书而影响
那类似的
那同一个学校考生的平均成绩呢
可能与
该学校学生的社会经济地位有关
假设说这是一个公立学校那可能
相对私立学校呢社会经济地位
稍微低一点
那可能这个学生的平均成绩呢是
因为社会经济地位的不同
而略低一点啊如果你去
做了很多教育社会学的
看过很多社会教育学的文献你会发现
这个社会经济地位与学生的考试成绩
总是有很重要的关系
那
如果
你有好多个班级好多个学校
的话怎么办呢有的同学说
显然
班级不同会对学生的考试成绩有影响
学校不同也会对学生考试成绩有影响
那我就把学校
做一个分类变量或者班级作为一个分类变量
放到回归模型里控制一下就好了
那假设说你有三十个班级
五十个班级一百个班级
你都要把这100个变量放到模型里建立99个虚拟变量
来研究它们之间的关系吗
显然这种方法就是
如果把班级或者学校作为控制变量扔到模型里的这种
方法是不现实的
这个时候你就需要
考虑用多水平
分析的问题了
然后具体多水平分析
我后面讲的都是它的应用条件就是什么时候你要
考虑用什么样的方法
那后面呢
如果你会发现呀我数据有如此
复杂的分层结构
而且我又没有办法把每一层
的属性放到模型里
你就要考虑用多水平分析的方法了
那多水平分析呢对数学的要求还蛮强对
这个结果的解读也还是有要求的
所以如果有兴趣的同学大家
尽量就是拿一本多水平
分析的教材去学习一下
然后下面呢还有一种分析方法啊叫路径分析
path analysis
我们多水平分析就告一段落了啊
这个路径分析呢是什么特点
在社会科学中呢我们
并不一定能把问题
简化成说我只有
一个响应变量
就是一定有一个公式公式左边有一个响应变量
公式右边有好多好多的自变量啊
有的时候现实问题总是比我们想象的复杂
我们有时会面临
面临多原因多结果的这么一种研究问题
那我们现在看到这张图啊
是一个典型的路径分析的图
你会看到这个图形里面有两个x
有3个y然后
以中间这个y2为例啊
这个y2呢它好像
即是自变量又是因变量
有箭头指向它而它又作为一个
这个
发源地啊又去影响y3
这是典型的多原因
多结果之间机制的研究问题
如果说你去研究
我们看到这个例子啊
研究的是这个纺织工人这个工会的认同感
的问题然后你会看到
y3呢它指的是这个对工会的这个sentiment
y2指的是support y1指的是deference
然后x1和x2
代表的是这个工人在这个
工厂里工作的年限和他的年龄
他们当然我不是做劳工社会学的啊
如果有同学是专门研究劳工
社会学可以好好地 看一下这个模型
但是我们
我只是把它放到这里
举一个例子啊就是说
我们经常会面临好多个y
的问题那这个时候怎么办需要
用路径分析的方法
路径分析以后呢还有一种方法叫做
factor analysis 因子分析啊
因子分析可能听到的人会更多一点尤其是我们在做这个
量表的
效度验证的时候会
提及因子分析
那我这里面举一个例子啊
我这里面呢是对学生的一个测量
我想研究一群学生他们的
视觉能力他们的语言能力和他们的
反应能力之间到底
有什么样的关系那
我们想象一个非常重要的概念啊在这里
不管是视觉能力还是
语言能力还是反应速度
都不是像物理学
概念那样清晰的概念
就是是我们很典型的社会学概念
里面一种抽象概念
有的时候我们管它叫潜变量啊就是
什么是视觉能力
那你需要用一些媒介来测量它
比如说
我们这里面用三种东西来测量啊一个是
visual perception 这个视觉的
能力假如它是一个看图的一个能力
然后cubes是它分辨小立方体的能力
lozenges是它分辨菱形的能力
然后verbal怎么测量呢
有paragraph comprehension 就是
对段落的理解能力
sentence comprehension
句子理解能力 Wordmean
就是词语的理解能力
用段落句子还有词语的理解能力三个层面来
测量verbal
那下面呢这个speed反应速度
反应速度一个
addition是我们小时候经常用口算条干的那件事啊
特别简单的加减乘除的计算看你算得有多快
然后countdot数点点儿啊
这个有多少点 看你
几分钟之内把多少点数出来
然后这个叫s-c caps
它的意思是说我们
英文大写有26个字母
26个字母有A有B有C啊
A里面有没有S这个
就是曲线的这种
形式啊
假设B B里面有两个弯
C里面也有圈啊
就是来分辩一个字母它是只有曲线还是
只有直线也是一种
很快地这个测你反应的这种
一种算法啊
无论如何你看我有三个
所谓的潜变量
为了对他们进行测量呢我们就
找到了不同题目不同的媒介去测量它
然后我又知道
所谓的视觉的能力
语言的能力还有反应的能力
它们之间又有着某种的相关关系
它们之间的某种相关关系用这种双箭头的曲线来表达啊
然后我的问题就是它们三个中间到底是什么样的关系
这就需要用因子分析的方法来
来做啊同时我也要验证
这样的一个理论模型到底靠谱不靠谱啊它对不对
这是factor analysis
经常用在量表的效度验证
然后最后呢结构方程模型
之前讲说我自己就是学结构方程模型
研究的都是潜变量的
测量和建模问题
那这里面有一个特别典型的例子
比如说respondont’s
ambition就是受访者的野心
bestfriend‘s ambition假设说我们以这个
受访者为我的研究对象
然后我想知道受访者
和他的好朋友的野心之间是怎么样
互相影响牵制的
于是我搭了一个理论模型啊
发现受访者野心受什么影响呢
我受受访者他这个
父母的期望的影响 parents' aspiration
然后受访者本身的一个智力水平
当然他比较聪明的时候他可能野心就
更高一点
然后受访者的社会经济地位他
社会经济地位高可能他野心也高
当然他还受什么影响他同时还受
朋友的经济社会地位影响
你想象一下假设说一个人把他丢进
一个社会
经济地位普遍很高的一个
群组里面他当然希望自己
也和其他人一样那么高大上啊
所以它受到bestfriend's SES的影响啊
那完全对应的bestfriend呢
也平行的受到这个
受访者的SES然后
好朋友的智力和好朋友
父母期望的影响
那我的ambition又会影响到什么呢
我ambition呢会影响到我这个职业的
这个抱负
也会影响到教育抱负想读到
硕士我还是想读到博士啊我还是想
读个MBA啊
这样的影响
然后我想看
我的这个理论模型是不是成立的
同时我也想知道
respondon's ambition和朋友之间ambition它们之间
互相影响程度是怎么样的
于是乎我要建立这么一个模型
然后在结构方程模型中你会发现
有一些
像这个 什么parents' aspiration这些都是用
方块表示的
代表的是可以直接测量的变量
然后所谓的respondon's ambition呢是你人工
凭空造出来的潜变量啊是
并不能直接测量你实际上是需要其它变量来体现的
然后比如说respondon's ambition它是靠谁来测量的呢
它靠的是职业期望和教育期望来测量
类似的bestfriend's ambition是靠的职业
好朋友的
教育抱负和职业抱负来测量的
这也是一个非常典型的结构方程模型然后我就想办法来
拟合这样一个模型看这
模型里面的每一个箭头它的
大小都分别是多少还有
整个这个模型它是不是成立
这是结构方程模型啊是
非常好玩的
一种模型而且在我们社科之中它其实有
很大的功效
当然这里面我只是特别特别快的介绍性地给大家
告诉大家有这样一种方法的存在
然后这个就是我
很有限的时间给大家特别短地介绍一下
其它的这个多元统计方法当然
还有好多好多比如计数模型比如说
生存分析或者叫做
事件历史模型
还有针对追踪数据的
这个重复测量问题啊
好多好多具体的很有意思的模型
针对你以后学习的需求啊你自己比如说
做论文的需求
你会可能对更高级的统计方法有
更大的需求
当那个时候呢
一定要静下心来
根据你自己数据的特征
找到相关的内容仔细阅读啊
然后再做一个统计分析
还是那句话就是统计软件会很快
的给你报出结果但这个报出的结果是不是
有意义我们就不好说了
这是关于
其它的多元统计方法
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video