当前课程知识点:基于R语言的社会统计分析 >  第十一章:多元回归 >  11.2 多元线性回归 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

好现在我们来看在

构建多元线性回归模型的时候

我们需要面对的几个非常重要的问题

首先我们要回答就是

我们在模型中放入了很多个自变量

是不是几个自变量X1X2一直到Xp中

至少有一个与响应变量有关

就是说

我们不求所有的自变量都和响应变量有关

起码我们

要求很低非常谦虚的一个要求

至少我们搭建这个模型中有一个x是有用的

第二个问题是是否所有的自变量

都可以用来解释y

还是仅仅有他们中的一个子集有作用

就是有一些x是没用的

有可能考虑从模型中剔除

那第三个问题就是

模型对于我们实际数据的拟合程度到底有多高

那第四个问题呢就是说

给定自变量的取值

响应变量的预测值应该是多少

那么和之前

讲简单线性回归的时候一样

我们想知道这个预测值的准确性到底怎么样

那下面我们一个一个问题来看

首先第一个问题就是

自变量与响应变量间是否有关

或者说更谦虚的说是不是至少我们的模型中

有一个自变量是对y可以产生一些影响的

那原假设呢就是β1β2一直到

βp

都等于0

注意这里面不包括β0

β0是截距就是说y无论如何还是有个均值的

我们关注的是自变量和

响应变量的关系

那备择假设呢

是至少有一个βj是非0的

然后我的检验统计量

上节课我们留了一个扣

我们说这个F检验呢

我们这节讲多元回归的时候会有所提及

这个F检验就是用来验证这么多的自变量中

是不是至少有一个

与y是有关的

F应该等于TSS减RSS除以p

除以RSS除以n减p减1

这里面要清楚这些字母分别都代表什么

tss代表的是
这里面要清楚这些字母分别都代表什么

tss代表的是total sum square

如果你们还记得代表的是总平方和

就是y的整个的变异情况

RSS呢residual sum square

残差平方和也就是说

线性模型所不能解释的那一部分

TSS减RSS呢

就是剩下我们可以解释的那一部分

可以由线性模型解释的部分

然后除以p

p代表的是有多少个自变量

对吧所以TSS减RSS除以p呢

相当于

每一个

自变量对y的一个贡献

我们看分母

RSS除以n减p减1

代表的是

平均的不能解释的那一部分

残差平方和的一个均值

那如果说我们之前的线性假设是正确的

这一定有一个前提

如果说你的模型根本就不符合线性假设

那这个F检验就没有什么意义了

这如果说线性假设是正确的话

实际上我们可以从理论上证明
这如果说线性假设是正确的话

实际上我们可以从理论上证明

分母对它求期望的话

应该等于σ方

然后分子对它求期望的话

当然分子还要要求原假设为真的情况下

分子TSS减RSS除以p

对它求期望也应该等于σ的平方

那你想想如果说

原假设为真

如果原假设为真分子分母的

期望值是一样的

那所以

就会面对一个在1附近的这么一个数了对吧

那如果说

原假设为假就是说

自变量对y是有影响的

那我们就会面临大部分的

这个变异可以由模型解释

那你的分子就会变得很大很大

所以说F值越大

那就说明我们有更多的证据

证明至少有一个自变量是和

响应变量产生关联的

然后下面我们看一个例子

仍然还是广告数据的例子

那个例子里面呢我们放上了

电视报纸和广播的广告预算

和销量的关系

然后我们之前说RSE等于1.69

然后R方呢等于0.897

也就是说y的变异中

有将近89.7%将近90%可以由

模型所解释

那F检验统计量等于570了

这个数是和1做比的

570和1差那么远

说明我们有足够的证据证明

至少我这个模型中有一个变量

使对y产生影响

或者是和y有关联的

那我们下面思考一个问题

就是说

既然我们已经有了

针对每个变量与响应变量外的

一一的检验

就是对每一个变量我都会

上节课我们

刚才我已经讲过了

每一个变量都有一个对应的p值

为什么我们还需要检查F检验呢

就是似乎只要有一个p值是显著的

我们不就已经有足够的证据证明

至少有一个自变量与因变量相关了吗

你干嘛还在生成一个

号称这个overall statistic

一个F检验统计量

然后来这个

一番周折还要证明是不是至少有一个变量有作用呢

实际上这个

逻辑推理是有一点瑕疵的尤其是

当我们的p值

这里面的p值指的是

模型里面自变量的数量

当模型里面的自变量的数量很多的时候

这个逻辑推理就有点问题了

为什么呢我们来看一看

假设说

你有一百个自变量

当然是比较又是比较极端的情况了

假设说

它跟均与响应变量没有关系

都是等于0的

就是βj都等于0

那在这种情况下

大概有5%的

P值

可能仅仅是因为样本随机性的缘故

小于0.05就是说

弃真的概率记不记得

就是当原假设为真我们却把它拒绝的概率

有5%

这是第一类错误的概率

这假设说你有一百个自变量

仅仅是因为样本的随机性

我们可能不小心拒绝了

5%的原假设

然后得出来说

就是在整个的这一百个p值里面

有5%的p值可能告诉你们说

这五个自变量是有作用的

但其实它们是假的就是说

我们在用样本推测总体的过程中

犯错了

所以为了

这个剔除

这种随机性的影响我们要

更稳妥的再做一个检验用

F检验来总体的看一看是不是至少有一个

自变量对y是有影响的

好这是关于第一个问题

很谦虚的一个假设

有的同学在做完回归以后发现

F值是显著的特别高兴

说我这个模型特别好

你一定要注意F检验其实

并不是特别有力的

它特别谦虚

它就是想看看我这个模型

千错万错是不是至少有一个x

值还是有用的

所以这是F值它的意思

然后下面

选择重要变量的问题

我们关注的是所有的x值都管

都对y有影响都和y有关的还是只有一部分有关

那理想情况下

怎么来决定

到底哪些x值

与y的关联程度最强呢

我们可能要进行一些

模型的选择

我们希望通过尝试建立不同的模型

来对变量进行选择

那最好的模型呢可以由不同的统计量来评价

这是模型比较的问题

那比较模型的时候统计量很多了

我们之前有R方可以进行模型比较

我还有一些统计量

有叫Mallow's Cp

有AIC BIC还有一个调整后的R方

这都是可以用到的

我们这节课就不展开来讲了

但是

在比较不同模型的时候又产生了一个新问题

假设说

一个模型有p个潜在的自变量

p个潜在的自变量

会产生多少个候选模型呢

如果说你真的要特别严谨的

每一种排列组合我都要尝试一下

一定要找出个最漂亮的模型

那我可以产生出R的p次方个候选模型

那假设说

你有三十个候选的变量

P等于30

那2的30次方等于多少呢

等于这么长的数

你们自己可以看看这

这是百万千万的

量级

这么多个模型

你怎么样来选择到底哪个是最好的呢

于是乎计算机技术有所发达

我们发展

我们需要一些高效的自动选择模式

那就有了以下的三种经典的方法

第一种

叫做前向选择

就是说一个一个自变量加进去

然后backward selection就是

我尝试把所有的

变量先都加进去

然后一个一个的往下减

然后第三种混合式选择

一方面相加一方面相减

看他们两个什么时候相遇

我讲的非常的快速

一带而过

为什么呢

我们这门课是社会科学统计分析

在社会科学统计分析上

尤其是社会学的问题

社会科学的问题的时候

其实

选择重要的模型一个完美的模型
其实

选择重要的模型一个完美的模型

可能并不是我们最重要的要求

为什么呢

我们社会科学经常想研究关系

在研究关系之前我们都一般会有一些

理论假设

所以

有同学老来问

说我发现有一些变量不显著了

我在最后的模型中要不要报

我经常说这一定关系到你的研究问题

如果你的研究问题就是想看看

某两个变量是不是有相关关系的话

你不妨就把它留在模型里

即使是不显著也是你的研究发现

我们不是做经济时间序列

做经济学的问题一定要做特别精准的预测

那在社会科学的问题上

社会学研究里面

我通常只是想做一个验证
社会学研究里面

我通常只是想做一个验证

就是说我的实际数据和我的理论是不是相符

在这种情况下

你都会有一些鲜艳的
在这种情况下

你都会有一些鲜艳的

就是根据理论生成自变量的选择

那通过理论

我建了一个模型

发现有些自变量是显著的

有些是不显著的

那这就是我的研究发现

可能没有你想象的那么复杂

当然你也需要知道

当如果说你的

重点就放在我要一个特别完美的模型的时候
当如果说你的

重点就放在我要一个特别完美的模型的时候

那你可以用前向选择后向选择或者是

混合

混合选择来

完成这个最好的模型的生成

好第三个重要问题

我关注的就是

模型的拟合问题了

就是我想知道

我的模型对实际数据的拟合程度

到底有多高

那你会看到这两个所谓的

重要的数值测量
那你会看到这两个所谓的

重要的数值测量

实际上和我们

一元线性回归的那两个测量值是一模一样的

就是RSE和R方

RSE呢刚才在一元的时候我们用的是

n减二分之一乘以RSS

那这里面呢我们就变成n减p减1

你们看当如果说你只有一个自变量的时候

p就是1

那就回到原来n减二分之一的状态

如果是有多个自变量呢

直接代这个公式就好了

然后当然RSE仍然还有一个问题

就是和 单位是一致的
然后当然RSE仍然还有一个问题

就是和y的单位是一致的

所以比较难以给出一个

很清楚的区分

RSE多大是大

多小是小

于是乎我们还是需要R方

那R方的原则还是一样

就是越接近于1说明模型的拟合程度越好

当然有的时候

我们也可以再画一些图形来对

模型的拟合程度进行一些

评价我们看

你们现在看到这张图

如果我问你

通过这张图

你告诉我这个模型

拟合的程度怎么样呢

我不知道你们可不可以看出来实际上

在这个立体空间中

我们单看电视和收音机对于销售的作用

其实感觉它并不是一个纯线性的

尤其是你看到中间那个

这一部分

看到底下

大部分的观测值

都远远的小于预测值

而在

电视和广播的销量在两极的时候

当广告预算非常小

和广告预算很多的情况下

它的观测值呢都大于预测值

而在中间这部分呢

观测值都小于预测值

这就说明了好像有一个

非线性的特征被我们错过了

这是图形的帮助

通过这个可视化的方法

你可能会对你模型的拟合有一些更好的理解

好第四个问题就是预测问题了

预测呢

一定要首先要确定就是说我们

做的这个预测

一定是有

有不确定性的我们经常说

统计学和数学最大的区别就是我们不是要

找一个函数关系

我们要研究随机性

那随机性呢就是要研究不确定性

有的人直接说

说概论与数理统计就是研究不确定性的学科

那预测值一定有不确定性

它的不确定性来自于三个途径

有三个来源

第一种来源首先

说了很多遍了我们是用样本来估计总体

我们是用小小的样本

去估计大大的总体的特征

于是乎系数用β0(hat)

β1(hat)到βp(hat)

估计β0β1βp就是

一种不确定性

那另外第二种不确定性

在实际中

我们说我们

各变量之间的关系

用一个线性函数来表达

实际上这一定是对现实的一种

近似

有时候会有更加复杂的模型的形式

这个时候就会造成了一个对现实简化的一种

可以被削减的误差的产生

这个时候叫做模型误差

建模是一门艺术

有的时候

我们后面

如果你去学更高级的统计学有一些

非线性的模型的拟合

当我们计算技术高了以后我可以

对于

现实的数据做特别特别好的近似

但如果说你对现实数据做了特别好的近似

划出了非常波折的曲线了以后

你可能丧失了一些推广性

就是说你一定要在特别具体的对

现实数据百分之百的拟合

和一种理论上的推广性之间做出抉择

我们

用一个线性函数

是因为它特别直观能够特别清楚的表达出

两个变量之间的关系

是一种选择性的牺牲

所以这个时候就造成了一种可以被削减的误差

叫做模型误差

那下面另外有一种误差

即使说

我们得到了总体的真实值

就现在我不是用一个样本来估计总体了

我就是用总体所有的数据

建立了一个多元线性回归模型

求出了真实值β0β1βp

但不要忘了我还是有一个随机误差项或者叫残差项

epsilon的存在

所以响应变量

也没有办法被准确的预测

我们将其称之为

不可削减的误差叫irreducible error
我们将其称之为

不可削减的误差叫irreducible error

这是预测的问题

好四个重要问题讲完了我们还

稍微讲一个在建模的过程中的小问题

就是自变量如果是定性型变量

你要注意的事情

这个

自变量并不可能像你这个想象中那么美好

永远是定量型的

连续型的

那定性型的变量在社会科学中

太常见了我们经常要面临

性别

面临族裔啊婚姻状况等等

下面我们看一个例子

这是一个关于信用卡

欠账情况的影响因素的例子

我们有一套数据

就是说信用卡的数据记录了余额

这个balance

或者叫做个人信用卡平均欠账情况

和一些定性型变量之间的关系的情况

我们的一些定量型自变量

这些自变量呢有age年龄

有cards就是这个人到底

有多少张信用卡

然后education这个人的受教育年限

他的收入单位是用千美元来表示

还有limit是卡的限额

我们经常信用卡是有限额的

刷过了就刷爆了

然后rating信用评级

另外我还有四个定性型变量

分别是gender

然后student学生状态

status这里面代表的是婚姻状态

还有ethnicity代表的是族裔

这个人是白人是非洲裔还是亚裔

这是我有这么多变量的情况

有的时候我在建模之前

会很自然地画一个

散点图矩阵

看这散点图矩阵长成什么样子

我们看

首先第一个格对的是balance

我们其实直接可以看第一行的图

第一行的图就显示的是响应变量

和各个自变量之间的关系

首先我们看第一个图

代表的是欠账和年龄的关系

这张图如果我问你你看出什么趋势了吗

这是一个我感觉是典型的

点散落各处的一张图

也就是说你不能很清楚的看出

年龄和欠账情况有什么关系

那cards

这个卡数和欠账情况有关系吗

也看不出特别明显的关系

然后下面呢是教育水平和欠账情况的关系

那这张图这是income

这个收入和欠账情况的关系

你会发现

收入越高

欠账balance越高

说明什么呢说明消费越多

就是你的收入越高消费越高

成一个大致的线性关系

这个向上的趋势

那下面limit这个趋势就更明显了

我们看好像

如果在这画一条线的话

会感觉这个点更紧密的团结在这个线轴

也就是点和线之间的距离可能更近

代表的是

限额和欠账情况的关系

和balance的关系

就是你的卡自然是卡的限额越高

你刷的越狠于是乎欠账越多

那这个呢

类似的rating信用评级

因为信用评级高

所以卡的限额会比较高

所以你的欠账也会更多

这是大致看到的关系

然后下面

这是定量型变量比较好看

我还有定性型变量呢

定性型变量怎么处理呢

很多同学都听说过虚拟变量对吧

我们就以一个

由两个分类或者两个水平的虚拟变量为例

我们

只需建立一个有两种可能取值的虚拟变量

来代表这个定性变量

这个虚拟变量叫dummy variable

假设说基于性别这个变量

我们可以建立一个新的变量

叫做Xi

这个Xi等于

1的时候代表的是

第i个观测值是女性

然后

Xi等于0的时候代表

第i个观测值是男性

于是乎假设说我的模型中

只有性别这么一个自变量的时候

就会有两种情况

当这个人是女性的时候

yi就应该等于β0加上β1加上epsilon i
当这个人是女性的时候

yi就应该等于β0加上β1加上epsilon i

然后当

这个人是男性的时候Xi等于0

这一部分就没有了

于是乎就变成了β0加上epsilon i

那现在我问你β1要怎么解释呢

我如果是定量型变量

我把它解释成x增加一个单位

y增加β1个单位

那如果是定性型变量就比较难解释了

也不是比较难解释就不能用

X增加一个单位了

β1代表的是

男性和女性之间的差别

就是男性和女性

在y值上的差别

这里面也就是说
在y值上的差别

这里面也就是说

假设我的yi是余额

在这里面我们可以说

女性的余额

女性的欠账情况

比男性多β1

当然如果是

β1是负的话就是反的了

就是少了

这是虚拟变量

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。