当前课程知识点:基于R语言的社会统计分析 >  第十一章:多元回归 >  11.1 多元线性回归概述 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

在实际研究中呢影响一个变量的潜在因素

可能有好多好多

我们之前讲简单的一元线性回归的时候

用到的是一种最最简单的假设也就是说

影响y的因素只有x这么一个

那实际研究中我们有好多个x的情况怎么办呢

我们就要用多元回归方法了

我们举一个例子

刚才我们说广告数据的时候我们说

影响销量的因素

是电视

我们关注的是电视的广告投入和销量有没有关系
是电视

我们关注的是电视的广告投入和销量有没有关系

那如果在电视之外呢

我们又认为广播可能有点作用

报纸有点作用对吧这就是额外的三个因素了

那当然除了广告这件事以外

很多其他的因素都会影响产品的销量

比如说产品的质量

比如说市场需求等等等等

这时候呢

我们用一元回归就不足以回答我们的研究问题

于是

本周我们就来介绍构建多元回归模型的相关内容

以及在整个构建模型的过程中

可能出现的问题

好下面我们来看一下

多元线性回归的这个模型表达式

它其实和一元简单线性回归呢是类似的

只不过等式的右边又加入了几个自变量

那么现在呢我们就用Xj

来代表第j个自变量

为什么用字母j呢因为

以前我们用i

用i的话是表示样本中的第几个观测值

或者是第几个研究对象

那为了防止和这个研究对象混淆

我们用j来代表模型里面加入的

第几个自变量

那对应的

βj呢就代表

各自变量和响应变量之间的数值关系

如果我们用比较严格的这个

语句来解释它就是说

我们将βj解释为

在其他的自变量都保持不变的情况下

Xj增加一个单位

y的平均增长量

也就是其他变量保持不变Xj增加一个单位

y的平均增长呢应该就是βj个单位

那下面我们来看一看

怎么样来估计回归系数

那同样和前面讲

一元回归的时候一样

我们首先呢假设说我们知道

回归系数的估计值分别是多少

这里面多了一些我们用β0(hat)

β1(hat)一直到βp(hat)来

表示

多元回归模型的系数估计值

然后我们可以根据以下的这个公式进行预测

那我们就有这么一个很直观的关系

把β0β1β2一直到βp的取值

代进去
把β0β1β2一直到βp的取值

代进去

y(hat)就等于后面这一坨东西

这个把它们加和

那我们的任务就是要找到

β0一直到βp的取值

已使得残差平方和

达到最小值

实际上也是我们想找到

一系列取值使得我们找到的这个多元回归模型

到达各个观测点

之间的距离是最

小的最短的

那RSS呢就等于yi减去yi(hat)

的平方把它们都加和

这里面再复习一下yi指的是什么

它指的是具体的观测值

第i个个体

来自于第i个个体的响应变量的取值

那yi(hat)呢

就是根据回归模型而得出的预测值

术语经常我们讲观测值预测值

观测值预测值

或者叫观测值估计值

yi(hat)有的时候叫预测值有的时候叫估计值

说的都是一个意思

那下面呢

我们就把yi(hat)的具体取值代进去

我们有

β0(hat)Xi1

然后β2(hat)Xi2

一直都带进去救了RSS这个表达式

然后同样呢

和之前一样我们就分别的求各种的偏导

然后就得出了β0β1β2的

最小二乘估计的回归系数

可能没有之前那么直观

之前我们一大堆点然后找一条线然后就说

这个最小二乘估计值一定是

找到了一条线

代到各点之间的距离是最短的

多元的回归模型呢比较难以把它视觉化

那我们这里面呢

使了半天劲最多我们能

给大家演示一下假设我有两个自变量的时候

的情况就是一个虚拟的数据

假设我有两个自变量x1和x2

那我实际上由线就变成了面

我找到了一个面板

这个面板

它应该是到这个立体的三维空间里面的各点

的距离是最短的

大家看到那个板上它离

每一个

每一个观测点都有一个垂直的距离

我关注的就是这个垂直距离

的平方和应该是最小的

那我们

看一下用R软件它自动就会给你找出

多元回归的每一个系数的取值

广告这个数据为例

我之前只关注的是

在电视广告上投入的

预算和销量的关系

现在我不光关注电视了

我还要看广播我还要看报纸

我关注的是这三个媒体

它们分别与销售
我关注的是这三个媒体

它们分别与销售

量的关系是什么

然后你们看得出的第一个表格

是一个多元回归

模型的估计

系数2.939然后

TV是0.046

然后radio的系数呢是0.189

newspaper-0.001但是你要注意一下

newspaper它的p值是

不显著的

它等于0.8599

它等于0.8599那就说明

对于销量的贡献呢主要来自于

收音机和电视

那我们看看如果说我

不做多元回归我分别一对一的一打一的

首先我们上节课讲了电视和销量的关系

那下面我看看

收音机和销量的关系

等于0.203然后关系也是显著的

那下面继续看报纸和销量的关系呢

这个时候就不是负的而且是不显著的关系了

它等于0.055

说明

这个

报纸的投入增加一个单位

销量可以增加到0.055不太显著

那有的同学就

不理解了

你分别一对一的做一元的简单线性回归的时候

你证明了一个显著的关系

那怎么放到多元回归里面就不显著了呢

我们可以用一个相关系数表来解释这件事

看看这是三个变量分别

与响应变量之间的一个相关系数矩阵

英文叫做correlation matrix

不要一说矩阵你们就害怕

实际上很简单

这个所谓的矩阵就是一个表格

这个表格里面的每一个数字

代表的是它所对应的那个行的变量

和那个列的变量的相关系数

相关系数是我们之前

上上结课讲过的

研究的是两个变量之间的相关关系

那我们首先看

电视和

收音机的投入我的关系是0.0548

还不到0.1呢说明

虽然有关系但好像没有那么强

我们管它叫做一个弱的相关关系

然后

电视和报纸也没有特别强

当然你看这是电视和最后响应变量0.78

很强的相关关系

那下面呢

这是

收音机和报纸的相关关系

0.35

在实际数据中其实0.35已经算是一个比较强的相关关系

说明什么

说明一个市场中如果

它在收音机上

有所投入那很可能它在

报纸上

也有所预算就是说

如果做广告我既然已经在报纸上做了我就会在

广播里面做或者是

既然在广播里面做了我也会在报纸上做

就是这两个媒体通常是绑定的

那它们两个存在着比较

强的相关会

导致什么问题呢

就是

三个变量之间都有相关就是

报纸收音机还有总的销量都特别相关

你放到一个回归模型里面我就分不清楚

到底这个对于销量的贡献是来自于谁了

你radio和newspaper总是绑在一起的

我怎么知道最后销量的增加

到底是来自于收音机的还是来自于报纸的

所以这就是后面我们会讲共线性的问题

当你的模型里面的自变量相关程度特别高的时候
所以这就是后面我们会讲共线性的问题

当你的模型里面的自变量相关程度特别高的时候

你实际上是没法区分这个影响到底是来自于谁的

那刚才那个例子呢就

因为这个radio的影响更加显著

所以它这个newspaper就被消除了

就说明实际上对于销量的影响

最主要的是来自于收音机

那下面再

强化一下这个问题

我们想一个很极端的例子

这是我们统计建模里面经常经常要面临的问题

就是说我这模型里面一定

要试图找到真正与y相关的

而不是简单地看到一个相关系数是大数是

是显著的我就认为

这个理论上这两个事确实就相关了

这是有一个很极端的例子假设说

有一个时期内我们

关注了这个海滩

在某一个海滩的鲨鱼袭击人的这个数量

然后同时我还关注了这个海滩的冰淇淋的销量

然后我做了一个回归

发现

如果说我使这个鲨鱼袭击数为响应变量

然后冰淇淋销量为自变量的时候

我搭了一个简单的线性回归模型发现哎呦

它们是正相关关系

也就是看似

冰淇淋的销量增加

鲨鱼的袭击数就会增加

那我问你这个关系成立吗

就是说鲨鱼的袭击数

真的是和冰淇淋的销量有关系的吗

那如果说我在考虑另外一个变量呢

温度

温度高的时候大家倾向于去海滩

游泳

大家也倾向于吃冰淇淋

所以谁是真正起主导作用那个因素呢

应该是温度

这个时候就发明就是有一个真正的最有劲的那个变量

它温度

它是温度同时影响着两件事

温度影响冰淇淋销量温度也影响鲨鱼袭击

所以这个时候如果你要建模的时候

一定要留住主要矛盾

从理论入手

不要光从数据上一看说哦

这两个变量

正相关关系我就可以下结论了

一定要先从理论着手看看这件

事情从理论上从逻辑上说的通说不通

这是一个关于鲨鱼袭击

还有冰淇淋还有温度

这三件事之间关系的这么一个比较极端的例子来

给大家讲解一下

我们在建立多元回归模型的时候比较讨厌

把这个

本身高度相关的两个自变量

这么随意的就扔到模型里面

这个

多元回归模型不是神话它没有办法

很清楚的区分

你真正想证明的那个事情

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。