当前课程知识点:基于R语言的社会统计分析 > 第十一章:多元回归 > 11.1 多元线性回归概述 > Video
在实际研究中呢影响一个变量的潜在因素
可能有好多好多
我们之前讲简单的一元线性回归的时候
用到的是一种最最简单的假设也就是说
影响y的因素只有x这么一个
那实际研究中我们有好多个x的情况怎么办呢
我们就要用多元回归方法了
我们举一个例子
刚才我们说广告数据的时候我们说
影响销量的因素
是电视
我们关注的是电视的广告投入和销量有没有关系
是电视
我们关注的是电视的广告投入和销量有没有关系
那如果在电视之外呢
我们又认为广播可能有点作用
报纸有点作用对吧这就是额外的三个因素了
那当然除了广告这件事以外
很多其他的因素都会影响产品的销量
比如说产品的质量
比如说市场需求等等等等
这时候呢
我们用一元回归就不足以回答我们的研究问题
于是
本周我们就来介绍构建多元回归模型的相关内容
以及在整个构建模型的过程中
可能出现的问题
好下面我们来看一下
多元线性回归的这个模型表达式
它其实和一元简单线性回归呢是类似的
只不过等式的右边又加入了几个自变量
那么现在呢我们就用Xj
来代表第j个自变量
那
为什么用字母j呢因为
以前我们用i
用i的话是表示样本中的第几个观测值
或者是第几个研究对象
那为了防止和这个研究对象混淆
我们用j来代表模型里面加入的
第几个自变量
那对应的
βj呢就代表
各自变量和响应变量之间的数值关系
如果我们用比较严格的这个
语句来解释它就是说
我们将βj解释为
在其他的自变量都保持不变的情况下
Xj增加一个单位
y的平均增长量
也就是其他变量保持不变Xj增加一个单位
y的平均增长呢应该就是βj个单位
那下面我们来看一看
怎么样来估计回归系数
那同样和前面讲
一元回归的时候一样
我们首先呢假设说我们知道
回归系数的估计值分别是多少
这里面多了一些我们用β0(hat)
β1(hat)一直到βp(hat)来
表示
多元回归模型的系数估计值
然后我们可以根据以下的这个公式进行预测
那我们就有这么一个很直观的关系
把β0β1β2一直到βp的取值
代进去
把β0β1β2一直到βp的取值
代进去
y(hat)就等于后面这一坨东西
这个把它们加和
那我们的任务就是要找到
β0一直到βp的取值
已使得残差平方和
达到最小值
实际上也是我们想找到
一系列取值使得我们找到的这个多元回归模型
到达各个观测点
之间的距离是最
小的最短的
那RSS呢就等于yi减去yi(hat)
的平方把它们都加和
这里面再复习一下yi指的是什么
它指的是具体的观测值
第i个个体
来自于第i个个体的响应变量的取值
那yi(hat)呢
就是根据回归模型而得出的预测值
术语经常我们讲观测值预测值
观测值预测值
或者叫观测值估计值
yi(hat)有的时候叫预测值有的时候叫估计值
说的都是一个意思
那下面呢
我们就把yi(hat)的具体取值代进去
我们有
β0(hat)Xi1
然后β2(hat)Xi2
一直都带进去救了RSS这个表达式
然后同样呢
和之前一样我们就分别的求各种的偏导
然后就得出了β0β1β2的
最小二乘估计的回归系数
那
可能没有之前那么直观
之前我们一大堆点然后找一条线然后就说
这个最小二乘估计值一定是
找到了一条线
代到各点之间的距离是最短的
那
多元的回归模型呢比较难以把它视觉化
那我们这里面呢
使了半天劲最多我们能
给大家演示一下假设我有两个自变量的时候
的情况就是一个虚拟的数据
假设我有两个自变量x1和x2
那我实际上由线就变成了面
我找到了一个面板
这个面板
它应该是到这个立体的三维空间里面的各点
的距离是最短的
大家看到那个板上它离
每一个
每一个观测点都有一个垂直的距离
我关注的就是这个垂直距离
的平方和应该是最小的
那我们
看一下用R软件它自动就会给你找出
多元回归的每一个系数的取值
那
广告这个数据为例
我之前只关注的是
在电视广告上投入的
预算和销量的关系
现在我不光关注电视了
我还要看广播我还要看报纸
我关注的是这三个媒体
它们分别与销售
我关注的是这三个媒体
它们分别与销售
量的关系是什么
然后你们看得出的第一个表格
是一个多元回归
模型的估计
系数2.939然后
TV是0.046
然后radio的系数呢是0.189
newspaper-0.001但是你要注意一下
newspaper它的p值是
不显著的
它等于0.8599
它等于0.8599那就说明
对于销量的贡献呢主要来自于
收音机和电视
那我们看看如果说我
不做多元回归我分别一对一的一打一的
恩
首先我们上节课讲了电视和销量的关系
那下面我看看
收音机和销量的关系
等于0.203然后关系也是显著的
那下面继续看报纸和销量的关系呢
这个时候就不是负的而且是不显著的关系了
它等于0.055
说明
这个
报纸的投入增加一个单位
销量可以增加到0.055不太显著
那有的同学就
不理解了
你分别一对一的做一元的简单线性回归的时候
你证明了一个显著的关系
那怎么放到多元回归里面就不显著了呢
我们可以用一个相关系数表来解释这件事
看看这是三个变量分别
与响应变量之间的一个相关系数矩阵
英文叫做correlation matrix
不要一说矩阵你们就害怕
实际上很简单
这个所谓的矩阵就是一个表格
这个表格里面的每一个数字
代表的是它所对应的那个行的变量
和那个列的变量的相关系数
相关系数是我们之前
上上结课讲过的
研究的是两个变量之间的相关关系
那我们首先看
电视和
收音机的投入我的关系是0.0548
还不到0.1呢说明
虽然有关系但好像没有那么强
我们管它叫做一个弱的相关关系
然后
电视和报纸也没有特别强
当然你看这是电视和最后响应变量0.78
很强的相关关系
那下面呢
这是
收音机和报纸的相关关系
0.35
在实际数据中其实0.35已经算是一个比较强的相关关系
说明什么
说明一个市场中如果
它在收音机上
有所投入那很可能它在
报纸上
也有所预算就是说
如果做广告我既然已经在报纸上做了我就会在
广播里面做或者是
既然在广播里面做了我也会在报纸上做
就是这两个媒体通常是绑定的
那它们两个存在着比较
强的相关会
导致什么问题呢
就是
三个变量之间都有相关就是
报纸收音机还有总的销量都特别相关
你放到一个回归模型里面我就分不清楚
到底这个对于销量的贡献是来自于谁了
你radio和newspaper总是绑在一起的
我怎么知道最后销量的增加
到底是来自于收音机的还是来自于报纸的
所以这就是后面我们会讲共线性的问题
当你的模型里面的自变量相关程度特别高的时候
所以这就是后面我们会讲共线性的问题
当你的模型里面的自变量相关程度特别高的时候
你实际上是没法区分这个影响到底是来自于谁的
那刚才那个例子呢就
因为这个radio的影响更加显著
所以它这个newspaper就被消除了
就说明实际上对于销量的影响
最主要的是来自于收音机
那下面再
强化一下这个问题
我们想一个很极端的例子
这是我们统计建模里面经常经常要面临的问题
就是说我这模型里面一定
要试图找到真正与y相关的
而不是简单地看到一个相关系数是大数是
是显著的我就认为
这个理论上这两个事确实就相关了
这是有一个很极端的例子假设说
有一个时期内我们
关注了这个海滩
在某一个海滩的鲨鱼袭击人的这个数量
然后同时我还关注了这个海滩的冰淇淋的销量
然后我做了一个回归
发现
如果说我使这个鲨鱼袭击数为响应变量
然后冰淇淋销量为自变量的时候
我搭了一个简单的线性回归模型发现哎呦
它们是正相关关系
也就是看似
冰淇淋的销量增加
鲨鱼的袭击数就会增加
那我问你这个关系成立吗
就是说鲨鱼的袭击数
真的是和冰淇淋的销量有关系的吗
那如果说我在考虑另外一个变量呢
温度
温度高的时候大家倾向于去海滩
游泳
大家也倾向于吃冰淇淋
所以谁是真正起主导作用那个因素呢
应该是温度
这个时候就发明就是有一个真正的最有劲的那个变量
它温度
它是温度同时影响着两件事
温度影响冰淇淋销量温度也影响鲨鱼袭击
所以这个时候如果你要建模的时候
一定要留住主要矛盾
从理论入手
不要光从数据上一看说哦
这两个变量
正相关关系我就可以下结论了
一定要先从理论着手看看这件
事情从理论上从逻辑上说的通说不通
这是一个关于鲨鱼袭击
还有冰淇淋还有温度
这三件事之间关系的这么一个比较极端的例子来
给大家讲解一下
我们在建立多元回归模型的时候比较讨厌
把这个
本身高度相关的两个自变量
这么随意的就扔到模型里面
这个
多元回归模型不是神话它没有办法
很清楚的区分
你真正想证明的那个事情
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video