当前课程知识点:基于R语言的社会统计分析 > 第十章:简单线性回归 > 10.2 模型系数估计 > Video
那在实际的研究中呢β0和β1是代表总体的特征
我们是不知道的于是乎需要用
样本的数据去估计它们
有的人甚至直接说
说我做回归的目的就完全是求β0和β1的取值
当然这是把问题过分简化了啊
那β0和β1的取值呢
是我们
做回归分析的一个
很重要的部分那怎么求它们呢
我们假设啊
x1y1x2y2一直到xnyn呢
代表的是n对样本的观测值
假设说我的样本里面有n个人或者像刚才广告数据里讲的
有n个市场
那x1和y1呢代表的就是来自第一个样本的
x的取值和y的取值
于是乎在广告数据的这个例子里面呢
数据就包含了来自n等于200个不同的市场的
广告预算和产品销量的数据
那广告预算呢就是x的取值
然后y呢对应的就是产品销量
我希望了解
广告预算和产品销量之间到底有没有一个线性关系
然后我们的目标呢是通过这200个
样本的数据去估计
β0和β1的取值
那我们的目标是找到
某一对取值使得线性模型呢能够最好的
拟合现有的数据可能一说拟合
大家都觉得这个词显得远了啊
其实我们就是想找那条线
能够最好地抽象出
x和y之间的关系
找到一条最好的线能代表
一群的观测点
那换言之呢我们希望找到
截距β0hat的取值还有斜率
β1hat的取值
使得我们获得的回归直线
能够尽可能的
接近200个样本点
那我们看图来说话啊
怎么样能够找到一条最好的直线呢
其实我们总说一说回归呢大家就
想到的是最小二乘回归法一说回归就讲的是
OLS叫做 ordinary least square有的同学直接就简称说我要用
OLS法找回归直线
其实为了找到一条
好的直线来代表样本点呢
我们的方法有很多也就是说 衡量这个接近程度
closeness的方法实际上有很多的
而我们所说的最小二乘回归法
只是众多的找这条直线的方法
之一
那恰巧这种方法最直观所以我们
这种方法是最常用的
但这绝对不是唯一的方法后面如果你
有兴趣继续往下学学那些高级统计学你会发现实际上
找这一条线的方法众多而最小二乘回归呢只是最直观最直接最
易懂的方法
那目前呢最常用的方法我们管它叫做最小二乘法则
那你们看这张图啊
红色的点代表的是每一个市场
的样本观测值
每一个点对应的x轴代表的是
这个市场在电视广告上的预算
那它对应的y轴的取值呢就是它的销量
销售了多少个啊
然后我希望找到这条蓝色的曲线
蓝色曲线呢来最好的抽象出整个
这一群点的趋势
然后
我们画出了每一个小红点
到这个蓝线之间的距离啊比如说你看这个点
它到蓝线之间的距离是这么多
那这距离是什么呢
实际上就是我们前面模型里显示的那个ε
随机扰动项
ε
也就是观测值到
回归直线之间的距离
那每一个观测值呢都有一个
和回归直线的
差距都有这么一个ε的距离
那下面的问题就是
什么叫最小二乘回归法啊
就最小二乘的回归
这个最小二乘的回归直线到底怎么
把它找到那假设说yi
等于β0hat
加上β1hat乘以xi
这是什么假设说我们已经
找到了β0和β1的取值
然后把它带到回归模型里面我就会得到一个
响应变量yi的预测值
对吧
这个yi呢就是电视的销量
拿到刚才那个例子里
所以这个yihat
预测值
代表基于第i个x取值的y的
预测值英文叫做prediction
那么它所对应的
随机误差
ei就等于yi减去yihat
这个随机误差是什么呢它等于
观测值yi
不戴帽子就是观测值实际看到的值
那减去预测值yi hat
所以这个代表的是第i个残差叫做residual
然后我们
我们刚才看到啊这张图里面
每一个观测值
都
与它对应的预测值之间存在一个残差差距
我有200个样本的观测值我就有200个残差对吧那下面怎么做呢
我希望把所有的残差加和
当然我们又遇到了正负抵消的问题
实际上我关注的是我这个点
每个点和直线之间到底
相差了多远
那我又不能让它正负抵消
之后我们之前学方差的感觉类似啊
不能让它正负抵消呢我要给它
加个平方
然后再把所有的这些平方加起来
这就是我们说的平方和
叫做residual sum squares简称RSS
那RSS就等于200个残差的平方加和
那前面说ei等于
yi-yi hat
那我把这个关系带到这个公式里
于是乎我就
有了RSS等于
对于第一个样本点我们有对于y1减去
β0hat减去β1 hat乘以x1
平方然后第二个样本点它残差是这么表达的
一直到第n个
刚才那个例子中就是第200个样本点
观测值与预测值之间差距的平方
我们的最终任务是想找到一条直线
它离各观测点的距离越短越好
注意啊我们要找一条直线到各观测点的距离越短越好
那是这是一条什么样的直线呢它应该是使
RSS也就是残差平方和
达到最小的那样一条直线
可以理解吧残差平方和达到最小的直线
那最小二乘法选择呢
可以使RSS达到最小化的β0和β1的取值
到这呢稍微
如果是真是想求的话那需要一些微积分的知识需要求偏导了
那具体怎么求我们
稍微有些超范围我们就
不说了啊有兴趣的同学可以去看
一些相关的教材啊
我们之前指出来的教材实际上
并不是很难我们只是求偏导求偏导呢
这个偏导数等于0啊分别
对x和y求偏导使它的
取值等于0然后再解方程
就得出β1hat和β0hat的取值了
所以这个β1hat等于
这一个东西它就是
关于斜率的
最小二乘法的估计值
然后这个β0hat就是呢就是截距的最小二乘估计
这是我们讲的最小二乘估计值是怎么求出来的
那下面我们看之前的例子啊
广告数据里面
我们实际上把每一个数代到刚才的这两个
小式子里面β1和β0的式子里面
我们可以很轻松的算出
β0的估计值呢等于7.03
那β1hat的估计值呢等于0.045
那下面这两张图呢
看起来有点复杂啊不用太害怕
实际上说的是什么意思呢
就是大家想像一下
实际上
β0和β1的取值
可以有很多很多种啊
就是我们可以无限个
无限种配对
有无限种取值
那每次有一个β0和β1的取值呢我就
会有一个对应的残差平方和
有一个对应的RSS
那我实际上我们的目标呢就是找到某一对
取值使得RSS的
值是最小的那我们看左边这张图啊这张图的意思就是
到红点的位置
横轴是β0不好意思有些看不见啊
横轴实际上是β0
β0纵轴呢是β1
我们要找到β0和β1的某一个
组合使RSS取值最小这个红点实际上
对应的就是
我们右边的这个图的这个
最低点啊然后这一圈
代表的是某一种RSS组合
某一种β0和β1的组合使得
residual sum squares使得平方和呢
等于2.15然后
随着这个组合的变化你看到后面
某一个类型的组合比如到这
β0和β1的这个组合使得RSS的取值达到3
那我们的的目标呢是通过求偏导的过程使得
这个最小化的这个点
被我们找到
那刚才β0=7.03
β1等于0.0475怎么样来解释呢
首先我们看截距啊
截距的意思就是说
如果说我没有任何的广告我在电视广告上没有任何的广告
广告预算
那我们平均认为
可以卖出7.03个产品
那斜率项怎么解释呢就是说增加
一千美金的电视广告预算
与多销售约47.5个产品有关
这是我们更关注的因为我们关注的是
电视广告预算和销售量之间到底有什么关系
或者说你可以说
电视预算增加一美金
然后销量增加0.0475个
因为不太好理解所以我们把它变成1000美金
然后说增加1000美金的话会多销售47.5个
然后这里面我把有关
标红了这是一个很重要
的问题就是我们很多同学在解读
最小二乘回归结果或整个
更广义的回归结果的时候都会说
比如说电视广告预算增加
一美金或者电视广告预算增加1000美金
会导致
销售增加47.5个
这样说呢实际上就有一个很明显的
因果的假设就是我说
x增加会导致
y有什么关系
那其实我们前面说了很多次啊我们的回归关系
实际上这种数学
关系解读的只是一个相关性
所以英文里面的我们看说英文解读它说An additional
$1000 spent on TV advertising is
associated with
selling approximately
47.5......
英文里面对应的解释通常用的是is
associated with 那我们中文的对应也应该解释成
有关是比较严谨的
就是说如果你用导致啊
或者是影响啊这种词都有一个因果的假设在里面
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video