当前课程知识点:基于R语言的社会统计分析 >  第十章:简单线性回归 >  10.2 模型系数估计 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

那在实际的研究中呢β0和β1是代表总体的特征

我们是不知道的于是乎需要用

样本的数据去估计它们

有的人甚至直接说

说我做回归的目的就完全是求β0和β1的取值

当然这是把问题过分简化了啊

那β0和β1的取值呢

是我们

做回归分析的一个

很重要的部分那怎么求它们呢

我们假设啊

x1y1x2y2一直到xnyn呢

代表的是n对样本的观测值

假设说我的样本里面有n个人或者像刚才广告数据里讲的

有n个市场

那x1和y1呢代表的就是来自第一个样本的

x的取值和y的取值

于是乎在广告数据的这个例子里面呢

数据就包含了来自n等于200个不同的市场的

广告预算和产品销量的数据

那广告预算呢就是x的取值

然后y呢对应的就是产品销量

我希望了解

广告预算和产品销量之间到底有没有一个线性关系

然后我们的目标呢是通过这200个

样本的数据去估计

β0和β1的取值

那我们的目标是找到

某一对取值使得线性模型呢能够最好的

拟合现有的数据可能一说拟合

大家都觉得这个词显得远了啊

其实我们就是想找那条线

能够最好地抽象出

x和y之间的关系

找到一条最好的线能代表

一群的观测点

那换言之呢我们希望找到

截距β0hat的取值还有斜率

β1hat的取值

使得我们获得的回归直线

能够尽可能的

接近200个样本点

那我们看图来说话啊

怎么样能够找到一条最好的直线呢

其实我们总说一说回归呢大家就

想到的是最小二乘回归法一说回归就讲的是

OLS叫做 ordinary least square有的同学直接就简称说我要用

OLS法找回归直线

其实为了找到一条

好的直线来代表样本点呢

我们的方法有很多也就是说 衡量这个接近程度

closeness的方法实际上有很多的

而我们所说的最小二乘回归法

只是众多的找这条直线的方法

之一

那恰巧这种方法最直观所以我们

这种方法是最常用的

但这绝对不是唯一的方法后面如果你

有兴趣继续往下学学那些高级统计学你会发现实际上

找这一条线的方法众多而最小二乘回归呢只是最直观最直接最

易懂的方法

那目前呢最常用的方法我们管它叫做最小二乘法则

那你们看这张图啊

红色的点代表的是每一个市场

的样本观测值

每一个点对应的x轴代表的是

这个市场在电视广告上的预算

那它对应的y轴的取值呢就是它的销量

销售了多少个啊

然后我希望找到这条蓝色的曲线

蓝色曲线呢来最好的抽象出整个

这一群点的趋势

然后

我们画出了每一个小红点

到这个蓝线之间的距离啊比如说你看这个点

它到蓝线之间的距离是这么多

那这距离是什么呢

实际上就是我们前面模型里显示的那个ε

随机扰动项

ε

也就是观测值到

回归直线之间的距离

那每一个观测值呢都有一个

和回归直线的

差距都有这么一个ε的距离

那下面的问题就是

什么叫最小二乘回归法啊

就最小二乘的回归

这个最小二乘的回归直线到底怎么

把它找到那假设说yi

等于β0hat

加上β1hat乘以xi

这是什么假设说我们已经

找到了β0和β1的取值

然后把它带到回归模型里面我就会得到一个

响应变量yi的预测值

对吧

这个yi呢就是电视的销量

拿到刚才那个例子里

所以这个yihat

预测值

代表基于第i个x取值的y的

预测值英文叫做prediction

那么它所对应的

随机误差

ei就等于yi减去yihat

这个随机误差是什么呢它等于

观测值yi

不戴帽子就是观测值实际看到的值

那减去预测值yi hat

所以这个代表的是第i个残差叫做residual

然后我们

我们刚才看到啊这张图里面

每一个观测值

与它对应的预测值之间存在一个残差差距

我有200个样本的观测值我就有200个残差对吧那下面怎么做呢

我希望把所有的残差加和

当然我们又遇到了正负抵消的问题

实际上我关注的是我这个点

每个点和直线之间到底

相差了多远

那我又不能让它正负抵消

之后我们之前学方差的感觉类似啊

不能让它正负抵消呢我要给它

加个平方

然后再把所有的这些平方加起来

这就是我们说的平方和

叫做residual sum squares简称RSS

那RSS就等于200个残差的平方加和

那前面说ei等于

yi-yi hat

那我把这个关系带到这个公式里

于是乎我就

有了RSS等于

对于第一个样本点我们有对于y1减去

β0hat减去β1 hat乘以x1

平方然后第二个样本点它残差是这么表达的

一直到第n个

刚才那个例子中就是第200个样本点

观测值与预测值之间差距的平方

我们的最终任务是想找到一条直线

它离各观测点的距离越短越好

注意啊我们要找一条直线到各观测点的距离越短越好

那是这是一条什么样的直线呢它应该是使

RSS也就是残差平方和

达到最小的那样一条直线

可以理解吧残差平方和达到最小的直线

那最小二乘法选择呢

可以使RSS达到最小化的β0和β1的取值

到这呢稍微

如果是真是想求的话那需要一些微积分的知识需要求偏导了

那具体怎么求我们

稍微有些超范围我们就

不说了啊有兴趣的同学可以去看

一些相关的教材啊

我们之前指出来的教材实际上

并不是很难我们只是求偏导求偏导呢

这个偏导数等于0啊分别

对x和y求偏导使它的

取值等于0然后再解方程

就得出β1hat和β0hat的取值了

所以这个β1hat等于

这一个东西它就是

关于斜率的

最小二乘法的估计值

然后这个β0hat就是呢就是截距的最小二乘估计

这是我们讲的最小二乘估计值是怎么求出来的

那下面我们看之前的例子啊

广告数据里面

我们实际上把每一个数代到刚才的这两个

小式子里面β1和β0的式子里面

我们可以很轻松的算出

β0的估计值呢等于7.03

那β1hat的估计值呢等于0.045

那下面这两张图呢

看起来有点复杂啊不用太害怕

实际上说的是什么意思呢

就是大家想像一下

实际上

β0和β1的取值

可以有很多很多种啊

就是我们可以无限个

无限种配对

有无限种取值

那每次有一个β0和β1的取值呢我就

会有一个对应的残差平方和

有一个对应的RSS

那我实际上我们的目标呢就是找到某一对

取值使得RSS的

值是最小的那我们看左边这张图啊这张图的意思就是

到红点的位置

横轴是β0不好意思有些看不见啊

横轴实际上是β0

β0纵轴呢是β1

我们要找到β0和β1的某一个

组合使RSS取值最小这个红点实际上

对应的就是

我们右边的这个图的这个

最低点啊然后这一圈

代表的是某一种RSS组合

某一种β0和β1的组合使得

residual sum squares使得平方和呢

等于2.15然后

随着这个组合的变化你看到后面

某一个类型的组合比如到这

β0和β1的这个组合使得RSS的取值达到3

那我们的的目标呢是通过求偏导的过程使得

这个最小化的这个点

被我们找到

那刚才β0=7.03

β1等于0.0475怎么样来解释呢

首先我们看截距啊

截距的意思就是说

如果说我没有任何的广告我在电视广告上没有任何的广告

广告预算

那我们平均认为

可以卖出7.03个产品

那斜率项怎么解释呢就是说增加

一千美金的电视广告预算

与多销售约47.5个产品有关

这是我们更关注的因为我们关注的是

电视广告预算和销售量之间到底有什么关系

或者说你可以说

电视预算增加一美金

然后销量增加0.0475个

因为不太好理解所以我们把它变成1000美金

然后说增加1000美金的话会多销售47.5个

然后这里面我把有关

标红了这是一个很重要

的问题就是我们很多同学在解读

最小二乘回归结果或整个

更广义的回归结果的时候都会说

比如说电视广告预算增加

一美金或者电视广告预算增加1000美金

会导致

销售增加47.5个

这样说呢实际上就有一个很明显的

因果的假设就是我说

x增加会导致

y有什么关系

那其实我们前面说了很多次啊我们的回归关系

实际上这种数学

关系解读的只是一个相关性

所以英文里面的我们看说英文解读它说An additional

$1000 spent on TV advertising is

associated with

selling approximately

47.5......

英文里面对应的解释通常用的是is

associated with 那我们中文的对应也应该解释成

有关是比较严谨的

就是说如果你用导致啊

或者是影响啊这种词都有一个因果的假设在里面

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。