当前课程知识点:基于R语言的社会统计分析 >  第十章:简单线性回归 >  10.3 评价系数估计的准确性 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

好具体的值求出来了

下面有一个很重要的问题

并不是每次求出了这个值是多少

求出了最小二乘估计值我们就完事了

通常我们还需要验证

这个估计值的准确性怎么样

就是

翻译成大白话我们想知道

我们得到的这个最小二乘估计值

到底靠谱不靠谱

这里面叫

Assessing the Accuracy

of the Coefficient Estimates

我们想象一下

刚才我们希望实际上了解的是

所有所有好多好多个市场里面
刚才我们希望实际上了解的是

所有所有好多好多个市场里面

广告预算和销量的关系

那真实的关系呢

应该写成y等于β0加上β1x加epsilon

我们前面已经说了

只要用希腊字母表达它实际上定义的就是

总体的回归直线

population的regression line

这个模型中的误差呢

其实囊括了所有

简单模型所错失的信息

我们说这个epsilon它是一个

百搭的这个误差项

什么都归他管

我们英文里面教材管他叫catch-all

所有的这个解释不了的事其实都放到epsilon里了
我们英文里面教材管他叫catch-all

所有的这个解释不了的事其实都放到epsilon里了

这些错失的信息有可能是什么呢

首先

x与y之间的关系

也许并不是线性的

这个真实世界非常复杂

你怎么能把所有的两变量之间的关系

都用一条直线来表达呢

实际上是一个非常大胆的简化的过程

我们说回归就是一个简化数据的过程

所以很可能你要意识到

真实世界关系不是线性的

那也许还有其他的变量和y取值有关

怎么能说只有一件事对y产生影响

或者只有一件事对y有关呢

一定

还有一些你考虑不到的因素和y有关

所以这个也可能被你错过了

那这一部分信息呢又掉到epsilon里面去了

让epsilon来负责一下吧

然后呢可能还有测量误差

这个测量误差什么意思

我们前面

最开始两周探讨了一个社会科学中

抽象概念的测量问题

比如说我真正想测量的是社会经济地位

那我怎么测呢

我去问了这个人的收入

这个人的职业这个人的教育水平

我认为这三个变量代表的是社会经济地位

那很可能还有一些其他的因素

代表社会经济地位我还没有测量到

那再假设

其实只是年龄这样一个

很简单的概念也可能出现一些测量误差

有的人记得是

阴历的生日

有的人记得是阳历的生日

然后有的人呢再年纪大一点

只记得自己是民国几几年生人

所以这个

即使很简单的一个年龄都有可能存在测量误差

那当测量的时候

出现一些偏误的时候

这个差异也由epsilon来体现了

但是我们通常呢假设误差项

和x是相互独立的

这个一定要保证啊否则的话模型就要有问题了

那这么多的误差可以体现在这个模型里面

还有一件

更讨厌的事情是我们老提的

样本随机性的问题啊

样本随机性的问题怎么来解读

放到回归模型的这个

这个情景之下呢我们假设一下啊

我们以y=2+3X+ε为例

这是一个我们特别简化的特别模拟的数据啊

我想象一下

假设说我的总体里面

有一万个观测值

但我现在抽不到一万个数我只能从中抽取

我们说抽取100个点

我们现在看到了这两张图

左边这张图

代表的是我们抽取这个样本点

样本观测点这一坨数啊

然后中间这条红线

代表的是总体的回归曲线

总体的回归曲线

必然是从总体中

获得的

那我刚才说假设我这个总体有

一万个观测点

这条红色曲线

就是从总体这

一万个观测点之中找到的

y和x的关系

但是现实

总是不尽人意的啊我们抽不到一万个数

我只抽到了一百个数

通过这一百个数

我又做了一个样本的

回归直线

就是这条蓝色曲线

你会发现

这条蓝色曲线虽然和

红线相隔不是特别远

但是无论是斜率还是截距还是有一些

稍微的差异的

那这就反映出一个问题

每次用一套样本数据去

估计一条样本的回归曲线的时候

它都会和总体

我们实际上真正想

估计到的那个总体的回归直线有一定的差距

那我们看右边这张图看它描绘的是什么事情呢

描绘的说假设说每次我都抽取一百个点

每次都抽取一百个点我就会得到一个不同的

来自样本的回归直线

那些浅蓝色的线呢代表的是

不同样本每次抽约一百

一百个观测点的样本我就得出一条回归直线

那我得出了好多条回归直线

好消息是你会发现它

大概是以这条红线为中心在

上下这个

移动的啊小范围浮动所以说

如果说你的模型

设计的够好

还有你的数据是比较

符合后面我们会讲一些

这个做回归基本假设啊

如果数据够好有一些基本假设符合的话

我们通过最小二乘法得到的估计呢

应该是一种无偏估计

什么叫无偏估计呢

就是说你看我得到这么多条蓝色的曲线

蓝色直线啊

每个蓝色直线都会

得到一个截距和一个斜率

那如果我把

所有的截距把它求一个平均值然后把

所有的斜率求一个平均值呢

它应该刚好

等于总体

真实的截距和斜率

那总结一下

如果对从多个样本中

获得的不同的模型系数进行平均

那么平均值

应该刚好就等于

总体模拟系数的真实值

也就是说β0等于

β0j这个j呢

是从第一个样本到第p个样本之前就不是

样本里面第几个数了而是我们

抽取了多少个样本啊

第i到p加和后除以p求平均

然后β1呢就等于

β1j然后

的加和再除以p求平均这个j呢也等于

1到p 这是我们讲的

最小二乘估计是一种无偏的估计

那下面就有问题了啊

我们

既然承认样本的随机性

那于是乎和前面一样实际上我想

大概的估计出

样本和样本之间

到底会有多不同

要不光想知道这个parameter estimate

不光想知道

参数估计值

我还想估计出每一个参数估计值的

标准误

所以下面呢就有一个参数估计的标准误的问题

那我们回顾一下就是

我们估计样本均值的时候有一个μhat对吧

然后我们说样本均值

每次抽个样本就会得到一个不同的样本均值

μ(hat)的估计值

那我对不同的样本均值的估计值

再求一个方差

我就知道了每一个样本所得出的均值之间

到底有多不同

于是乎就有一个variance μ(hat)

它应该等于什么呢等于σ方除以n

然后我们说

样本均值的标准差

就应该等于σ除以根号n

那类似的道理

这个具体的求导过程我们就

不 不说了

毕竟这是一个应用课

我们只知道大概它的表达式就可以了

然后seβ0(hat)的平方

就应该等于

σ的平方乘以这一坨东西

然后β1的标准误

就等于右边这一个东西

我们一定要把这个β0(hat)的标准误

和β1(hat)的标准误理解清楚

这标准误到底是什么

就是说我每次

随机的抽一个样本

像刚才说的我们每次抽一百个数
随机的抽一个样本

像刚才说的我们每次抽一百个数

就会得到一个β0的估计

那抽不同的样本呢总会得到不同的估计

这些不同的估计之间的差异会有多大

用标准误来表示实际上就

对不同的β0(hat)的取值求一个标准差

或者是求一个方差

它就等于这样的表达
或者是求一个方差

它就等于这样的表达

然后这里面呢我们又发现了一个

总体的特征σ方

这里面的σ方实际上是什么呢

σ方

代表的是残差的方差

残差的方差就是我们

刚刚看那红点和蓝线的时候

我们每一个观测点

都会有一个对应的残差

这些残差和残差之间差异有多大

由σ方来表达

那讨厌的事情又出现了

这个ε是来自总体的

σ方针对的是总体的

所以真实情况下

这个σ方是不知道的

于是乎在σ未知的情况下呢

我们又需要用现有的数据来估计它

这个估计呢

被称作残差标准误

用RSS除以n减2来开根号

来表达

另外还有一条比较重要的这个

这个要求

它说为了使这个公式严格意义上有效

我们需要假设来自每个观测值的

每个观察值的εi

与残差的方差σ方无关

也就是你可以这样理解

首先这个残差呢是完全的一个随机的扰动

就是每一个观测值之中

不能被模型解释的那一部分

是完全的随机现象

它是不能由任何事情来预测的

跳来跳去我也管不了

它非常随机

所以这些预测值之间

都没有关系

它与整个的这个σ方

就是残差的平方也没有关系
它与整个的这个σ方

就是残差的平方也没有关系

前面求出了参数估计的标准误

有了标准误实际上我们就可以构建置信区间了

那于是乎对于线性回归模型

我们β1的95%的置信区间的表达呢

就应该是

β1(hat)加减2乘以

β1的标准误

当然这个2呢是我们近似的写法
β1的标准误

当然这个2呢是我们近似的写法

有的时候可以直接写1.96那我们

这里面呢就把它简化成2

那在广告这个数据中

我们可以求出来β0和β1的95%置信区间

分别是

截距项是6.13到7.935之间

然后斜率项是0.042到0.053之间

那怎么来解释这个结果呢

我们可以说

在没有任何电视广告的情况下

我们认为产品的销量

会在6130到7935个之间

然后另外

每增加一千美金

的电视广告投入

销量会平均增加42到53个

这里一定要注意我们关注的是平均增加

因为这里面

回归模型里对应的y呢

实际上是当x等于某一特定取值时

y的均值观测值的均值

因为实际上

给定一个x值

y因为随机扰动可以有不同的取值

但是我们通过模型展现的只是

y不同取值中的那个均值

然而刚才呢是用置信区间的方法来看那个回归系数

现在下面我们还可以进行

回归系数的假设检验

假设检验关注的是什么呢

我们通常关注的是

xy之间到底有没有一个显著的相关关系

那原假设一般都是说

什么事和什么事之间都没有关系

x对y之间没有影响

我们之前说的no effect情况

所以原假设是x与y没有关系

那没有关系必然是x不管取什么值

y都纹丝不动

所以β1呢等于0

这是原假设的情况

就是说斜率项等于0

我们想象的是一条平行的一条直线

横着的直线

那备择假设alternative hypothesis

就是x和y之间是有关系的

也就是说β1不等于0

这个时候用到的检验统计量呢又是T检验

关注的是我们

样本里得到的这个斜率项

和0之间

到底相差了多少个标准误的距离

那就是β1减去原假设中的那个没关系减0

除以系数的标准误

估计标准误

前面这个seβ1(hat)的公式已经给出来了

那我们这里面直接用软件得出

算出了结果

对于广告数据呢我们看

斜率项0.045

它的标准误是0.0027

你可以算一下是不是0.0475

除以0.0027刚好等于

T检验统计量17.67

然后

T检验统计量等于17.67说明

我得到的这个样本估计值

样本得出来这个斜率

和我们理论上猜的那个没关系

那个0之间

相差了17将近18个标准误的距离

说明离的很远

于是乎在原假设为真的情况下

得到17.67或者比它还极端的概率

很小

多小呢是小于0.0001的

于是乎我可以推翻原假设

认为xy之间实际上是有关系的

这就是回归系数的假设检验

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。