当前课程知识点:基于R语言的社会统计分析 > 第十章:简单线性回归 > 10.3 评价系数估计的准确性 > Video
好具体的值求出来了
下面有一个很重要的问题
并不是每次求出了这个值是多少
求出了最小二乘估计值我们就完事了
通常我们还需要验证
这个估计值的准确性怎么样
就是
翻译成大白话我们想知道
我们得到的这个最小二乘估计值
到底靠谱不靠谱
那
这里面叫
Assessing the Accuracy
of the Coefficient Estimates
我们想象一下
刚才我们希望实际上了解的是
所有所有好多好多个市场里面
刚才我们希望实际上了解的是
所有所有好多好多个市场里面
广告预算和销量的关系
那真实的关系呢
应该写成y等于β0加上β1x加epsilon
我们前面已经说了
只要用希腊字母表达它实际上定义的就是
总体的回归直线
population的regression line
这个模型中的误差呢
其实囊括了所有
简单模型所错失的信息
我们说这个epsilon它是一个
百搭的这个误差项
什么都归他管
我们英文里面教材管他叫catch-all
所有的这个解释不了的事其实都放到epsilon里了
我们英文里面教材管他叫catch-all
所有的这个解释不了的事其实都放到epsilon里了
这些错失的信息有可能是什么呢
首先
x与y之间的关系
也许并不是线性的
这个真实世界非常复杂
你怎么能把所有的两变量之间的关系
都用一条直线来表达呢
实际上是一个非常大胆的简化的过程
我们说回归就是一个简化数据的过程
所以很可能你要意识到
真实世界关系不是线性的
那也许还有其他的变量和y取值有关
怎么能说只有一件事对y产生影响
或者只有一件事对y有关呢
一定
还有一些你考虑不到的因素和y有关
所以这个也可能被你错过了
那这一部分信息呢又掉到epsilon里面去了
让epsilon来负责一下吧
然后呢可能还有测量误差
这个测量误差什么意思
我们前面
最开始两周探讨了一个社会科学中
抽象概念的测量问题
比如说我真正想测量的是社会经济地位
那我怎么测呢
我去问了这个人的收入
这个人的职业这个人的教育水平
我认为这三个变量代表的是社会经济地位
那很可能还有一些其他的因素
代表社会经济地位我还没有测量到
那再假设
其实只是年龄这样一个
很简单的概念也可能出现一些测量误差
有的人记得是
阴历的生日
有的人记得是阳历的生日
然后有的人呢再年纪大一点
只记得自己是民国几几年生人
所以这个
即使很简单的一个年龄都有可能存在测量误差
那当测量的时候
出现一些偏误的时候
这个差异也由epsilon来体现了
但是我们通常呢假设误差项
和x是相互独立的
这个一定要保证啊否则的话模型就要有问题了
那这么多的误差可以体现在这个模型里面
还有一件
更讨厌的事情是我们老提的
样本随机性的问题啊
样本随机性的问题怎么来解读
放到回归模型的这个
这个情景之下呢我们假设一下啊
我们以y=2+3X+ε为例
这是一个我们特别简化的特别模拟的数据啊
我想象一下
假设说我的总体里面
有一万个观测值
但我现在抽不到一万个数我只能从中抽取
我们说抽取100个点
我们现在看到了这两张图
左边这张图
代表的是我们抽取这个样本点
样本观测点这一坨数啊
然后中间这条红线
代表的是总体的回归曲线
总体的回归曲线
必然是从总体中
获得的
那我刚才说假设我这个总体有
一万个观测点
这条红色曲线
就是从总体这
一万个观测点之中找到的
y和x的关系
但是现实
总是不尽人意的啊我们抽不到一万个数
我只抽到了一百个数
通过这一百个数
我又做了一个样本的
回归直线
就是这条蓝色曲线
你会发现
这条蓝色曲线虽然和
红线相隔不是特别远
但是无论是斜率还是截距还是有一些
稍微的差异的
那这就反映出一个问题
每次用一套样本数据去
估计一条样本的回归曲线的时候
它都会和总体
我们实际上真正想
估计到的那个总体的回归直线有一定的差距
那我们看右边这张图看它描绘的是什么事情呢
描绘的说假设说每次我都抽取一百个点
每次都抽取一百个点我就会得到一个不同的
来自样本的回归直线
那些浅蓝色的线呢代表的是
不同样本每次抽约一百
一百个观测点的样本我就得出一条回归直线
那我得出了好多条回归直线
好消息是你会发现它
大概是以这条红线为中心在
上下这个
移动的啊小范围浮动所以说
如果说你的模型
设计的够好
还有你的数据是比较
符合后面我们会讲一些
这个做回归基本假设啊
如果数据够好有一些基本假设符合的话
我们通过最小二乘法得到的估计呢
应该是一种无偏估计
什么叫无偏估计呢
就是说你看我得到这么多条蓝色的曲线
蓝色直线啊
每个蓝色直线都会
得到一个截距和一个斜率
那如果我把
所有的截距把它求一个平均值然后把
所有的斜率求一个平均值呢
它应该刚好
等于总体
真实的截距和斜率
那总结一下
如果对从多个样本中
获得的不同的模型系数进行平均
那么平均值
应该刚好就等于
总体模拟系数的真实值
也就是说β0等于
β0j这个j呢
是从第一个样本到第p个样本之前就不是
样本里面第几个数了而是我们
抽取了多少个样本啊
第i到p加和后除以p求平均
然后β1呢就等于
β1j然后
的加和再除以p求平均这个j呢也等于
1到p 这是我们讲的
最小二乘估计是一种无偏的估计
那下面就有问题了啊
我们
既然承认样本的随机性
那于是乎和前面一样实际上我想
大概的估计出
样本和样本之间
到底会有多不同
要不光想知道这个parameter estimate
不光想知道
参数估计值
我还想估计出每一个参数估计值的
标准误
所以下面呢就有一个参数估计的标准误的问题
那我们回顾一下就是
我们估计样本均值的时候有一个μhat对吧
然后我们说样本均值
每次抽个样本就会得到一个不同的样本均值
μ(hat)的估计值
那我对不同的样本均值的估计值
再求一个方差
我就知道了每一个样本所得出的均值之间
到底有多不同
于是乎就有一个variance μ(hat)
它应该等于什么呢等于σ方除以n
然后我们说
样本均值的标准差
就应该等于σ除以根号n
那类似的道理
这个具体的求导过程我们就
不 不说了
毕竟这是一个应用课
我们只知道大概它的表达式就可以了
然后seβ0(hat)的平方
就应该等于
σ的平方乘以这一坨东西
然后β1的标准误
就等于右边这一个东西
我们一定要把这个β0(hat)的标准误
和β1(hat)的标准误理解清楚
这标准误到底是什么
就是说我每次
随机的抽一个样本
像刚才说的我们每次抽一百个数
随机的抽一个样本
像刚才说的我们每次抽一百个数
就会得到一个β0的估计
那抽不同的样本呢总会得到不同的估计
这些不同的估计之间的差异会有多大
用标准误来表示实际上就
对不同的β0(hat)的取值求一个标准差
或者是求一个方差
它就等于这样的表达
或者是求一个方差
它就等于这样的表达
然后这里面呢我们又发现了一个
总体的特征σ方
这里面的σ方实际上是什么呢
σ方
代表的是残差的方差
残差的方差就是我们
刚刚看那红点和蓝线的时候
我们每一个观测点
都会有一个对应的残差
这些残差和残差之间差异有多大
由σ方来表达
那讨厌的事情又出现了
这个ε是来自总体的
σ方针对的是总体的
所以真实情况下
这个σ方是不知道的
于是乎在σ未知的情况下呢
我们又需要用现有的数据来估计它
这个估计呢
被称作残差标准误
用RSS除以n减2来开根号
来表达
另外还有一条比较重要的这个
这个要求
它说为了使这个公式严格意义上有效
我们需要假设来自每个观测值的
每个观察值的εi
与残差的方差σ方无关
也就是你可以这样理解
首先这个残差呢是完全的一个随机的扰动
就是每一个观测值之中
不能被模型解释的那一部分
是完全的随机现象
它是不能由任何事情来预测的
跳来跳去我也管不了
它非常随机
所以这些预测值之间
都没有关系
它与整个的这个σ方
就是残差的平方也没有关系
它与整个的这个σ方
就是残差的平方也没有关系
好
前面求出了参数估计的标准误
有了标准误实际上我们就可以构建置信区间了
那于是乎对于线性回归模型
我们β1的95%的置信区间的表达呢
就应该是
β1(hat)加减2乘以
β1的标准误
当然这个2呢是我们近似的写法
β1的标准误
当然这个2呢是我们近似的写法
有的时候可以直接写1.96那我们
这里面呢就把它简化成2
那在广告这个数据中
我们可以求出来β0和β1的95%置信区间
分别是
截距项是6.13到7.935之间
然后斜率项是0.042到0.053之间
那怎么来解释这个结果呢
我们可以说
在没有任何电视广告的情况下
我们认为产品的销量
会在6130到7935个之间
然后另外
每增加一千美金
的电视广告投入
销量会平均增加42到53个
这里一定要注意我们关注的是平均增加
因为这里面
回归模型里对应的y呢
实际上是当x等于某一特定取值时
y的均值观测值的均值
因为实际上
给定一个x值
y因为随机扰动可以有不同的取值
但是我们通过模型展现的只是
y不同取值中的那个均值
然而刚才呢是用置信区间的方法来看那个回归系数
现在下面我们还可以进行
回归系数的假设检验
假设检验关注的是什么呢
我们通常关注的是
xy之间到底有没有一个显著的相关关系
那原假设一般都是说
什么事和什么事之间都没有关系
x对y之间没有影响
我们之前说的no effect情况
所以原假设是x与y没有关系
那没有关系必然是x不管取什么值
y都纹丝不动
所以β1呢等于0
这是原假设的情况
就是说斜率项等于0
我们想象的是一条平行的一条直线
横着的直线
那备择假设alternative hypothesis
就是x和y之间是有关系的
那
也就是说β1不等于0
这个时候用到的检验统计量呢又是T检验
关注的是我们
样本里得到的这个斜率项
和0之间
到底相差了多少个标准误的距离
那就是β1减去原假设中的那个没关系减0
除以系数的标准误
估计标准误
前面这个seβ1(hat)的公式已经给出来了
那我们这里面直接用软件得出
算出了结果
对于广告数据呢我们看
斜率项0.045
它的标准误是0.0027
你可以算一下是不是0.0475
除以0.0027刚好等于
T检验统计量17.67
然后
T检验统计量等于17.67说明
我得到的这个样本估计值
样本得出来这个斜率
和我们理论上猜的那个没关系
那个0之间
相差了17将近18个标准误的距离
说明离的很远
于是乎在原假设为真的情况下
得到17.67或者比它还极端的概率
很小
多小呢是小于0.0001的
于是乎我可以推翻原假设
认为xy之间实际上是有关系的
这就是回归系数的假设检验
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video