当前课程知识点:计量经济学 > 2. 线性回归 > 2.1最小平方法与决策系数 > 2.1 最小平方法与决策系数
古典线性回归模型
是大多数
计量经济学模型的基石
其主要目标
是根据样本信息
估计样本回归函数
并对总体回归函数
以及它的参数
进行检验
和预测
这首先需要解决两个问题
第一
怎样利用样本信息
来求得样本回归函数
这是我们今天要讲的
最小平方法
OLS法的内容
第二
用一个什么标准
来判断
样本回归函数
对样本信息
拟合程度的好坏
这是我们今天要学习的
决策系数R²
还是以支出-收入模型为例
随机
选择样本
如图
我们目标
是找到一个"最佳"的
样本回归函数
也就是说
求出
样本回归函数的参数
β₁^
和β₂^
我们的思路是
以一个样本点
(Xi,Yi)为例
它与
样本回归函数(值)Yi^
之间的偏差Ui^
它等于Yi-Yi^
这个偏差越小
当然
这个点
拟合得越好
但是
对所有点呢
情况不同了
这时
要求所有点的
偏差的和
越小越好
但是
偏差有正有负
将偏差直接相加
会抵消
一部分
因此
我们选择
对偏差的平方
再求和
现在
要求这个平方和的
最小值
注意
Ui^平方和
(在)表达式当中
Xi和Yi
是样本信息
是已知的
这个方程
就变成了一个
关于β₁^和β₂^的二元函数
利用微积分知识
求二元函数的最小值
也就是
分别
对β₁^和β₂^
求偏导
并令偏导数为0
解方程组
我们就得到参数
β₁^和β₂^
用最小平方法
得到的样本回归函数
它具有
一些数量性质
样本回归函数
通过
样本平均数的交点
即红颜色的点
残差项Ui^与Xi不相关
Ui^与Y也不相关
残差项的均值为零
最小平方法
得到(的)估计量
品质好吗
用最小平方法
得到的估计量
是BLUE的
所谓的BLUE
是指最优、线性的、无偏的
和有效的
这里面所讲的线性
是得到估计量是一个线性函数
无偏是指
估计量系数的
样本平均值
等于
真实总体的平均值
而有效
是指样本估计量
是所有无偏估计量当中
最小的
举个例子
帮助理解吧
我请了二十(个)人
来预测我的寿命
(有)十个男生
十个女生
假如
我(的)真实寿命是
八十四岁
每个人对我(的)寿命的预测值
都不一样
但是
男生预测的(寿命的)平均数
是八十四岁
这(就)叫无偏
和我(的)真实寿命相同
如(果)女生预测的
(寿命的)平均值
也是八十四岁
那么
她们的预测
也是无偏的
再看看
男生和女生
预测(寿命)的标准差吧
结果吓我一跳
男生预测我(的)寿命的标准差
是两岁
也就是说
我(的寿命)在八十四(岁)
上下两岁之间
上下两岁之间
波动可能性很大
女生预测我(的寿命)的标准差
为五十岁
大家想想
女生的预测
有意义吗
相比较起来
男生的预测是有效
下面
我们讲决策系数
决策系数的功能
就是来测量
样本回归函数
对样本点的拟合精度
决策系数是通过比较的方法
来测量精度的
为此
我们需要考虑
四个问题
第一
选择比较的基准线
对什么东西进行比较
第二
选择谁跟谁比
第三
是选择比较的内容
我们选择偏差的平方和
来进行比较的
第四
消除影响测量精度的
一些干扰因素
对第一个问题
根据最小平方法
所得到的估计量的性质
即样本回归函数
通过样本点的平均数的交点
我们把Y的平均数
当作比较的基准
对Xi
对应样本回归函数值
是Yi^
Yi^和Y平均数之间的偏差
我们称为
来自于回归的偏差
前面讲过
Yi^和Yi之间的偏差
记为U i^
是来自于样本残差的偏差
Yi和Y的平均数之间的偏差
称为总体偏差
第二个问题
对于一个点而言
总体偏差等于
来自回归的偏差
加上来自残差的偏差
如果只测量
这一个点的精度
比较时
选择来自于回归的偏差
除以总体偏差
这个比越接近1
说明样本点
离样本回归函数线越近
第三个问题
但如果考虑所有的样本点呢
所有源于回归的偏差求和
再除以所有的总体偏差
再求和吗
这样行吗
当然不行
因为
这两种类型的偏差
可能有正也有负
直接将他们求和
会相互抵消
得不到真实的
比较结果
所以
我们采取的办法
是将所有的点
源于回归的偏差
进行平方
再求和
然后
再除以
所有点的总体偏差的平方
再求和
将这两个平方和的比值
来衡量样本回归函数
对所有样本点的拟合精度
我们称为决策系数
决策系数
这个比值为R²
不失一般性
总体偏差的平方和
记为TSS
来自于回归的偏差平方和
记为ESS
来自于残差的偏差的平方和
记为RSS
可以证明
TSS=ESS+RSS
R²决策系数
等于ESS/TSS
显然
R²是为正的
如果R²越接近1
表示样本回归函数
拟合的样本点越好
或者说
更好地解释了样本点的信息
相反
如果R²接近于0
表示样本回归函数
解释样本点的信息越少
第四个问题
R²会受到解释变量个数的干扰
解释变量个数K增加
R²只会增加
不会减少
换句话说
R²会随着解释变量个数的增加
而增加
为了消除K对R²的影响
我们需要对R²进行调整
这是调整之前的R2
调整的方法是这样的
将R²当中RSS
除以它的自由度n-k-1
将R²当中TSS
除以它的自由度n-1
通过除以各自的自由度
这就消除了
解释变量个数
对R²的影响
我们得到
调整之后的R²
通常(用)R²上面加一横来表示
-1.1-教学构架
--1.1-教学构架
-1.1E-文件、数据、变量与群实验
-1.2 -数据-变量-模型
-1.2E1-窗口与菜单实验
-1.2E2-变量描述统计与显示实验
-1.3-假设检验的一般逻辑
-1.3E-齐性检验与分布检验实验
-第一章 作业
-2.1最小平方法与决策系数
-2.2 CLRM假设条件
-2.3 回归分析
--2.3 回归分析
-2.3E1 回归分析实验
-2.4 回归检验
--2.4 回归检验
-2.4E1 回归检验实验
-2.4E2 回归检验实验
-2.5 预测与分析
-2.5E 预测实验
-第二章 作业
-3.1非线性回归模型的线性化(1)
-3.2非线性回归模型的线性化(2)
-3.2 E非线性化的转换实验
-第三章 作业
-4.1哑变量及设置
-4.2哑变量的回归
-4.3结构稳定性问题
-4.3E哑变量回归实验
-第四章 作业
-5.1异方差概念及其后果
-5.2异方差侦测方法
-5.2E异方差侦测实验
-5.3异方差救治措施
-5.3E异方差救治实验
-第五章 作业
-6.1自相关性及其后果
-6.2自相关性侦测方法
-6.2E自相关性侦测实验
-6.3自相关性救治措施
-6.3E自相关性救治措施实验
-第六章 作业
-7.1多重共线性及其后果
-7.2多重共线性侦测方法
-7.2E多重共线性侦测实验
-7.3多重共线性救治措施
-7.3E多重共线性救治措施实验
-第七章 作业
-8.1模型选择:标准与检验
-8.1E模型选择:检验与实验
-第八章 作业
-课程勘误