当前课程知识点:基于R语言的社会统计分析 > 第十章:简单线性回归 > 10.4 评价模型的准确性 > Video
那刚刚评价了回归系数的准确性还没完
我们实际上呢还需要
评价一下这个整个回归模型
对数据的拟合程度
所以一旦我们拒绝了原假设认为xy是有关系的
接下来很自然的就是希望知道模型对数据的拟合程度
the extent to which the model fits data
那线性回归拟合的质量呢
有两个特别典型的统计量来评价
一个叫做残差标准误啊
叫residual standard error RSE
然后
判定系数R方这个是大家经常会听到的
我们先来看看残差标准误
残差标准误的数学表达呢实际上刚才已经体现出来了啊
我们实际上是对
ε那个方差的估计
用残差标准误来表达
怎么样来理解这个统计量啊实际上
你可以把它理解成响应变量
偏离回归直线程度的一个平均值
我们想每一个残差它描述的都是观测点和
回归直线有多远
那等于我通过一些平方啊加和啊再开根号的形式
对这种观测值和
回归直线之间的距离呢做了一种平均这样一个动作
所以直接可以理解成
残差标准误就是
响应变量偏离回归直线的平均值
那RSE等于这样一个数啊
我们看这里面有一个很重要的问题
yi这里面给了一个
平方以后再开根号呢这个得出RSE实际上它有单位的
它的单位呢和y
是一致的
所以RSE提供了模型对数据的一种绝对测量
但是因为它的测量单位和y一致呢
我们没有办法
清楚的确定就是
RSE到底多大算大多小算小
当你的y的测量单位假设说是很小的啊 毫米
或者是
刚才我们不说美元了我们把它换成越南盾啊
这个数字的级数一下就变得很大
那RSE的取值也会瞬间变得很大
那你现在的问题就是RSE多大
或者RSE多小是你可以接受的
于是乎我们需要一种相对测量
通常我们喜欢比例这种东西啊我们说相关系数的时候
系数有一个特别好的性质
是它一定是在-1和1之间的
那拿到对于模型拟合程度的一个判断的时候
我们需要另外一种比例的测量叫R方
这个
它提供另外一种选择也就是
它关注的是
解释可以被解释的那部分方差的比例
它的取值呢在0和1之间
并且它的测量量集呢
和这个y的测量量集没有关系和y的单位没有关系
它是什么东西呢
R方等于TSS减去RSS除以TSS
那我们现在
写了这么多这个
简写啊TSS是total sum squares
它的意思是总平方和
我们看下面总平方和给你写了一个表达式啊它等于
yi减去y均值平方再加和啊这什么东西啊
这和方差看上去很像吧
如果说你加了一个除以n
那它实际上就是y的方差
那
这里面呢我们管它叫总平方和啊就不除以n
没有一个平均的动作
实际上它测量的是
来自于响应变量的所有的变化
就响应变量的所有的变异程度
那RSS代表的是
每个观测点和
回归直线之间相差的距离我们前面说了好多次了啊
就刚刚那张
这张图我们说RSS呢
RSS实际上是
观测值和回归直线
距离的平方再加和
那TSS减RSS再除以TSS
实际上什么意思呢
RSS实际上是回归模型解释不了的那部分
那TSS减去解释不了的那部分剩下的就是
可以被回归模型解释的那一部分
所以说
R方的这个值越大
说明可以
由回归模型所
解释的那部分的变异比例越高
于是乎
我们就认为模型的拟合程度就越好
所以怎么样来理解R方这个
统计量呢
它测量的是
y的变化中
可以被x解释的比例
英文说
proportion of variability in Y that can be explained using X
所以我们希望R方的取值应该是越大越好的
然后一般情况下呢有的同学总是说
希望一个R方值特别大啊大到0.8 0.9
但是我们做社会学的研究实际上
有的时候你的R方值大到0.3 0.4的时候你就可以偷笑了啊
所以这个R方呢也不是一个特别绝对的概念
大致我有一个感觉R方值越大越好
但并不是说
要得到一个好的模型你一定要得到
R方值一定是0.8 0.9的这样一个
比较
想象中美好的数字啊
好这就是我们讲的简单线性回归
我们这周的内容呢就到此为止
然后下面呢我们来讲一讲怎么样用
用R语言做一个简单的线性回归的分析
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video