当前课程知识点:基于R语言的社会统计分析 > 第十章:简单线性回归 > 10.5 R Lab: 用R构建简单线性模型 > Video
好下来我们用一个例子给大家介绍一下怎么用
R来做一个特别简单的线性回归分析
那用到的例子呢是我之前
给大家介绍的那本the statistical using R
那本书里面
第三章它专门的lab
练习里面的一个例子
所以如果说
你觉得这个我课程上
这个慕课课程上讲解的
还不够详细的话欢迎大家去
下载那本
那本书的免费的电子版然后
可以好好看看第三章它整个关于
线性回归还有
它的这个R语言操作的讲解
那前面呢我已经
下载下来了
本周这个练习需要用到的
软件包还有数据啊
一个是叫做MASS mass这个软件包这个安装包啊
另外呢ISLR是
刚才说的那本书里包含的我们需要用到的数据
那你可以用
install packages这个函数把它们都安装
到你的这个R语言里面
然后下面呢
我就不重新安装了啊假设说你已经安装好了
我用library这个命令呢把这
两个R语言的程序包或者叫做贡献包把它给
叫出来
好我们看左边呢很顺利把它叫出来了那我们用到的数据呢
是MASS这个
MASS这个library里面呢他包含的一个叫做Boston的数据
然后
这个Boston数据呢它记录了
叫做medv Median house value for
506户在波士顿附近居住的
这个社区它的房价
这个
Median house value实际上就是
房屋价值的中位数
那我们希望找到
与房屋价值中位数相关的一些因素啊
它这里面说它一共有十三个可以考量的因素其中有
它叫average number of rooms per house
就是每一个房屋里面到底有多少间屋子
然后这个age呢指的是房龄就是这个
这个房子大该建了多长时间
然后percent of households with low socioeconomic status
实际上讲的是整个这个社区的
人是一个什么样的社会经济地位
我们说简单说它是一个高档社区呢还是一个
很低档的平民住的地方呢
所以用的是lstat来表达
那这个
低社会经济地位的人
的比例越高说明这个小区越低档对吧
然后下面呢我们首先看看这个数据啊
这个数据呢我们刚刚用
library mass已经把
这个安装包给读进来了然后下面
你直接用fix Boston就可以看到数据是什么样子了
我们现在跳出这个表格啊
这个表格有点像excel表格得出来比如说
有多少个变量然后我们关注呢最后一个变量是我们y啊
Medion house value就是房屋的
房屋的中位数 房屋价值的中位数
那还有其他的一些变量
我们想了解一个数据
除了用这种直接打开表格的方法还可以之前讲过啊
用names数据的名字
names它会告诉你说这里面有多少个变量啊
可以看到一共有十四个变量
每一个变量的名字分别是什么但是你说
哎呀我光知道变量名是什么我也不知道每一个变量具体定义是什么意思啊
我写论文也用不了 所以说
对于一般程序包自带的数据
你都可以打一个问号这里面我敲Boston
对这个数据提问然后你看它就会出现一个R
文件 R documentation
对这个数据提问然后你看它就会出现一个R
文件 R documentation
它里面对这个数据进行的描述
这个数据叫做Boston
然后它有506行有14列
然后下面每一个变量
是什么它都给了一些更加
具体的解释你有空可以自己看看同时它还告诉你了这个数据的出处
你还可以找到原文啊很老的文章
可以看看这个数据
的具体描述
然后下面
我需要做一个简单的回归
我想看看
房价的中位数
房屋价值的中位数呢和这个
小区的质量或者是
和低社会经济
地位居民的比例
到底有没有关系啊
我后面不说那么长了我直接管它叫lstat
low status是它的比例
那
简单线性回归用到的函数
就是这个叫做LM的函数
LM的函数啊
实际上LM是什么的简称
linear model 线性模型LM
然后我要把
这个LM线性模型呢给它进行一个赋值
前面这个名字你可以自己随便取我们可以管它叫
LM fit也好啊 ABCD也好 你自己随便取
我要把它存在一个地方所以首先呢我做一个特别简单的回归
LMfit 等于这个东西
给我报了一个错它说找不到对象
medv 老问题了啊
就是说我虽然把安装包
程序包读进来了
我在做建模的时候
R同样不知道它应该
到哪去找你的变量
所以你要么
在做回归的时候特意要告诉它说数据是那个数据
要么你就像以前的做法把这个数据和attach 把它给贴上
那我们
直接告诉
模型说我的数据是来自Boston那个数据啊它又静静的进行了
然后并没有给我一个什么具体的结果啊
那下面我还可以用这个attach的方法
然后同样
lm.fit=这个时候我就不用写data等于Boston了
然后假设说我直接简单的敲lm.fit
它给了你一个特别特别简单的结果的总结
简单到
首先它会告诉你刚才你这个回归模型是什么样子啊响应变量是medv
然后你的自变量是 low socialeconomics status
然后做了一个简单的线性回归
截距项的估计值是34.55然后斜率是
-0.95结束了然后我刚刚
之前讲的那些
对于系数估计准确性的
评价还有模型准确性的评价一点没有
那怎么办呢
用summary这个命令啊
用summary lm.fit
你可以看到更加详细的
结果比如说
我会得到residuals
我还会得到每一个系数的估计值它们的
系数估计值的标准误
T值还有T检验的P值
等等等等
然后
有同学说那置信区间在哪
是吧那我还需要看看
置信区间长成什么样子系数估计值系数区间
用confidence intervals (confint)这个函数来表达
那下面我再说一下就是说其实啊
在任何一个函数做了一个类似比如说做了一个
回归分析以后
它不光生成了你看到的这些结果
有很多
结果呢它并没有显示出来并不是说它没有
那以这个
以这个lm函数为例啊下面我可以
names lm.fit
你会发现
除此之外除了以上显示的这些结果统计量之外
它其实还有其他的一些个
值
它有coefficients residuals effects
fitted values assign xlevels
好多个结果
那我可以分别呢
用不同的函数把这些个结果调出来
比如说coefficient呢这就跟刚才一样用coef lm. fit这个命令
我就调出了截距项和斜率项
那我刚才说我需要confidence interval置信区间它显示出了
截距项的置信区间
这都是95%置信区间还有斜率项的
置信区间
然后下面如果我需要做预测的话
用predict这个命令啊这个命令特别
常用啊如果说你
给出了X的特定取值啊这里面啊你看
我给x
我们的x是lstat
假设说
它分别等于5
10 和15的时候
我希望知道
房屋的中位数是多少
然后下面
我有两个
不同的函数啊一个我这interval写的是
confidence
一个写的是prediction我们看看它结果上有什么区别啊
首先第一个predict
当它是confidence的时候我们看
fit value实际上第一列对应的就是y hat
当x等于5的时候
y等于29.8
当x等于10的时候y等于25.05335
然后以此类推 这个
lower value
这个lower limit这个是upper limit
它这里面对应的置信区间是什么呢
实际上我们刚才说给定一个x的取值
我们所估计的那个y的取值呢
实际上是y的平均值
所以
y的均值的置信区间会落在
y的
均值的真实值
会落在29到30这个区间里面啊
注意着里面关注的是y的
均值
那如果说我不想知道均值我想知道y的所有的可能取值
那这个y的所有可能取值就
一定是比y均值范围要大了啊这里面对应的是prediction
你看看这里面
同样y均值中心没有变啊然后它的
下限和上限显然变得很大
这里面一定要注意啊这里面估计的是
y(bar)它的置信区间
这里面对应的是y本身的置信区间
好下面我们用图示的方法再看看
这个
房屋价值的中位数
和社会经济
低社会经济地位居民比例之间的关系用plot这个命名
x轴
代表的是
低社会经济地位人的比例啊这个比例越高说明
社区里面这个低收入或者低地位的人越多那说明这个
均价应该是越低的它应该是
理论上我们想呈现一个负相关的关系
那这个散点图呢除了
验证了我们
负相关关系的猜想以外实际上
它还告诉我们说它好像有一些
非线性的关系它好像并不是一个
完全一条直线就可以解释的啊我们感觉到这地方它有一些
往下凹
看似有些曲线的关系
那下面呢
我希望把我刚才做的那条回归直线加到现在这张图上
怎么做呢
用到的函数叫做abline
abline呢你可以解释就是它一定是一条画直线的
函数
a代表的就是截距b代表的就是斜率所以
我们abline呢把lm fit这条直线直接
直接写lm fit就可以把这条直线
加进去了啊
然后下面如果
一些小练习啊如果你觉得这条线不够
不够醒目那我把它加粗点啊
你还可以用各种各样的
这个line width(lwd)=3是它原来粗细的3倍
然后3倍不行啊我还要把它变红color=red这样就更明显了
然后下面还有很多这个
类似的命令啊
这个可以改变一下图形你们可以看看
这个图形不同的参数
好下面讲了很多这个图形的事
我们再回来看一下我们刚刚出现的这个
一元线性回归结果我们试图来解释一下
首先我们看到这coefficient我们最重要看到的回归系数的估计
回归系数的估计值
截距等于34.5斜率等于
-0.95这是一个负相关的关系啊
然后我们发现P值
小于2乘以e的-16次方这个P值的
非常非常的小然后你看T值也很大
这就说明关系都是
显著的也就是说
低社会经济
地位的人的比例越高
或者说lstat增加一个单位
那y呢就是房屋的
中位数
会减少0.95
当然我们不确定它这个单位是什么啊
我们就直接说减少0.95个单位就好了
然后下面我们看
我们关注
这里面这个standard error呢就已经看了回归系数的这个
准确性的评价了啊
它们都是显著的啊那下面我们看看模型怎么样
我们刚才说看模型好坏
有两个特别重要的值一个是
RSE啊RSE=6.216然后和我们之前所说的一样因为
单位不确定所以我其实并不知道6.216
这个值是大是小
哪有同学说你讲它干什么你拿出来
一个模型一个估计6.216我也不知道是多是少
这是相对的如果说对于同一个
y对于同一个响应变量
当我要决定是否要增加或者减少
这个解释变量这个自变量的时候
我可以
以RSE的变化来作为参照
所以是
相对的啊作比较的时候还是可以看一下RSE的
那下面另外这个multiple R-squred指的就是判定系数
我们这个判定系数等于0.5441哇很大
就是
已经算是实际研究中偏大的啊说明实际上
百分之
y的变化中可以
y的变化中有54.41%
可以由这条简单的线性
回归直线来解释
然后下面F检验呢
我们现在还没有讲到
下节课我们讲多元回归的时候
会开始讲给大家解释一下F检验是什么
那我们这星期关于简单线性回归的讲解呢就到此为止了
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video