9079493

当前课程知识点:基于R语言的社会统计分析 >  第十章:简单线性回归 >  10.5 R Lab: 用R构建简单线性模型 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:第十章 简单线性回归模型 - 讲义

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

好下来我们用一个例子给大家介绍一下怎么用

R来做一个特别简单的线性回归分析

那用到的例子呢是我之前

给大家介绍的那本the statistical using R

那本书里面

第三章它专门的lab

练习里面的一个例子

所以如果说

你觉得这个我课程上

这个慕课课程上讲解的

还不够详细的话欢迎大家去

下载那本

那本书的免费的电子版然后

可以好好看看第三章它整个关于

线性回归还有

它的这个R语言操作的讲解

那前面呢我已经

下载下来了

本周这个练习需要用到的

软件包还有数据啊

一个是叫做MASS mass这个软件包这个安装包啊

另外呢ISLR是

刚才说的那本书里包含的我们需要用到的数据

那你可以用

install packages这个函数把它们都安装

到你的这个R语言里面

然后下面呢

我就不重新安装了啊假设说你已经安装好了

我用library这个命令呢把这

两个R语言的程序包或者叫做贡献包把它给

叫出来

好我们看左边呢很顺利把它叫出来了那我们用到的数据呢

是MASS这个

MASS这个library里面呢他包含的一个叫做Boston的数据

然后

这个Boston数据呢它记录了

叫做medv Median house value for

506户在波士顿附近居住的

这个社区它的房价

这个

Median house value实际上就是

房屋价值的中位数

那我们希望找到

与房屋价值中位数相关的一些因素啊

它这里面说它一共有十三个可以考量的因素其中有

它叫average number of rooms per house

就是每一个房屋里面到底有多少间屋子

然后这个age呢指的是房龄就是这个

这个房子大该建了多长时间

然后percent of households with low socioeconomic status

实际上讲的是整个这个社区的

人是一个什么样的社会经济地位

我们说简单说它是一个高档社区呢还是一个

很低档的平民住的地方呢

所以用的是lstat来表达

那这个

低社会经济地位的人

的比例越高说明这个小区越低档对吧

然后下面呢我们首先看看这个数据啊

这个数据呢我们刚刚用

library mass已经把

这个安装包给读进来了然后下面

你直接用fix Boston就可以看到数据是什么样子了

我们现在跳出这个表格啊

这个表格有点像excel表格得出来比如说

有多少个变量然后我们关注呢最后一个变量是我们y啊

Medion house value就是房屋的

房屋的中位数 房屋价值的中位数

那还有其他的一些变量

我们想了解一个数据

除了用这种直接打开表格的方法还可以之前讲过啊

用names数据的名字

names它会告诉你说这里面有多少个变量啊

可以看到一共有十四个变量

每一个变量的名字分别是什么但是你说

哎呀我光知道变量名是什么我也不知道每一个变量具体定义是什么意思啊

我写论文也用不了 所以说

对于一般程序包自带的数据

你都可以打一个问号这里面我敲Boston

对这个数据提问然后你看它就会出现一个R

文件 R documentation
对这个数据提问然后你看它就会出现一个R

文件 R documentation

它里面对这个数据进行的描述

这个数据叫做Boston

然后它有506行有14列

然后下面每一个变量

是什么它都给了一些更加

具体的解释你有空可以自己看看同时它还告诉你了这个数据的出处

你还可以找到原文啊很老的文章

可以看看这个数据

的具体描述

然后下面

我需要做一个简单的回归

我想看看

房价的中位数

房屋价值的中位数呢和这个

小区的质量或者是

和低社会经济

地位居民的比例

到底有没有关系啊

我后面不说那么长了我直接管它叫lstat

low status是它的比例

简单线性回归用到的函数

就是这个叫做LM的函数

LM的函数啊

实际上LM是什么的简称

linear model 线性模型LM

然后我要把

这个LM线性模型呢给它进行一个赋值

前面这个名字你可以自己随便取我们可以管它叫

LM fit也好啊 ABCD也好 你自己随便取

我要把它存在一个地方所以首先呢我做一个特别简单的回归

LMfit 等于这个东西

给我报了一个错它说找不到对象

medv 老问题了啊

就是说我虽然把安装包

程序包读进来了

我在做建模的时候

R同样不知道它应该

到哪去找你的变量

所以你要么

在做回归的时候特意要告诉它说数据是那个数据

要么你就像以前的做法把这个数据和attach 把它给贴上

那我们

直接告诉

模型说我的数据是来自Boston那个数据啊它又静静的进行了

然后并没有给我一个什么具体的结果啊

那下面我还可以用这个attach的方法

然后同样

lm.fit=这个时候我就不用写data等于Boston了

然后假设说我直接简单的敲lm.fit

它给了你一个特别特别简单的结果的总结

简单到

首先它会告诉你刚才你这个回归模型是什么样子啊响应变量是medv

然后你的自变量是 low socialeconomics status

然后做了一个简单的线性回归

截距项的估计值是34.55然后斜率是

-0.95结束了然后我刚刚

之前讲的那些

对于系数估计准确性的

评价还有模型准确性的评价一点没有

那怎么办呢

用summary这个命令啊

用summary lm.fit

你可以看到更加详细的

结果比如说

我会得到residuals

我还会得到每一个系数的估计值它们的

系数估计值的标准误

T值还有T检验的P值

等等等等

然后

有同学说那置信区间在哪

是吧那我还需要看看

置信区间长成什么样子系数估计值系数区间

用confidence intervals (confint)这个函数来表达

那下面我再说一下就是说其实啊

在任何一个函数做了一个类似比如说做了一个

回归分析以后

它不光生成了你看到的这些结果

有很多

结果呢它并没有显示出来并不是说它没有

那以这个

以这个lm函数为例啊下面我可以

names lm.fit

你会发现

除此之外除了以上显示的这些结果统计量之外

它其实还有其他的一些个

它有coefficients residuals effects

fitted values assign xlevels

好多个结果

那我可以分别呢

用不同的函数把这些个结果调出来

比如说coefficient呢这就跟刚才一样用coef lm. fit这个命令

我就调出了截距项和斜率项

那我刚才说我需要confidence interval置信区间它显示出了

截距项的置信区间

这都是95%置信区间还有斜率项的

置信区间

然后下面如果我需要做预测的话

用predict这个命令啊这个命令特别

常用啊如果说你

给出了X的特定取值啊这里面啊你看

我给x

我们的x是lstat

假设说

它分别等于5

10 和15的时候

我希望知道

房屋的中位数是多少

然后下面

我有两个

不同的函数啊一个我这interval写的是

confidence

一个写的是prediction我们看看它结果上有什么区别啊

首先第一个predict

当它是confidence的时候我们看

fit value实际上第一列对应的就是y hat

当x等于5的时候

y等于29.8

当x等于10的时候y等于25.05335

然后以此类推 这个

lower value

这个lower limit这个是upper limit

它这里面对应的置信区间是什么呢

实际上我们刚才说给定一个x的取值

我们所估计的那个y的取值呢

实际上是y的平均值

所以

y的均值的置信区间会落在

y的

均值的真实值

会落在29到30这个区间里面啊

注意着里面关注的是y的

均值

那如果说我不想知道均值我想知道y的所有的可能取值

那这个y的所有可能取值就

一定是比y均值范围要大了啊这里面对应的是prediction

你看看这里面

同样y均值中心没有变啊然后它的

下限和上限显然变得很大

这里面一定要注意啊这里面估计的是

y(bar)它的置信区间

这里面对应的是y本身的置信区间

好下面我们用图示的方法再看看

这个

房屋价值的中位数

和社会经济

低社会经济地位居民比例之间的关系用plot这个命名

x轴

代表的是

低社会经济地位人的比例啊这个比例越高说明

社区里面这个低收入或者低地位的人越多那说明这个

均价应该是越低的它应该是

理论上我们想呈现一个负相关的关系

那这个散点图呢除了

验证了我们

负相关关系的猜想以外实际上

它还告诉我们说它好像有一些

非线性的关系它好像并不是一个

完全一条直线就可以解释的啊我们感觉到这地方它有一些

往下凹

看似有些曲线的关系

那下面呢

我希望把我刚才做的那条回归直线加到现在这张图上

怎么做呢

用到的函数叫做abline

abline呢你可以解释就是它一定是一条画直线的

函数

a代表的就是截距b代表的就是斜率所以

我们abline呢把lm fit这条直线直接

直接写lm fit就可以把这条直线

加进去了啊

然后下面如果

一些小练习啊如果你觉得这条线不够

不够醒目那我把它加粗点啊

你还可以用各种各样的

这个line width(lwd)=3是它原来粗细的3倍

然后3倍不行啊我还要把它变红color=red这样就更明显了

然后下面还有很多这个

类似的命令啊

这个可以改变一下图形你们可以看看

这个图形不同的参数

好下面讲了很多这个图形的事

我们再回来看一下我们刚刚出现的这个

一元线性回归结果我们试图来解释一下

首先我们看到这coefficient我们最重要看到的回归系数的估计

回归系数的估计值

截距等于34.5斜率等于

-0.95这是一个负相关的关系啊

然后我们发现P值

小于2乘以e的-16次方这个P值的

非常非常的小然后你看T值也很大

这就说明关系都是

显著的也就是说

低社会经济

地位的人的比例越高

或者说lstat增加一个单位

那y呢就是房屋的

中位数

会减少0.95

当然我们不确定它这个单位是什么啊

我们就直接说减少0.95个单位就好了

然后下面我们看

我们关注

这里面这个standard error呢就已经看了回归系数的这个

准确性的评价了啊

它们都是显著的啊那下面我们看看模型怎么样

我们刚才说看模型好坏

有两个特别重要的值一个是

RSE啊RSE=6.216然后和我们之前所说的一样因为

单位不确定所以我其实并不知道6.216

这个值是大是小

哪有同学说你讲它干什么你拿出来

一个模型一个估计6.216我也不知道是多是少

这是相对的如果说对于同一个

y对于同一个响应变量

当我要决定是否要增加或者减少

这个解释变量这个自变量的时候

我可以

以RSE的变化来作为参照

所以是

相对的啊作比较的时候还是可以看一下RSE的

那下面另外这个multiple R-squred指的就是判定系数

我们这个判定系数等于0.5441哇很大

就是

已经算是实际研究中偏大的啊说明实际上

百分之

y的变化中可以

y的变化中有54.41%

可以由这条简单的线性

回归直线来解释

然后下面F检验呢

我们现在还没有讲到

下节课我们讲多元回归的时候

会开始讲给大家解释一下F检验是什么

那我们这星期关于简单线性回归的讲解呢就到此为止了

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。