当前课程知识点:基于R语言的社会统计分析 >  第十章:简单线性回归 >  10.1 简单线性回归模型概述 >  Video

返回《基于R语言的社会统计分析》慕课在线视频课程列表

Video在线视频

Video

下一节:Video

返回《基于R语言的社会统计分析》慕课在线视频列表

Video课程教案、知识点、字幕

本周和下一周呢

我们要开始讲回归分析的内容了

可能对于很多同学来说

大家一直特别期待的内容就是回归分析

一说学统计就是为了学回归

但是为什么前面讲了

九讲都是在为回归分析做铺垫
但是为什么前面讲了

九讲都是在为回归分析做铺垫

是因为

回归并不是一个简单的

拿软件点点数据就可以算出来的这么一个过程

我们需要很

扎实的基本功

才可以真正开始进入到回归分析的过程之中
扎实的基本功

才可以真正开始进入到回归分析的过程之中

那还不要太着急

我们在讲回归分析之前呢首先

来聊一聊就是提出回归分析这个词的人

提出回归分析的人呢叫做

法兰西斯高尔顿

英文名字叫做Francis Galton

那我一般在看一个人的生平的时候

会去看百度百科或者是维基百科

然后在看百度和维基的时候你会发现

中外对高尔顿生平的评说呢会

略有不同

我们可以看看首先在百度里面

它怎么介绍高尔顿的

你们肯定没有听说过高尔顿

但一定听说过达尔文
你们肯定没有听说过高尔顿

但一定听说过达尔文

那高尔顿呢其实是达尔文的表弟

然后中文的百科里面呢直接是第一句话就说

法兰西斯高尔顿是查尔斯达尔文的表弟

他是英国维多利亚时代的文艺复兴

时代的人

他是人类学家优生学家热带探险家

然后又是地理学家发明家气象学家

最后才说他是统计学家心理学家和遗传学家

那英文的Wikipedia对他的评说

首先他说这个人是

1822年到1911年

生活的人

He was an English Victorian statistician

progressive polymath sociologist

psychologist

anthropologist balabala说了很多东西

然后最后说他是

geneticist and psychometrician

He was knighted in 1909

就是这个人

在众多这么多家之前

首先被提出的说他是一个统计学家

我们认为呢他

当然在很多领域上都有贡献

但他在统计学领域的贡献

实际上是最基础的

为很多的其他的学科做出了重要贡献的

他在1909年的时候被授予爵位

所以有的时候管他叫sir Francis Galton

那他在1883年的时候

是他第一个率先使用了一个词叫做

优生学叫做eugenics

在他1869年的

1869年的著作《遗传的天才》之中呢

高尔顿主张说人类的才能是

能够通过遗传延续的

当然这个遗传的力量在现代社会已经

不容置疑了

我们都觉得人类的才能可以通过遗传来获得

但是真正

被科学的证明是高尔顿提出来的

在一八六几年的时候写了一本书

高尔顿这个人他特别爱算

无论是在他的人类学测量啊

还是实验心理学的研究

进行优生学的研究之中呢

他都充分的依赖于数据

他是一个实证派

他进行了大量的计算和统计的工作

那用他自己最得意的一句话他说

无论何时能算就算

就是只要能给他一个机会他就会算

是他呢把统计学的方法引入到

生命和社会现象的有关领域中来

也是对社科领域的一大

重要贡献

具体来说

他在统计学领域中

最重要的贡献是

他相关性概念的提出

还有回归分析理论的建立

当然我们要说他在回归分析之中呢

他所说的回归分析

和我们现代意义上讲的Regression analysis

其实是略有不同的

但是呢很多同学就很费解

说Regression Regression到底这个词是哪来的

我们就来讲讲

就是高尔顿是怎么提出回归这个词的

前面说他特别

喜欢研究这个人类的遗传现象

他想知道

父亲的身高和

儿子的身高之间有什么关系

那为了研究父代与子代身高的关系呢

他搜集了1078对

父亲和儿子身高的数据

然后他就分析这些数据

可能第一件事也画了一个散点图

然后通过对散点图的观察

他发现大致上好像是有一个正向的关系的

也就是说只要父亲的身高高

那儿子的身高也高这是我们

很容易可以想到的这么一个结论

所以总的趋势是父亲的身高增加

那儿子身高也倾向于增加

但是

高尔顿又对数据进行了

更深入的分析

他发现了一个很有趣的回归现象

我们把每

每一个就是父亲生儿子的过程中

想象成一个随机现象就是说

有一个人我们假设父亲的身高是一米七

那孩子的身高呢

可能是以父亲的身高为中心

形成一个震荡的过程

它有一个小规模的随机变化

就是他的身高可能会比父亲的身高矮一点

也可能是高一点

那高一点矮一点都会以一定的概率存在

那假设说这个概率是一模一样的

我们经常说小概率事件必然发生

那我们观察到的情况是

可能儿子比父亲的身高要高了

因为越到后来营养越好

我们假设这种情况一直发生

有一个父亲他生了一个孩子

父亲一米七孩子一米七五

那儿子又生了儿子一米七五就变成了一米八

一米八变成了一米八五

祖祖辈辈这么多代人下来

为什么人类的最高身高我特意查了一下

人类的最高身高仍然停留在两米七二

而不是更高呢

就是以我们正常的

之前讲的那个假设

如果说都是随机现象可高可矮

而且孩子和父亲的身高又呈正向的关系

那这个身高其实是可以向两边发散的

他可以高到一定的

一定会比两米七二要高

高尔顿也觉得这件事情很奇怪

于是乎他经过很详细的分析呢

得出了一个结论他说

当父亲的身高

高于全人类的平均身高的时候

孩子的身高比父亲身高

矮的概率会高于

孩子的身高比父亲身高高的概率

听起来很绕

那简单的来说

就是说整个身高会有一个向全人类的

平均值回归的过程

就是

总有中间的一个力量把那些往外散的细枝末节

把它收回来

儿子比父亲还高

再高再高再高的概率是不断不断地减小的
儿子比父亲还高

再高再高再高的概率是不断不断地减小的

所以人类的身高仍然维持在某一个固定的值之中

那当然我们看现在的回归模型

现代的回归分析

和高尔顿的那个研究结论就不完全是

同一回事儿了

我们现代讲的回归可能

并不是向全人类的均值

它是向整个当x取值不同时的均值回归

那我们现在首先来说说

现代回归是用来干什么的

现代呢我们试图用回归模型来

解决三件事

第一个

我想试图描述自变量和因变量之间的关系

或者说我不那么

有野心

我不说自变量和因变量了

我就说我想研究两个变量之间的关系
我不说自变量和因变量了

我就说我想研究两个变量之间的关系

这个相关的关联可以由回归分析来做到

那第二件事

我想要探索

自变量和因变量之间的因果关系

这里面我们用词非常小心

用的是探索这个词

又像前面所说因果关系的证明十分复杂

特别难

所以我们所做的事情呢都是

收集证据要不断的向因果的真实的关系去靠近

但并不一定能够真的

证明因果关系

有的同学在学了回归以后

会忍不住的说说

相关关系

或者是相关系数不能证明因果关系

correlations not causation这件事可以明白

然后接下来说

啊要为了证明因果关系我们需要用回归分析

回归分析并没有那么强大

它只是为你向因果关系证明的路上

提供一条证据
它只是为你向因果关系证明的路上

提供一条证据

我们要

我们只是不断地向因果关系靠近

并不能做到真正证明

最后

第三点我们想基于自变量的变化

去预测因变量的取值

理解回归分析的视角呢

各不相同

有一种视角我们可以这么理解

咱们回复到最开始讲的

我们说我们做统计分析

对数据进行提炼

整个的目的是什么

现实生活的数据非常的繁杂

你会拿到一个比如说Excel表格看到好多

小黑点

那从这么多的数据中

实际上你需要做出的是一个提炼

需要对数据进行简化

你可以把回归分析理解成

一个简化数据的过程

也就是说我想把我用散点图观察到的

一个趋势

比如说是一个上升的曲线

我们说大概是

父亲的身高增加儿子也身高增加

我们是想把这种趋势

用一个特别特别简单的数学关系
我们是想把这种趋势

用一个特别特别简单的数学关系

把它总结出来

所以就是

对整个的数据的一个数学的化简

是回归分析要做的事情

那现在呢在新的我们说

大数据分析的视角下动不动讲big data

在大数据视角下呢可能对

回归分析的理解又有了一定的变化

我们在大数据视角下统计学已经不叫统计学了

有一个很fancy的词我们管它叫statistical learning

统计学习

然后又有什么机器学习啊这种词

我们认为统计学是一个在不断学习的过程

通过什么学习呢通过样本

但是在大数据视角下

样本也不叫样本了叫做training data

一个训练的数据

我们每次拿到数据就好像我们拿到了一个练习题

用来做训练

在训练的过程中不断地找到真理

那有一本书叫做

《An introduction to statistical learning》

你们现在可以看到这本书

这本书在网上可以直接下载

它的这个免费版

是完全的一个免费版非常的

有这个open source的精神开放源的精神

它它是对这个

统计学习一个非常系统的介绍也会

给你对理解统计学

提供一些帮助

那在这本书里

它有一个梳理它觉得

statistical learning呢统计学习

分为了两部分内容

它原话是说这个统计学习分为

Supervised learning

和unsupervised learning

Supervised learning就是监督式学习它

原句的定义他说

involves building a statistical model

for predicting or estimating an output

based on one or more inputs

也就是说我首先要建立一个统计模型

这个统计模型是干什么的

给我一个输入值

我要找到一个输出值

所以我总是希望预测一件事情

通过这个数学关系

给我一个x我要找到它的y

那另外一种更庞大的这个分析体系呢叫做

非监督式学习

unsupervised learning

原话的定义它说

there are inputs

but no supervising output

nevertheless we can learn relationships

and structure from such data

可能数据本身没有很清楚的理论上的因果关系

但是我通过对数据结构的解读

比如说我研究它的相关系数矩阵

协方差矩阵

做一些结构方程模型的检验

我会了解数据之间

变量和变量之间的关系

这个关系并不一定是

很直接的因果关系函数关系

但是我大概对它的结构也能够

也能够有更具体的解读

当然这个unsupervised learning

是我们这整门课都没有成功的cover的内容
当然这个unsupervised learning

是我们这整门课都没有成功的cover的内容

没有覆盖的内容

我们专注于supervised learning

这里面

线性回归linear regression

就是最简单的一种监督式学习的方法
线性回归linear regression

就是最简单的一种监督式学习的方法

所以在大数据的视角下

我们把统计分为

监督式学习非监督式学习

线性回归呢是

监督式学习里面最最简单的一种方法

那书上的原话说他说

it serves as a good jumping-point

for newer approaches

many fancy statistical learning approaches

can be seen as generalizations or

extensions of linear regression

就是它是一个特别特别基础的跳板

那其他更高级的统计方法

都是建立在它的基础上

产生的

那下面呢我们就来看一个

具体的例子然后来一步步的

讲解有关回归分析的那些事

下面我们来讲这个例子

这个例子就是关于在不同的媒体上

做广告的预算

和这个产品销量之间的关系
做广告的预算

和这个产品销量之间的关系

那这里面我们说的媒体呢

首先包括非常传统的

广播报纸然后又

来到了后面我们更加流行的电视广告

那具体的例子是这样的

这是广告数据

就是我们手头有一个关于广告效应的数据

它总结了某一种产品

在200个市场的销售情况
它总结了某一种产品

在200个市场的销售情况

当然有可能说

我关注的这个产品它

实际上真正的销售可能有好多好多的市场

而我们关注的这200个市场呢只是

众多的市场中的一个小小的样本

那同时呢我们还知道

每个市场在电视广播和报纸

这三种媒体投入的广告预算情况

那假设说

你是一个商业咨询公司

然后你被要求

基于这些数据

对下一年的市场营销计划提出

专业化的建议

那这个建议呢将帮助公司完成更高的销售量

那你要怎么做

这个商业建议应该是基于什么样的科学方法

而被提出来的

那可能你的第一个反应

我就是分别看看在不同的

媒体上做广告

和这个产品的销量之间到底存在一个什么样的关系

特别直观的一个想法我就是画散点图呗

那我们看看你们现在眼前看到的这张图

这是横轴

分别是电视广播还有报纸

那纵轴呢都是这个产品的销量

那我画了三张散点图

这是我们之前做相关分析的时候

也举过的例子

就是我第一个反应看大趋势的时候画一张散点图

很直观的看看不同的

媒体广告预算和销售之间的关系

那你看电视的这个

这张图

向上的趋势相对比较明显

然后你们看到的所有的蓝线

实际上就是我们一会要讲的回归曲线

那我画了三张图大致上好像都看出了一个只要

广告做的越多销量

越高的这么一个

一个趋势

但是你又会发现好像在电视里面

这个趋势更加明显

而在最后这个报纸上

这个点更加散落各处比如说

我以在

报纸上做了40这么多的预算

我应该是千美元了

这么多的预算

的条件下

你看这个销量呢其实变化很大

我们说离散程度很大

也就是说

报纸的广告

预算好像是和销量有一定的关系

但是这个关系呢可能并不

并不是很确定

那所以说我们有很多的具体的问题需要回答

要做这样一个好的市场营销方案

我们需要哪些信息呢

首先我们想要知道

就是广告预算和销售之间

到底有没有关系

就是我们左边这张图

其实试图找到了关系

那么如果有

这个关系到底有多强

只是一个小幅度的

你增我也增呢

还是你增一点我就增加很多

然后哪一种媒体

对销量有显著的贡献

我有三种媒体呢对吧

我到底应该把钱更多的投入到哪一种媒体上

我想找到那个最有劲就是你往这个媒体上一投钱

那销量就猛增的这么一种状态

那如果说

我想在不同媒体的广告预算

如果我想用

在不同媒体的广告预算预测销量

那这个销售的预算

到底

那么对这个销售的估计

到底能有多精确

我当然想做出很好的预测

我关注的是这个预测能有多准

那么还有一个问题就是

我们所说的这个关系

它到底是不是一个线性关系

直线的线性关系

最后一个问题就是

还有媒体和媒体之间

它会不会有一个交互效应

什么叫交互效应呢

可能我单独在电视上投入一点

销量会有所增加

我单独在广播上投入一点

销量也会增加但是如果说

广告

广告的投入呢在电视和广播都投

强强联手

那也许说这个销量会有一个

几何级数式的增长

我说的可能有些极端了

就是两个

或者说比如说我本来

投在广播上那销量会增加

投在报纸上销量也会增加

但是你合在一起

又投广播又投报纸

大家天天听你这广告感到很厌烦

那可能又有一个负增长

负的交互项但是这只是我一个假设了

但是这也是我们需要考虑的一个问题

这是我们说只是做一个

市场营销方案你就需要考虑这么多的问题

那为了具体的

系统的解决这些问题获得这些信息呢

我们需要进行一个简单线性回归

好下面我们来看看什么是简单线性回归

我们说线性回归

线性回归必然有一个非常重要的假设

就是我们认为

变量x和变量y之间他们的关系是一个
就是我们认为

变量x和变量y之间他们的关系是一个

线性的关系linear

这里说的线性关系呢指的是

直线的关系注意啊一定是纯直线的关系

而不包括曲线的关系

那依靠数学表达呢

我们可以把这个线性关系表达为

y≈βo加上β1x

这个式子其实和我们上中学的时候

其实上小学的时候就学过的表达直线的那个式子

是一模一样的

只不过我把原来咱们学的y等于a加上bx

换成了希腊字母β0加β1
只不过我把原来咱们学的y等于a加上bx

换成了希腊字母β0加β1

这里面用希腊字母又代表的是总体的特征

那如果我不使用约等于呢

我可以把它写成y等于β0加上β1x

再加上一个epsilon

这个epsilon呢叫做 是一个

扰动项

那为什么要加epsilon

如果没有的话那就说明

x和y之间完全的成一个函数关系

就是说

你给我一个x我就能百分之百的知道y

那现实世界显然不是这样的

所以

被x解释不了的那一部分

或者是纯随机的部分呢

由epsilon来表达

那β0和β1合在一起呢

它们是线性模型中

分别代表截距和斜率的两个未知常数

注意一下截距英文叫做intercept

斜率叫做slope

这两个值是我们后面

这两个英语是我们后面用R语言做lab讲座的时候

你们需要了解的

那β0和β1合在一起

就统称模型系数

或者叫做参数

所以你只要知道了β0和β1的取值

我就知道这条回归直线所在的位置

这是简单线性回归的一个基本的形式

基于R语言的社会统计分析课程列表:

第一章:绪论

-1.1 什么是统计学?

--视频1.1

-1.2 数据

--视频 1.2

-1.3 随机化原则

--视频 1.3

-1.4 数据收集方法

--视频 1.4

-第一章:绪论--1.5 习题

-Week 1

第二章:描述统计

-2.1 描述统计概述 - 社会学概念的量化问题

--Video

-2.2 变量的分类

--Video

-2.3 描述统计方法 I: 制表法 Tabular Method

--Video

-2.4 描述统计方法 II: 绘图法 Graphical Method

--Video

-2.5 描述统计方法 III: 数值法 Numerical Method

--Video

-第二章:描述统计--2.6 习题

-第二章 (第一部分)测量与变量

-第二章 (第二部分)描述统计 - 制表

-第二章 (第三部分)描述统计 - 绘图

-第二章 (第四部分)描述统计 - 数值

第三章:基于R语言的探索性数据分析

-3.1 探索性数据分析

--视频3.1

-3.2 EDA的制图原则

--Video

-3.3 R语言初体验

--R 语言初体验

-3.4 CRAN 和学习资源

--CRAN 和学习资源

-3.5 R 基础知识

--Video

-3.6 图形和数值

--Video

-第三章 基于R语言的探索性数据分析

第四章:概率分布

-4.1 概率的基本概念

--Video

-4.2 离散型与连续型变量的概率分布

--Video

-4.3 正态分布

--Video

-4.4 抽样分布

--Video

-第四章:概率分布--4.5 习题

-第四章 概率分布

第五章:统计推断 - 估计

-5.1 用抽样分布来代表抽样的变异性

--Video

-5.2 样本均值的抽样分布

--Video

-5.3 中心极限定理

--Video

-5.4 点估计和区间估计

--Video

-第五章:统计推断 - 估计--5.5 习题

-第五章 抽样分布

第六章:统计推断 - 区间估计

-6.1 区间估计

--Video

-6.2 总体比例的区间估计

--Video

-6.3 置信水平

--Video

-6.4 总体均值的区间估计

--Video

-第六章:统计推断 - 区间估计--6.5 习题

-州长选举支持率模拟抽样 R Code

-中心极限定理 R Code

-第六章 统计推断 - 区间估计

第七章: 统计推断 - 显著性检验

-7.1 绪论

--Video

-7.2 一个显著性检验的五个部分

--Video

-7.3 均值的显著性检验

--Video

-7.4 比例的显著性检验

--Video

-7.5 检验中错误的类型

--Video

-第七章: 统计推断 - 显著性检验--7.6 习题

-第七章 统计推断 - 显著性检验

第八章:两组比较和多组比较

-8.1 预备知识

--Video

-8.2 比较两组比例

--Video

-8.3 比较两个独立样本的均值

--Video

-8.4 比较两个相依样本的均值

--Video

-8.5 方差分析(选学)

--Video

-第八章:两组比较和多组比较--8.6 习题

-第八章 两组比较与多组比较 - 课件

-第八章 两组比较与多组比较 - 讲义

-第八章 R-syntax

-第八章 举例数据-mobile

-第八章 举例数据-occupation

第九章:变量间的关联分析

-9.1 变量间的关联分析

--Video

-9.2 列联分析

--Video

-9.3 定序变量间的关联关系

--Video

-第九章:变量间的关联分析--9.4 习题

-第九章 R Code

第十章:简单线性回归

-10.1 简单线性回归模型概述

--Video

-10.2 模型系数估计

--Video

-10.3 评价系数估计的准确性

--Video

-10.4 评价模型的准确性

--Video

-10.5 R Lab: 用R构建简单线性模型

--Video

-第十章:简单线性回归--10.6 习题

-第十章 简单线性回归模型 - 讲义

-第十章 R Code

第十一章:多元回归

-11.1 多元线性回归概述

--Video

-11.2 多元线性回归

--Video

-11.3 潜在问题及解决方案

--Video

-11.4 用R语言进行多元线性回归

--Video

-第十一章:多元回归--11.5 习题

-第十一章 R Code

-第十一章 多元线性回归模型-讲义

第十二章: Logistic回归和其他高级统计方法简介

-12.1 社会科学中的分类问题

--Video

-12.2 Logistic回归概述

--Video

-12.3 Logistic回归系数估计

--Video

-12.4 Logistic回归模型评价

--Video

-12.5 其他多元统计方法

--Video

-12.6 R语言实践

--Video

-12.7 结束语

--Video

-第十二章 R code

Video笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。