当前课程知识点:基于R语言的社会统计分析 > 第十章:简单线性回归 > 10.1 简单线性回归模型概述 > Video
本周和下一周呢
我们要开始讲回归分析的内容了
可能对于很多同学来说
大家一直特别期待的内容就是回归分析
一说学统计就是为了学回归
但是为什么前面讲了
九讲都是在为回归分析做铺垫
但是为什么前面讲了
九讲都是在为回归分析做铺垫
是因为
回归并不是一个简单的
拿软件点点数据就可以算出来的这么一个过程
我们需要很
扎实的基本功
才可以真正开始进入到回归分析的过程之中
扎实的基本功
才可以真正开始进入到回归分析的过程之中
那还不要太着急
我们在讲回归分析之前呢首先
来聊一聊就是提出回归分析这个词的人
提出回归分析的人呢叫做
法兰西斯高尔顿
英文名字叫做Francis Galton
那我一般在看一个人的生平的时候
会去看百度百科或者是维基百科
然后在看百度和维基的时候你会发现
中外对高尔顿生平的评说呢会
略有不同
我们可以看看首先在百度里面
它怎么介绍高尔顿的
你们肯定没有听说过高尔顿
但一定听说过达尔文
你们肯定没有听说过高尔顿
但一定听说过达尔文
那高尔顿呢其实是达尔文的表弟
然后中文的百科里面呢直接是第一句话就说
法兰西斯高尔顿是查尔斯达尔文的表弟
他是英国维多利亚时代的文艺复兴
时代的人
他是人类学家优生学家热带探险家
然后又是地理学家发明家气象学家
最后才说他是统计学家心理学家和遗传学家
那英文的Wikipedia对他的评说
首先他说这个人是
1822年到1911年
生活的人
He was an English Victorian statistician
progressive polymath sociologist
psychologist
anthropologist balabala说了很多东西
然后最后说他是
geneticist and psychometrician
He was knighted in 1909
就是这个人
在众多这么多家之前
首先被提出的说他是一个统计学家
我们认为呢他
当然在很多领域上都有贡献
但他在统计学领域的贡献
实际上是最基础的
为很多的其他的学科做出了重要贡献的
他在1909年的时候被授予爵位
所以有的时候管他叫sir Francis Galton
那他在1883年的时候
是他第一个率先使用了一个词叫做
优生学叫做eugenics
在他1869年的
1869年的著作《遗传的天才》之中呢
高尔顿主张说人类的才能是
能够通过遗传延续的
当然这个遗传的力量在现代社会已经
不容置疑了
我们都觉得人类的才能可以通过遗传来获得
但是真正
被科学的证明是高尔顿提出来的
在一八六几年的时候写了一本书
那
高尔顿这个人他特别爱算
无论是在他的人类学测量啊
还是实验心理学的研究
进行优生学的研究之中呢
他都充分的依赖于数据
他是一个实证派
他进行了大量的计算和统计的工作
那用他自己最得意的一句话他说
无论何时能算就算
就是只要能给他一个机会他就会算
是他呢把统计学的方法引入到
生命和社会现象的有关领域中来
也是对社科领域的一大
重要贡献
具体来说
他在统计学领域中
最重要的贡献是
他相关性概念的提出
还有回归分析理论的建立
当然我们要说他在回归分析之中呢
他所说的回归分析
和我们现代意义上讲的Regression analysis
其实是略有不同的
但是呢很多同学就很费解
说Regression Regression到底这个词是哪来的
我们就来讲讲
就是高尔顿是怎么提出回归这个词的
前面说他特别
喜欢研究这个人类的遗传现象
他想知道
父亲的身高和
儿子的身高之间有什么关系
那为了研究父代与子代身高的关系呢
他搜集了1078对
父亲和儿子身高的数据
然后他就分析这些数据
可能第一件事也画了一个散点图
然后通过对散点图的观察
他发现大致上好像是有一个正向的关系的
也就是说只要父亲的身高高
那儿子的身高也高这是我们
很容易可以想到的这么一个结论
所以总的趋势是父亲的身高增加
那儿子身高也倾向于增加
但是
高尔顿又对数据进行了
更深入的分析
他发现了一个很有趣的回归现象
我们把每
每一个就是父亲生儿子的过程中
想象成一个随机现象就是说
有一个人我们假设父亲的身高是一米七
那孩子的身高呢
可能是以父亲的身高为中心
形成一个震荡的过程
它有一个小规模的随机变化
就是他的身高可能会比父亲的身高矮一点
也可能是高一点
那高一点矮一点都会以一定的概率存在
那假设说这个概率是一模一样的
我们经常说小概率事件必然发生
那我们观察到的情况是
可能儿子比父亲的身高要高了
因为越到后来营养越好
我们假设这种情况一直发生
有一个父亲他生了一个孩子
父亲一米七孩子一米七五
那儿子又生了儿子一米七五就变成了一米八
一米八变成了一米八五
祖祖辈辈这么多代人下来
为什么人类的最高身高我特意查了一下
人类的最高身高仍然停留在两米七二
而不是更高呢
就是以我们正常的
之前讲的那个假设
如果说都是随机现象可高可矮
而且孩子和父亲的身高又呈正向的关系
那这个身高其实是可以向两边发散的
他可以高到一定的
一定会比两米七二要高
高尔顿也觉得这件事情很奇怪
于是乎他经过很详细的分析呢
得出了一个结论他说
当父亲的身高
高于全人类的平均身高的时候
孩子的身高比父亲身高
矮的概率会高于
孩子的身高比父亲身高高的概率
听起来很绕
那简单的来说
就是说整个身高会有一个向全人类的
平均值回归的过程
就是
总有中间的一个力量把那些往外散的细枝末节
把它收回来
儿子比父亲还高
再高再高再高的概率是不断不断地减小的
儿子比父亲还高
再高再高再高的概率是不断不断地减小的
所以人类的身高仍然维持在某一个固定的值之中
那当然我们看现在的回归模型
现代的回归分析
和高尔顿的那个研究结论就不完全是
同一回事儿了
我们现代讲的回归可能
并不是向全人类的均值
它是向整个当x取值不同时的均值回归
那我们现在首先来说说
现代回归是用来干什么的
现代呢我们试图用回归模型来
解决三件事
第一个
我想试图描述自变量和因变量之间的关系
或者说我不那么
有野心
我不说自变量和因变量了
我就说我想研究两个变量之间的关系
我不说自变量和因变量了
我就说我想研究两个变量之间的关系
这个相关的关联可以由回归分析来做到
那第二件事
我想要探索
自变量和因变量之间的因果关系
这里面我们用词非常小心
用的是探索这个词
又像前面所说因果关系的证明十分复杂
特别难
所以我们所做的事情呢都是
收集证据要不断的向因果的真实的关系去靠近
但并不一定能够真的
证明因果关系
有的同学在学了回归以后
会忍不住的说说
相关关系
或者是相关系数不能证明因果关系
correlations not causation这件事可以明白
然后接下来说
啊要为了证明因果关系我们需要用回归分析
回归分析并没有那么强大
它只是为你向因果关系证明的路上
提供一条证据
它只是为你向因果关系证明的路上
提供一条证据
我们要
我们只是不断地向因果关系靠近
并不能做到真正证明
最后
第三点我们想基于自变量的变化
去预测因变量的取值
理解回归分析的视角呢
各不相同
有一种视角我们可以这么理解
咱们回复到最开始讲的
我们说我们做统计分析
对数据进行提炼
整个的目的是什么
现实生活的数据非常的繁杂
你会拿到一个比如说Excel表格看到好多
小黑点
那从这么多的数据中
实际上你需要做出的是一个提炼
需要对数据进行简化
你可以把回归分析理解成
一个简化数据的过程
也就是说我想把我用散点图观察到的
一个趋势
比如说是一个上升的曲线
我们说大概是
父亲的身高增加儿子也身高增加
我们是想把这种趋势
用一个特别特别简单的数学关系
我们是想把这种趋势
用一个特别特别简单的数学关系
把它总结出来
所以就是
对整个的数据的一个数学的化简
是回归分析要做的事情
那现在呢在新的我们说
大数据分析的视角下动不动讲big data
在大数据视角下呢可能对
回归分析的理解又有了一定的变化
我们在大数据视角下统计学已经不叫统计学了
有一个很fancy的词我们管它叫statistical learning
统计学习
然后又有什么机器学习啊这种词
我们认为统计学是一个在不断学习的过程
通过什么学习呢通过样本
但是在大数据视角下
样本也不叫样本了叫做training data
一个训练的数据
我们每次拿到数据就好像我们拿到了一个练习题
用来做训练
在训练的过程中不断地找到真理
那有一本书叫做
《An introduction to statistical learning》
你们现在可以看到这本书
这本书在网上可以直接下载
它的这个免费版
是完全的一个免费版非常的
有这个open source的精神开放源的精神
它它是对这个
统计学习一个非常系统的介绍也会
给你对理解统计学
提供一些帮助
那在这本书里
它有一个梳理它觉得
statistical learning呢统计学习
分为了两部分内容
它原话是说这个统计学习分为
Supervised learning
和unsupervised learning
Supervised learning就是监督式学习它
原句的定义他说
involves building a statistical model
for predicting or estimating an output
based on one or more inputs
也就是说我首先要建立一个统计模型
这个统计模型是干什么的
给我一个输入值
我要找到一个输出值
所以我总是希望预测一件事情
通过这个数学关系
给我一个x我要找到它的y
那另外一种更庞大的这个分析体系呢叫做
非监督式学习
unsupervised learning
原话的定义它说
there are inputs
but no supervising output
nevertheless we can learn relationships
and structure from such data
可能数据本身没有很清楚的理论上的因果关系
但是我通过对数据结构的解读
比如说我研究它的相关系数矩阵
协方差矩阵
做一些结构方程模型的检验
我会了解数据之间
变量和变量之间的关系
这个关系并不一定是
很直接的因果关系函数关系
但是我大概对它的结构也能够
也能够有更具体的解读
当然这个unsupervised learning
是我们这整门课都没有成功的cover的内容
当然这个unsupervised learning
是我们这整门课都没有成功的cover的内容
没有覆盖的内容
我们专注于supervised learning
这里面
线性回归linear regression
就是最简单的一种监督式学习的方法
线性回归linear regression
就是最简单的一种监督式学习的方法
所以在大数据的视角下
我们把统计分为
监督式学习非监督式学习
线性回归呢是
监督式学习里面最最简单的一种方法
那书上的原话说他说
it serves as a good jumping-point
for newer approaches
many fancy statistical learning approaches
can be seen as generalizations or
extensions of linear regression
就是它是一个特别特别基础的跳板
那其他更高级的统计方法
都是建立在它的基础上
产生的
那下面呢我们就来看一个
具体的例子然后来一步步的
讲解有关回归分析的那些事
下面我们来讲这个例子
这个例子就是关于在不同的媒体上
做广告的预算
和这个产品销量之间的关系
做广告的预算
和这个产品销量之间的关系
那这里面我们说的媒体呢
首先包括非常传统的
广播报纸然后又
来到了后面我们更加流行的电视广告
那具体的例子是这样的
这是广告数据
就是我们手头有一个关于广告效应的数据
它总结了某一种产品
在200个市场的销售情况
它总结了某一种产品
在200个市场的销售情况
当然有可能说
我关注的这个产品它
实际上真正的销售可能有好多好多的市场
而我们关注的这200个市场呢只是
众多的市场中的一个小小的样本
那同时呢我们还知道
每个市场在电视广播和报纸
这三种媒体投入的广告预算情况
那假设说
你是一个商业咨询公司
然后你被要求
基于这些数据
对下一年的市场营销计划提出
专业化的建议
那这个建议呢将帮助公司完成更高的销售量
那你要怎么做
这个商业建议应该是基于什么样的科学方法
而被提出来的
那可能你的第一个反应
我就是分别看看在不同的
媒体上做广告
和这个产品的销量之间到底存在一个什么样的关系
那
特别直观的一个想法我就是画散点图呗
那我们看看你们现在眼前看到的这张图
这是横轴
分别是电视广播还有报纸
那纵轴呢都是这个产品的销量
那我画了三张散点图
这是我们之前做相关分析的时候
也举过的例子
就是我第一个反应看大趋势的时候画一张散点图
很直观的看看不同的
媒体广告预算和销售之间的关系
那你看电视的这个
这张图
向上的趋势相对比较明显
然后你们看到的所有的蓝线
实际上就是我们一会要讲的回归曲线
那我画了三张图大致上好像都看出了一个只要
广告做的越多销量
越高的这么一个
一个趋势
但是你又会发现好像在电视里面
这个趋势更加明显
而在最后这个报纸上
这个点更加散落各处比如说
我以在
报纸上做了40这么多的预算
我应该是千美元了
这么多的预算
的条件下
你看这个销量呢其实变化很大
我们说离散程度很大
也就是说
报纸的广告
预算好像是和销量有一定的关系
但是这个关系呢可能并不
并不是很确定
那所以说我们有很多的具体的问题需要回答
要做这样一个好的市场营销方案
我们需要哪些信息呢
首先我们想要知道
就是广告预算和销售之间
到底有没有关系
就是我们左边这张图
其实试图找到了关系
那么如果有
这个关系到底有多强
只是一个小幅度的
你增我也增呢
还是你增一点我就增加很多
然后哪一种媒体
对销量有显著的贡献
我有三种媒体呢对吧
我到底应该把钱更多的投入到哪一种媒体上
我想找到那个最有劲就是你往这个媒体上一投钱
那销量就猛增的这么一种状态
那如果说
我想在不同媒体的广告预算
如果我想用
在不同媒体的广告预算预测销量
那这个销售的预算
到底
那么对这个销售的估计
到底能有多精确
我当然想做出很好的预测
我关注的是这个预测能有多准
那么还有一个问题就是
我们所说的这个关系
它到底是不是一个线性关系
直线的线性关系
最后一个问题就是
还有媒体和媒体之间
它会不会有一个交互效应
什么叫交互效应呢
可能我单独在电视上投入一点
销量会有所增加
我单独在广播上投入一点
销量也会增加但是如果说
广告
广告的投入呢在电视和广播都投
强强联手
那也许说这个销量会有一个
几何级数式的增长
我说的可能有些极端了
就是两个
或者说比如说我本来
投在广播上那销量会增加
投在报纸上销量也会增加
但是你合在一起
又投广播又投报纸
大家天天听你这广告感到很厌烦
那可能又有一个负增长
负的交互项但是这只是我一个假设了
但是这也是我们需要考虑的一个问题
这是我们说只是做一个
市场营销方案你就需要考虑这么多的问题
那为了具体的
系统的解决这些问题获得这些信息呢
我们需要进行一个简单线性回归
好下面我们来看看什么是简单线性回归
我们说线性回归
线性回归必然有一个非常重要的假设
就是我们认为
变量x和变量y之间他们的关系是一个
就是我们认为
变量x和变量y之间他们的关系是一个
线性的关系linear
这里说的线性关系呢指的是
直线的关系注意啊一定是纯直线的关系
而不包括曲线的关系
那依靠数学表达呢
我们可以把这个线性关系表达为
y≈βo加上β1x
这个式子其实和我们上中学的时候
其实上小学的时候就学过的表达直线的那个式子
是一模一样的
只不过我把原来咱们学的y等于a加上bx
换成了希腊字母β0加β1
只不过我把原来咱们学的y等于a加上bx
换成了希腊字母β0加β1
这里面用希腊字母又代表的是总体的特征
那如果我不使用约等于呢
我可以把它写成y等于β0加上β1x
再加上一个epsilon
这个epsilon呢叫做 是一个
扰动项
那为什么要加epsilon
如果没有的话那就说明
x和y之间完全的成一个函数关系
就是说
你给我一个x我就能百分之百的知道y
那现实世界显然不是这样的
所以
被x解释不了的那一部分
或者是纯随机的部分呢
由epsilon来表达
那β0和β1合在一起呢
它们是线性模型中
分别代表截距和斜率的两个未知常数
注意一下截距英文叫做intercept
斜率叫做slope
这两个值是我们后面
这两个英语是我们后面用R语言做lab讲座的时候
你们需要了解的
那β0和β1合在一起
就统称模型系数
或者叫做参数
所以你只要知道了β0和β1的取值
我就知道这条回归直线所在的位置
这是简单线性回归的一个基本的形式
-1.1 什么是统计学?
--视频1.1
-1.2 数据
--视频 1.2
-1.3 随机化原则
--视频 1.3
-1.4 数据收集方法
--视频 1.4
-第一章:绪论--1.5 习题
-2.1 描述统计概述 - 社会学概念的量化问题
--Video
-2.2 变量的分类
--Video
-2.3 描述统计方法 I: 制表法 Tabular Method
--Video
-2.4 描述统计方法 II: 绘图法 Graphical Method
--Video
-2.5 描述统计方法 III: 数值法 Numerical Method
--Video
-第二章:描述统计--2.6 习题
-3.1 探索性数据分析
--视频3.1
-3.2 EDA的制图原则
--Video
-3.3 R语言初体验
--R 语言初体验
-3.4 CRAN 和学习资源
-3.5 R 基础知识
--Video
-3.6 图形和数值
--Video
-4.1 概率的基本概念
--Video
-4.2 离散型与连续型变量的概率分布
--Video
-4.3 正态分布
--Video
-4.4 抽样分布
--Video
-第四章:概率分布--4.5 习题
-5.1 用抽样分布来代表抽样的变异性
--Video
-5.2 样本均值的抽样分布
--Video
-5.3 中心极限定理
--Video
-5.4 点估计和区间估计
--Video
-第五章:统计推断 - 估计--5.5 习题
-6.1 区间估计
--Video
-6.2 总体比例的区间估计
--Video
-6.3 置信水平
--Video
-6.4 总体均值的区间估计
--Video
-第六章:统计推断 - 区间估计--6.5 习题
-7.1 绪论
--Video
-7.2 一个显著性检验的五个部分
--Video
-7.3 均值的显著性检验
--Video
-7.4 比例的显著性检验
--Video
-7.5 检验中错误的类型
--Video
-第七章: 统计推断 - 显著性检验--7.6 习题
-8.1 预备知识
--Video
-8.2 比较两组比例
--Video
-8.3 比较两个独立样本的均值
--Video
-8.4 比较两个相依样本的均值
--Video
-8.5 方差分析(选学)
--Video
-第八章:两组比较和多组比较--8.6 习题
-9.1 变量间的关联分析
--Video
-9.2 列联分析
--Video
-9.3 定序变量间的关联关系
--Video
-第九章:变量间的关联分析--9.4 习题
-10.1 简单线性回归模型概述
--Video
-10.2 模型系数估计
--Video
-10.3 评价系数估计的准确性
--Video
-10.4 评价模型的准确性
--Video
-10.5 R Lab: 用R构建简单线性模型
--Video
-第十章:简单线性回归--10.6 习题
-11.1 多元线性回归概述
--Video
-11.2 多元线性回归
--Video
-11.3 潜在问题及解决方案
--Video
-11.4 用R语言进行多元线性回归
--Video
-第十一章:多元回归--11.5 习题
-12.1 社会科学中的分类问题
--Video
-12.2 Logistic回归概述
--Video
-12.3 Logistic回归系数估计
--Video
-12.4 Logistic回归模型评价
--Video
-12.5 其他多元统计方法
--Video
-12.6 R语言实践
--Video
-12.7 结束语
--Video