1.3 Why do we use regression 2慕课视频播放-教育定量研究方法（高级）-MOOC慕课视频教程-柠檬大学

大家想刚才有同学说到变量的问题就是说

变量的关系的问题

那么这个散点图

它是这个样子的形态

假设纵坐标还是我们刚才说的 y

那么大家看一下

distribution，它

是不是是刚才

distribution

把它给竖过来了

当然这个图是从网上找了

你们不用去对它们是不是长得一样

但是是不是我把这个图竖过来

来去表示这一堆散点图

它们在y轴的取值

它的分布的情况，是不是

是这样的一个分布

那么当然这个横轴是另外一个变量

比如说我们叫做x

当你观察到 x跟y的

这样的一个散点图的时候

如果我知道x的取值

你对y会有一个什么样的估计呢

比如说

我已经知道

如果我随机的抽取一个点

那么这个点它的x取值是2

就刚才说的关系的问题

那么

这个时候

你对y的最好的猜测是什么

跟你之前不知道x的取值的时候

你去猜这个y

有没有变化

我觉得是有变化的

因为如果不给x的值的话

我可能会选择均值

但是如果它给了我x等于2这个选择的话

我就会看x=2的时候

y的散点图上y的取值都在什么范围内

我觉得现在这个图可能它比较

接近于-0.5的状态

我可能就会预测y是等于-0.5的

好

你想根据x的和y的关系

来去改善你对y的预期

你

你真的觉得他是在-0.5吗

不是大概的一个估计

我觉得肯定估计都是会有误差的

Ok你确定它能帮你改善吗

我这么问

只要给你一个x它就一定能

帮你改善对y的估计吗

我觉得是不能的

因为它分布都是有一定的概率的

所以说我也不能够确定

一旦给定了一个x我就

能够更完善y的估计

但是我认为它这种完善的概率是增加的

一定会增加吗

会吧

会好好

谢谢* 谢谢你的回答

其他同学有没有补充

本来我们对y的一个最好

的估计就是y的均值

当我看到了这样的一个x和

y的一个散点图的时候

我能不能

根据我对x的了解

能更好的去估算y

我的理解是在

只知道均值的时候有很多

有很多值其实是被平均的

然后当我知道分布的时候

当我知道分布的时候

我就能比较

通过分布来判断我的均值

离它的中心是不是偏离得很多

然后如果

如果就这个均值不能够很好的反映

分布的话

其实我应该是要去选择更

佳的指标或者怎么样

好好谢谢*

好

大家看一下

想一想我们上节课讨论过的一个

对这条弹幕说的

比较好

你为什么不在聊天记录里说

不过没关系

大家可以看就是说

当我

首先你们做一个这样的初步判断

你们看到这样的散点图

这基本上是一个圆形的

很圆很均匀的一个分布

那么

当然它是中心最密集

两边周围会疏松一点

这个就对应的条形分布图是完全对应的

在这种情况下你们觉得

x和y它们是相关的还是不相关的

是独立的还是不独立的

也就是说

ok这个判断，当然了不一定严谨

但是明比较明显的

直观上来讲

是不是xy看上去是独立的

当然我们刚才说的分布

就是说你能看出xy有什么线性关系吗

它是一个圆形的基本上

什么叫独立大家想

给定，我们套定义，什么叫独立

独立的概念是什么

是什么来着

x和y的联合概率等于什么

等于x概率乘以y的概率

对不对

好

那么大家想一下

如果x和y独立的时候

这个时候

如果我们算 y关于x的条件期望

它等于什么

如果xy独立

是不是就等于y自己的期望

也就是说这个时候

x没有给我提供

additional

information

帮助我们更好的去判断去预测y

是不是

大家想一下

在这张图里面

这张图不是很严谨

但是是这样的一个意思

这张图

如果给定x=2

它的分布是什么样子的

y的分布是不是在x=2这条竖线上

我们来看这个y都有哪些取值

我们是不是还可以给它画出一个

这样的一个分布图

这样的分布图

一个这样的分布图

分布图的平均值

有没有偏离之前的这样的一个均值呢

感觉没有是不是

也就是说

虽然它的分布在这里是更稀疏的

确实这样更稀疏

但是它的分布的均值是不是

还是在0的附近

当然你说我就觉得它是负的0.5也可以

那么如果他还是在0的附近的时候

那么给定x的取值

我对y的判断

有没有变得更加的

准确

就是比比均值还要再更加准确一点

其实是没有的是不是

比如说我们给定

如果我知道我抽出来一个点x等于0

么x等于0的话

它就是在这条轴上x等于0

那么这些点它在这条竖轴上的分布

它是不是还是服从一个均值

为0的这样的一个分布

对没有准确度的问题

是另外一个是偏误的问题

我们现在讨论是偏误的问题

问题

所以并不是说只要给我一个x

那么我又能够对y做出更好的判断

是不是

那么

大家看这种情况

这是另外一种情况，就是xy

换一个x

如果x和y具有这样的一个散点分布图

它显然跟左边的图是

不太一样的是不是

这个时候

如果

我还是

问你说如果我随机的抽了一个点

那么

它的 x的取值我能知道

我能观测到是等于2

这个时候

我让你来判断

它的 y的取值

让你预测y的取值

你会做一个什么判断

当然y的均值还是0了

是不是

有没有同学直接回答一下

来 *回答一下

因为

y和x看

从图上看起来应该是不独立的

然后给定x=2的时候

我可能会去图上截一下

的y的均值可能到

1左右了

大概在这个位置是吧

对

谢谢*

大家可以看到说

显然这个图里面我们都会认同

说x和y它是一个不独立的

而且是一个线性相关的关系

是不是

这个时候当我给定x的一个取值的时候

我对y的判断

就更新了对不对

我更新了我对y的预期

给定x我对y的条件期望

我有一个新的变化是1点几

这个是不是就比我去简单

的去预测y等于0

用y的均值零来去做预测

要更加的精确

是吧

那么这个时候这是x给我们带来的好处

也就是x

作为一个additional

information

作为一个新的信息

帮助我们更好的去预测y

或者说去解释y

那么

我们最

我觉得这个是最原始的

为什么我们开始去思考要回归的方式

其实我们是基于

刚才说的

看到了

在观察世界的时候

看到了我们所关心的变量y

它有这样的一个分布

它不是其中的一个值

它有一个分布

我们第一个想解释它为什么

会有这样的variation

为什么不同的人会有不同的值

这是第一点

那么第二点

当我们做预测的时候

随机的从population

里面抽取一个点

我对它的y的取值做预测的时候

我用期望跟用条件期望的区别

以及我这个条件变量 x跟y的关系

对于我来做判断到底有没有帮助

我们做了一个非常朴素的讨论

这个是很重要的

显然刚才大家都做出了一个

比较明确的一个判断

那么只有在x和y它相关的时候

那么x

作为一个条件

我们对y的判断

才会更加的准确

那么当然是以x为条件的

那么如果x和y独立的时候

其实给你x的取值

那么我们不会对y做出一个更加好

的比均值更好的判断一个预期

那么这个图其实刚才都是类似的

那么这个还是x和y的散点图

那么这个也是现实中的数据经常

会呈现的这样一个关系

那么显然他们也是具有一个线性相关性

那么一个简单的问题

我在x和y的两个方向，两个轴上

都有一个柱状分布图

那么

哪一个是x的分布

哪一个是y的分布

频数分布图

哪个是x哪个是y

上面的是x还是右边的是x

有同学回答一下吗

上面是x

是吧 Ok 好

几个同学都说到了

没错

那么虽然我们把x和y放在

了一张图里面去画

是个散点图

但是大家要很清楚

x和y的分布分别是在哪个

维度上能够体现出来的

这个是很重要的

这个是我们经常就不去讨论的

但是有的时候如果你对这个不清楚的话

可能就会产生理解上的问题

1.3 Why do we use regression 2在线视频

1.3 Why do we use regression 2课程教案、知识点、字幕

教育定量研究方法（高级）课程列表：

Weeks 1 & 2 Basic Econometrics

Weeks 3 & 4: Instrumental Variable

Weeks 5 & 6: Randomized Experiments - Class Size, Career Academies

Weeks 7 & 8: Natural experiment and DID

Weeks 9 & 10: Regression discontinuity

Weeks 11&12: Propensity Score Matching

Weeks 13&14: HLM

1.3 Why do we use regression 2笔记与讨论

也许你还感兴趣的课程: