当前课程知识点:教育定量研究方法(高级) > Weeks 13&14: HLM > HLM > 1.3 Why do we use regression 2
大家想刚才有同学说到变量的问题就是说
变量的关系的问题
那么这个散点图
它是这个样子的形态
假设纵坐标还是我们刚才说的 y
那么大家看一下
distribution,它
是不是是刚才
distribution
把它给竖过来了
当然这个图是从网上找了
你们不用去对它们是不是长得一样
但是是不是我把这个图竖过来
来去表示这一堆散点图
它们在y轴的取值
它的分布的情况,是不是
是这样的一个分布
那么当然这个横轴是另外一个变量
比如说我们叫做x
当你观察到 x跟y的
这样的一个散点图的时候
如果我知道x的取值
你对y会有一个什么样的估计呢
比如说
我已经知道
如果我随机的抽取一个点
那么这个点它的x取值是2
就刚才说的关系的问题
那么
这个时候
你对y的最好的猜测是什么
跟你之前不知道x的取值的时候
你去猜这个y
有没有变化
我觉得是有变化的
因为如果不给x的值的话
我可能会选择均值
但是如果它给了我x等于2这个选择的话
我就会看x=2的时候
y的散点图上y的取值都在什么范围内
我觉得现在这个图可能它比较
接近于-0.5的状态
我可能就会预测y是等于-0.5的
好
你想根据x的和y的关系
来去改善你对y的预期
你
你真的觉得他是在-0.5吗
不是大概的一个估计
我觉得肯定估计都是会有误差的
Ok你确定它能帮你改善吗
我这么问
只要给你一个x它就一定能
帮你改善对y的估计吗
我觉得是不能的
因为它分布都是有一定的概率的
所以说我也不能够确定
一旦给定了一个x我就
能够更完善y的估计
但是我认为它这种完善的概率是增加的
一定会增加吗
会吧
会好好
谢谢* 谢谢你的回答
其他同学有没有补充
本来我们对y的一个最好
的估计就是y的均值
当我看到了这样的一个x和
y的一个散点图的时候
我能不能
根据我对x的了解
能更好的去估算y
我的理解是在
只知道均值的时候有很多
有很多值其实是被平均的
然后当我知道分布的时候
当我知道分布的时候
我就能比较
通过分布来判断我的均值
离它的中心是不是偏离得很多
然后如果
如果就这个均值不能够很好的反映
分布的话
其实我应该是要去选择更
佳的指标或者怎么样
好好 谢谢*
好
大家看一下
想一想我们上节课讨论过的一个
对这条弹幕说的
比较好
你为什么不在聊天记录里说
不过没关系
大家可以看就是说
当我
首先你们做一个这样的初步判断
你们看到这样的散点图
这基本上是一个圆形的
很圆很均匀的一个分布
那么
当然它是中心最密集
两边周围会疏松一点
这个就对应的条形分布图是完全对应的
在这种情况下 你们觉得
x和y它们是相关的还是不相关的
是独立的还是不独立的
也就是说
ok这个判断,当然了不一定严谨
但是明比较明显的
直观上来讲
是不是xy看上去是独立的
当然我们刚才说的分布
就是说你能看出xy有什么线性关系吗
它是一个圆形的 基本上
什么叫独立 大家想
给定,我们套定义,什么叫独立
独立的概念是什么
是什么来着
x和y的联合概率等于什么
等于x概率乘以y的概率
对不对
Ok
好
那么大家想一下
如果x和y独立的时候
这个时候
如果我们算 y关于x的条件期望
它等于什么
如果xy独立
是不是就等于y自己的期望
也就是说这个时候
x没有给我提供
additional
information
帮助我们更好的去判断去预测y
是不是
大家想一下
在这张图里面
这张图不是很严谨
但是是这样的一个意思
这张图
如果给定x=2
y
它的分布是什么样子的
y的分布是不是在x=2这条竖线上
我们来看这个y都有哪些取值
我们是不是还可以给它画出一个
这样的一个分布图
这样的分布图
一个这样的分布图
分布图的平均值
有没有偏离之前的这样的一个均值呢
感觉没有 是不是
也就是说
虽然它的分布在这里是更稀疏的
确实这样更稀疏
但是它的分布的均值是不是
还是在0的附近
当然你说我就觉得它是负的0.5也可以
那么如果他还是在0的附近的时候
那么给定x的取值
我对y的判断
有没有变得更加的
准确
就是比比均值还要再更加准确一点
其实是没有的 是不是
比如说我们给定
如果我知道我抽出来一个点x等于0
么x等于0的话
它就是在这条轴上x等于0
那么这些点它在这条竖轴上的分布
它是不是还是服从一个均值
为0的这样的一个分布
对 没有准确度的问题
是另外一个是偏误的问题
我们现在讨论是偏误的问题
问题
所以并不是说只要给我一个x
那么我又能够对y做出更好的判断
是不是
那么
大家看这种情况
这是另外一种情况,就是xy
换一个x
如果x和y具有这样的一个散点分布图
它显然跟左边的图是
不太一样的 是不是
这个时候
如果
我还是
问你说如果我随机的抽了一个点
那么
它的 x的取值我能知道
我能观测到是等于2
这个时候
我让你来判断
它的 y的取值
让你预测y的取值
你会做一个什么判断
当然y的均值还是0了
是不是
有没有同学直接回答一下
来 *回答一下
因为
y和x看
从图上看起来应该是不独立的
然后给定x=2的时候
我可能会去图上截一下
的y的均值可能到
1左右了
大概在这个位置是吧
对
谢谢*
大家可以看到说
显然这个图里面我们都会认同
说x和y它是一个不独立的
而且是一个线性相关的关系
是不是
这个时候当我给定x的一个取值的时候
我对y的判断
就更新了 对不对
我更新了我对y的预期
给定x我对y的条件期望
我有一个新的变化是1点几
这个是不是就比我去简单
的去预测y等于0
用y的均值零来去做预测
要更加的精确
是吧
那么这个时候这是x给我们带来的好处
也就是x
作为一个additional
information
作为一个新的信息
帮助我们更好的去预测y
或者说去解释y
那么
我们最
我觉得这个是最原始的
为什么我们开始去思考要回归的方式
其实我们是基于
刚才说的
看到了
在观察世界的时候
看到了我们所关心的变量y
它有这样的一个分布
它不是其中的一个值
它有一个分布
我们第一个想解释它为什么
会有这样的variation
为什么不同的人会有不同的值
这是第一点
那么第二点
当我们做预测的时候
随机的从population
里面抽取一个点
我对它的y的取值做预测的时候
我用期望跟用条件期望的区别
以及我这个条件变量 x跟y的关系
对于我来做判断到底有没有帮助
我们做了一个非常朴素的讨论
这个是很重要的
显然刚才大家都做出了一个
比较明确的一个判断
那么只有在x和y它相关的时候
那么x
作为一个条件
我们对y的判断
才会更加的准确
那么当然是以x为条件的
那么如果x和y独立的时候
其实给你x的取值
那么我们不会对y做出一个更加好
的比均值更好的判断一个预期
那么这个图其实刚才都是类似的
那么这个还是x和y的散点图
那么这个也是现实中的数据经常
会呈现的这样一个关系
那么显然他们也是具有一个线性相关性
那么一个简单的问题
我在x和y的两个方向,两个轴上
都有一个柱状分布图
那么
哪一个是x的分布
哪一个是y的分布
频数分布图
哪个是x哪个是y
上面的是x还是右边的是x
有同学回答一下吗
上面是x
是吧 Ok 好
几个同学都说到了
没错
那么虽然我们把x和y放在
了一张图里面去画
是个散点图
但是大家要很清楚
x和y的分布分别是在哪个
维度上能够体现出来的
这个是很重要的
这个是我们经常就不去讨论的
但是有的时候如果你对这个不清楚的话
可能就会产生理解上的问题
-1.2 Why do we use regression 1
-1.3 Why do we use regression 2
-1.4 Conditional expectation function 1
-1.5 Conditional expectation function 2
-1.6 Classical assumption of OLS
-1.8 How to use matrix calculation to solve OLS
-1.11 FAQs of regression:practice
-1.12 FAQs of regression:discussion
-1.13 Maximum Likelihood Estimatio
-Basic Econometrics
-2.1 Classical assumptions of OLS
-2.2 Omitted variable bias and endogeneity
-Weeks 3&4 readings and workshop
-Instrumental Variable
-3.6 Threats to the validity of RCT
-3.17 Random-effecrt and Fiexed-effect model
-3.18 Statistic power analysis
-Weeks 5&6 readings and workshop
-Randomized Experiments - Class Size, Career Academies
-4.6 DID with multiple periods 1
-4.7 DID with multiple periods 2
-4.9 Synthetic control methods
-Week7&8 readings and workshop
-Natural experiment and DID
-5.10 Validity and assumption test 1
-5.11 Validity and assumption test 2
-Regression discontinuity
-6.1 Review of causal inference model
-Propensity Score Matching
-HLM