当前课程知识点:2014年清华大学研究生学位论文答辩(二) >  第3周 工物系、自动化系、建筑学院 >  李月标《交通流缺失数据补偿算法的研究》 >  自动化系李月标-问答及答辩结果

返回《2014年清华大学研究生学位论文答辩(二)》慕课在线视频课程列表

自动化系李月标-问答及答辩结果在线视频

自动化系李月标-问答及答辩结果

下一节:自动化系李月标-导师评价

返回《2014年清华大学研究生学位论文答辩(二)》慕课在线视频列表

自动化系李月标-问答及答辩结果课程教案、知识点、字幕

两个问题 第一个问题就是

你这个研究完全就是

纯考虑数据补缺

然后这个数据用于什么目的

这个东西基本上不考虑是吧

其实我在后边的相关研究

已经做了

我就讲你现在这个

这个没有是不是

这里没有对

那这个会有什么情况呢

如果按照这个假设

这个想象就是

我把数据补齐摆在这个地方

别人拿来用对吧

相当于有这个目的

好 这时候有两种可能

一种就是刚才你这么做的

把这个数据补齐

拿着补齐后的数据来用

还有一种用原始的

没有补齐的数据

结合我的目的直接来用

你觉得这两种哪一种更好一点

肯定是补偿之后的来用

这部分我们实验室已经有

不对 肯定是不用

用原始数据比较好

因为你用补偿数据

已经用了你的这个

人为的添加的这种东西进去了

只要你补偿数据

就会带来补偿误差

所以你已经不是真实的数据了

我可能理解错了

我就是这个意思

我再明确一下子问你

就是说你这个数据

假设我现在有一个目的

我来用这个数据库

一种是原始的缺失

所有该缺失的缺失的那种数据

我来用

一种是你的这个把它补偿以后

我来用

我假设对于我的特定的目的

我问你这两种哪种好

或者我直截了当的说

我认为用不补缺的要好

因为你补缺了

你仍然有补缺误差

你肯定有精度在

所以你的那个数据库

是已经添加了这个误差以后的

数据库

我拿来在你的误差基础上

再应用

就可能导致误差更增加

但是对于实际的

我交通应用过程当中

我必须要完备的这个数据

那如果说我这个数据

所以这两件事要结合在一起

你交通应用这个东西

想干什么事

你就拿那个原始的数据

为着那个事的目的来补缺

就跟今天上午有个同学

做的是一样

他是要做回归

他数据缺失

他来为着那个回归目的

来用一个缺失方法

这两个结合在一起这是对的

因为你所谓补缺

也是对数据加工了

你不是把真的数据添进去了

只要加工就有误差

这是我的看法供你参考

所以我从原则上讲

你不结合这个目的来做这件事

然后你想象着

把数据补缺以后拿去给人家用

这个结果可能带来的是

是误差的增加

而不是把误差的减少

至少反正不确定性增加的

这是第一件事

第二件事就讲讲你那个发现

你已经能够算出这个精度出来了

那就说明你在数据库里面

是假设一些数据是真有数据

你把它丢掉

然后再来测对吧

是这个样子好

那么你发现的那个

六七八月份的那个数据补缺

用六七八月的数据

和用七月份的数据

这两个没什么改进是吧

这是你一个主要发现

对对单点 单点的话

单点

那么呢你六七

你真实数据你丢掉的那个数据

肯定你是只在七月份里面丢掉吧

都丢了

我但是在评估的时候

我只对七月份进行评估

对 就是这个

那道理一样的嘛

因为你六八月份不补缺

丢不丢掉无所谓嘛

现在你就是说你并不评估

比如你六七八三个月的数据

你把六月丢掉

八月丢掉无关影响

因为你最终是把七月份的

真实的数据拿来做你预估

和你补缺的数据

两个来比较它的误差对吧

不拿六月八月对不对

所以六月八月丢掉那不影响

那么这简单讲

这个事本质是怎么回事呢

就是你真正那个数据

影响它的只是那个数据

附近的数据懂吗

你讲来讲去是一种

这种结构的这种关系

所以你六月八月份

与你七月份

你丢掉的那些真实数据

它的距离太远了

那个加不加进去无所谓

如果你换一种方法

你在七月份

你把增加相邻点附近

增加很多数据

那精度肯定提高

所以这是一个表象

表象你说六七八

你把它数据都那个加进去了

结果没有改进

那必然没有改进

因为六月八月

和你七月份丢掉的那个数据的

那个相邻的

不是吧 他做那个三个月的

评价的时候

还是要用三个月的数

他用三个月的数据来估计补缺

但是呢这个补缺的那个精度

只计算七月份的

不是吧

当然了 你问他是不是这意思

他把七月份

那你都用七月份的

当然六八就没用了

你问他是不是这意思

我三月份做了两个

一个是用单点的

做了一个那个六七八月份的

单点的

还有一个是利用那个

三个检测器的

不不不

不管你用不用 你最后

你问他这个

就是你最后补偿

你那个精度百分之几

百分之几

是不是都是只算七月份的精度

对 因为我为了等一下作比较

懂吗

他六月份 八月份

和你这个没有关系

你当然去

我们所有基于数据的

本质上都是空间

都是这个分布都是距离

你六八月份和你这个东西

当然相差远了

如果你在七月份

你丢掉的那个数据点附近

你再加几个数据点

那肯定效果就大不一样

你看这个这也是用的

三个月的数据的

这也是用的三个月的数据的

你想说明什么

就是我如果说我将那个

虽然说距离比较远

距离比较远

但是我用的是相邻检测器的

数据的话

它的精度会提升

对 这个是没错的

因为你多用了一个检测器

对 那你相邻检测器

有可能那个检测器本身

它是那一个检测

这也是有这种关系嘛

你这个检测器有问题

它有不断有问题嘛

所以你把它用多了

它就有用了

我当然我不能百分之百

说我是对的

我提醒你这个

因为你觉得

你觉得这是一个好像是一个

是一个反直观的

我们经常讲

就是讲得到一个反直观的结论

是不容易的

我想给你解释这个

从我的理解不反直观

这是第一个

第二个你讲的那个什么那个

你另一个反直观你讲的是

如果你空间都用上的对吧

你七月份 七月份 七月份

都用上的

那你都是七月份 七月份

你都是七月份的

就是你第二件事情

就是我讲的

相当于在那一个点把加多了

你虽然删除一些

你用的其他的七月份的

那个数据加在这个地方

相当于把它增多了

所以从我的理解

这都不反直观

本质上就是有用样本

你第一种六七八月

六八月份的样本对七月份没用

所以它不影响它

第二种方法是

你增加这两个七月份的

是增加了有用样本

所以他(有观)

所以并不反直观

还是数据本身的这个

可以说明一个问题

跟你讨论 我不一定对啊

谢谢王老师 讲的很有道理

可以进一步作为

这个现象的解释嘛

我问你一个问题

你那个第二章第三章第四章的话

都使用了美国的数据是吧

你第二章的时候呢

你使用这个数据呢

这个线圈是在400237对吧

对对对

然后呢那个第三章你研究那个

PPCA的时候

你用了401670

换了一个

对吧 换了一个

然后等到第四章的时候呢

当然它们是相邻的了对吧

对 相邻的

三个在一起的 是不是

就我很好奇啊

就是如果是我来做

这篇论文的话呢

我一定要找到一个地方来比较

是不是

所以我一定会找401670

因为它前面也有 后面也有

是不是

那你为什么在第二章的时候

你选了最前面那个

因为这三个数据

从PeMS系统当中选出来

是比较不容易的

因为PeMS系统当中

它本身存在缺失嘛

然后我要选一个缺失率比较低的

然后对于这三个检测器的

其实它的缺失率基本上都非常低

我对于每组试验

我对这三个数据都做了

都做了试验

然后我在

因为之前是就是单篇小论文嘛

就是没有考虑到这个问题的

然后再来写这个

大论文的过程当中

也没有说

我去做进一步的这个

把它都统一起来

确实存在这个问题

我有两个小问题

一个是你的关键词

为什么是主成分分析法

混合主成分分析法

和核函数主成分分析法

前面其实还有一个关键词是

我不管那俩

我只说后三个

这几个关键词应该是

针对交通流这块去讲的

那和你的核心有关系吗

为什么把它们定为你的关键词

这个可能确实不是特别的恰当

第二个问题是

一个小错误就是在

虽然你的论文写的已经很认真了

在69页里边还是有两个错字

谢谢老师

在参考文献里边也有一个

你再回去查查

谢谢谢谢

好 没有了

你这个连续用三个

三个那个叫什么啊

三个那个测点的数

来恢复这个数据的方法

是就你一个人用

还是别人也有用的

在我们这篇文章发表之前

确实是没有的

他们都是很多的实验

都是基于单点那么去做

而且我现在看

2014年也发表了相关一些文章

他们也提出了一些新的方法

他们跟那个都是些那个

PPCA进行比较

然后他们在比较的过程当中

就是有一个非常有意思的问题

就是说

他们的缺失率已经达到70%了

在前面缺失率比较低的时候

他们的那个补偿精度是类似的

所以我在缺失率比较高的时候

他们的算法就是稍微会

会优一点

但是当实际过程中

如果缺失率达到70% 80%的时候

那个数据完全不能用了

它补偿的数据完全是不可信的了

就是即便是今年或者去年的论文

也没有人讨论多个测点的是吧

对对对

然后有一篇文章

就是他提出了就是说

目前存在的

也提到过目前存在的这个问题嘛

还有就是提出了一种

基于矩阵的一种补偿模型

就是说把它所有的数据就是

扔到一个矩阵里面

然后但是这个矩阵呢

由哪些数据构成呢

我们就是可以去借鉴啊

就是我利用多个点之间的

利用具有直接相关性

这种检测器去做

就是有提过

但是这个是我们

应该是我们先发表的文章

另外我就是借这个

刚才王老师说这个问题

就是无论是你做的

还是别人做的

这个数据补偿完了

到底都去干什么用了

我们实验室是自己做过

就是做预测

做短时交通流预测

前提必须对模型进行一个训练

但是训练的过程当中

我们需要是一个完备的数据

我们用了一个就是平均值

对 平均值法

把缺失数据进行补偿

然后进行训练 然后去预测

预测是给谁用的

我插一句

预测其实在

它是为了发文章

还是为了补偿用的

建模型

建模型

对对 建模型

然后做一些理论方面的分析

其实这个话题在国际里面

国际领域里也是比较认可的

因为之前我那篇文章也是

国外都是这样做的是吧

对 那个TRB那个会议

获奖的那篇也是就是说

他们这个一个期刊

就是举办这么一个比赛

专门给你了一堆数据

然后把很多数据挖掉

就是说我要让你去预测这几个点

然后我们把预测的结果发过去

然后他们真实值一比

就是效果比较好

就是大家都在这么做

因为这个其实在实际当中

是非常非常有用的

第一个我做一个短时交通的

信息的一个发布

第二个我做一个

如果说进一步做的话

我可以做实时的一个

红绿灯信号

我们进行一个动态的调整

就是大家传统的做法

还是先补数据然后再预测是吧

没有说我就不补数据

直接预测的

最原始的补数据的方法

就是平均值 历史平均值

在2005年的时候有一篇文章

就是ZongMing他是专门

针对应该是美国

当时是2005年

他们用的所有的方法

都是用那种平均值法

历史平均值法

反正就分了非常多的类

这么去做的

补缺总之应该跟你目的

要结合在一起用那才是对的是吧

我再强调一点

又回来了

我再强调一点这个

你这有简单应用那就算了

到此为止

好吧

李月标同学

答辩委员会给你这个论文

进行了讨论

我宣读一下最后的主要决议

答辩委员会认为

李月标同学论文达到了

工学硕士学位论文水平

经答辩委员会五人无记名投票

一致同意通过毕业论文答辩

一致建议授予李月标

工学硕士学位

并一致建议推荐为

优秀硕士学位论文

祝贺

2014年清华大学研究生学位论文答辩(二)课程列表:

第1周 经管学院

-王鑫《国际化对中国工资差距的影响研究》

--答辩人王鑫简介

--论文摘要

--论文答辩实况

--问答及答辩结果

--导师评价

--同学眼中的王鑫

--个人学术感言

第2周 化学系、金融学院、马院

-吴宇恩《Pt-Ni双金属催化剂的可控合成及催化性质研究》

--答辩人吴宇恩简介

--论文摘要

--吴宇恩答辩

--吴宇恩回答问题

--吴宇恩导师评价

--吴宇恩感言

-段昊泓《单原子层铑片及铑基二元纳米晶的合成及其催化性能研究》

--答辩人段昊泓简介

--论文摘要

--段昊泓答辩

--段昊泓问答

--段昊泓导师点评

--段昊泓采访

-刘凯《新颖拓扑结构的超两亲分子的构筑与功能》

--答辩人刘凯简介

--论文摘要

--化学系刘凯-个人答辩陈述

--化学系刘凯-问答及答辩结果

--化学系刘凯-导师评价

--化学系刘凯-个人感言

-谢臣哲《金融危机后央行调整存贷款基准利率对汇率影响的实证研究》

--答辩人谢臣哲简介

--论文摘要

--五道口金融学院-谢臣哲-个人答辩陈述

--五道口金融学院-谢臣哲-问答及答辩结果

--五道口金融学院-谢臣哲-个人感言

-张祎嵩《政治经济学视角下的欧债危机和欧洲经济政策》

--答辩人张祎嵩简介

--论文摘要

--张祎嵩答辩

--张祎嵩问答及答辩结果

--导师点评

--个人学术感言

第3周 工物系、自动化系、建筑学院

-吴文斌《基于并行技术的2D/1D耦合三维全堆输运方法研究》

--答辩人吴文斌简介

--论文摘要

--工物系吴文斌-个人答辩陈述

--工物系吴文斌-问答及答辩结果

--工物系吴文斌-导师评价

--工物系吴文斌-个人感言

-李月标《交通流缺失数据补偿算法的研究》

--答辩人李月标简介

--论文摘要

--自动化系李月标-个人答辩陈述

--自动化系李月标-问答及答辩结果

--自动化系李月标-导师评价

--自动化系李月标-个人感言

-房宇巍《从采育镇会所设计九号地看传统住宅的当代建构》

--答辩人房宇巍简介

--论文摘要

--建筑房宇巍答辩

--房宇巍问答

-朱琳《以浅空间理论分析中国园林并应用于凤河会所6号院设计》

--答辩人朱小琳简介

--论文摘要

--朱琳答辩

--建筑系朱琳问答

-杨睿《北京国家大剧院西侧街区保护与复兴设计策略初探》

--答辩人杨睿简介

--论文摘要

--杨睿答辩

--杨睿回答问题

第4周 建筑学院、航院、自动化系、计算机系、信研院

-邓施莹《应对南方滨海气候环境的酒店过渡空间优化设计研究——以广西北海银滩假日酒店为例》

--答辩人邓施莹简介

--论文摘要

--邓施莹答辩

--邓施莹问答

-任兆欣《超音速两相混合层中颗粒弥散与响应机制的研究》

--答辩人任兆欣简介

--论文摘要

--任兆欣答辩

--任兆欣问答

--任兆欣采访

--任兆欣导师点评

-章佳杰《车路协同框架下信号灯配时优化方法设计》

--答辩人章佳杰简介

--论文摘要

--自动化系章佳杰-个人答辩

--自动化系章佳杰-问答及答辩结果

--自动化系章佳杰-导师评价

--自动化系章佳杰-个人感言

-杨凯棣《孤立过饱和交叉口信号配时问题研究》

--答辩人杨凯棣简介

--论文摘要

--自动化系杨凯棣-个人答辩陈述

--自动化系杨凯棣-问答及答辩结果

--自动化系杨凯棣-导师评价

--自动化系杨凯棣-个人感言

-秦利静《推荐系统模型与学习算法研究》

--答辩人秦利静简介

--论文摘要

--计算机系秦利静答辩

--计算机系秦利静问答

--计算机系秦利静点评

--计算机系秦利静采访

-吴成钢《Property Testing and Related Problems》

--答辩人吴成钢简介

--论文摘要

--信研院吴成钢-个人答辩陈述

--信研院吴成钢-问答及答辩结果

--信研院吴成钢-个人感言

第5周 环境学院、人文学院、物理系

- 哈米德《Methane Combustion over Lanthanum-based Perovskite Mixed Oxides》

--答辩人哈米德简介

--论文摘要

--伊朗留学生答辩

--伊朗留学生问答

--伊朗留学生导师评价

--伊朗留学生访谈

-赖尚清《朱子仁论研究》

--答辩人赖尚清简介

--论文摘要

--人文-赖尚清答辩

--人文-赖尚清问答

--人文-赖尚清教师访谈

--人文-赖尚清访谈

-姜海波《人的存在与作为真理之本质的自由》

--答辩人姜海波简介

--论文摘要

--人文学院姜海波-个人答辩陈述

--人文学院姜海波-问答及答辩结果

--人文学院姜海波-导师评价

--人文学院姜海波-个人感言

-刘军伟《拓扑晶体绝缘体和拓扑绝缘体的材料预测和性质研究》

--答辩人刘军伟简介

--论文摘要

--物理系-刘军伟答辩

--物理系-刘军伟问答

--物理系-刘军伟导师点评

--物理系-刘军伟访谈

自动化系李月标-问答及答辩结果笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。