当前课程知识点:2014年清华大学研究生学位论文答辩(一) >  第3周 工物系、自动化系、建筑学院 >  李月标《交通流缺失数据补偿算法的研究》 >  自动化系李月标-个人答辩陈述

返回《2014年清华大学研究生学位论文答辩(一)》慕课在线视频课程列表

自动化系李月标-个人答辩陈述在线视频

自动化系李月标-个人答辩陈述

下一节:自动化系李月标-问答及答辩结果

返回《2014年清华大学研究生学位论文答辩(一)》慕课在线视频列表

自动化系李月标-个人答辩陈述课程教案、知识点、字幕

下面请李月标报告

20到25分钟

各位老师大家下午好

我叫李月标

来自自动化系系统工程研究所

我的指导老师是李志恒老师

我答辩的题目是

交通流缺失数据补偿算法的研究

我主要从以下几个方面

进行我的论述

首先第一部分选题背景及意义

我们都知道目前数据在各个领域内

已经发挥越来越重要的作用

在交通领域内同样存在着

同样的问题

交通数据在整个智能交通系统中

起到一个非常重要的基础作用

以北京市为例

北京市目前已经建成一个中心

三大平台八大子系统的

这么一个智能交通框架

从这个框架中我们可以

清楚的看到交通数据

在智能交通系统中的

一个关键的作用

此外在实际的交通

工程应用中

对于交通模型的应用

需要事先利用完备的交通数据

对交通模型进行校正

比如说利用交通流数据

进行红绿灯配时

比如说在短时交通流

预测领域内

那么在实际情况中

由于检测器故障

网络传输失败等原因

交通流缺失问题非常严重

北京市的交通流平均缺失率

大概在10%左右

图示所示的是北四环

连续几个断面内对缺失率

情况做一个统计

从中我们可以看出

几个断面的缺失率

已经高达25%以上

此外在国外的一个

PeMS系统当中

同样存在着交通流数据缺失问题

图示所示就是在该系统中

几个站点的一个缺失情况

总体而言他们缺失率比较低

但是个别站点的缺失率

竟高达30%

此外在国外的一些研究所

以及国外的一些研究者

在进行相关领域的研究过程中

同样报道出他们的一个

交通流数据缺失的情况

因此在过去的一段时间内

在交通流缺失数据

补偿领域内

已经涌现出了一大批的

交通流缺失数据补偿算法

但是目前存在这么一个问题

就是各种算法现在缺乏一个

统一的平台进行评估

第二个现有的绝大部分模型

都是基于单点的交通流

缺失数据补偿

因此其补偿精度的提高

有待进一步进行研究

针对以上问题

本课题提出了以下几个

研究内容

针对第一个问题

我们研究了典型补偿算法

通过搭建新的

模型分类框架

然后实现统一的实验评估平台

从而评选出最优

当前最优的一个补偿算法

然后针对第一部分

我们评选出来最优的

补偿算法

也就是PPCA

我们进一步研究了其

对应的改进算法

并且利用实验进行验证

针对第二个问题

我们研究了基于多个路口

也就是基于时空信息的

缺失数据补偿模型

并且对于PPCA

及其改进的模型进行扩展

融合交通流的时空信息

进一步提升缺失数据

补偿精度

并且利用实验进行了一个验证

本课题的研究内容

基于863和973项目的一个支撑

首先第一部分典型交通流

缺失数据补偿算法研究

在该部分下我们调研了

当前的典型缺失数据补偿算法

然后根据其补偿的机制

将其分成三类

基于预测类的

基于插值类的

还有基于统计学类的

基于预测类的主要是

它将当前数据和对应的

历史数据之间建立一个

映射关系

然后我在补偿的时候

利用这种映射关系

对缺失数据进行一个估计

这一算法最大的一个缺点

就是说我无法利用

当前点的之后的一些信息

第二类基于插值的一个算法

它主要是利用已知的

时间上邻近空间上邻近

或者模式上邻近的

一系列数据

对缺失数据进行估计

这类算法的最大缺点就是说

我如何去选择最优的

这种邻近度量方法

以及我选多少这种邻近的

数据进行估计

第三类是基于统计学类的

但是这个方法首先必须

我对这个数据给定一个

先验的概率分布

然后经过迭代的

迭代的过程当中

将模型的参数进行优化

以及将缺失数据进行补偿

该类算法最大的特点

就是我必须给出一个

比较合理的一个先验概率分布

在这个实际过程当中

可能会

可能会遇到一个困难

为了对这类算法进行

一个统一的评价

我们从每类算法中

选取了两类补偿模型

典型的补偿模型

进行一个实验

本实验过程当中采用的是

美国的PeMS系统当中的

一个单线圈数据

通过选取其中的两个

两个月的数据进行一个

简单的预处理

从而我们获取一个

完备的实验数据集

在实验过程当中

我们需要从这个完备的

数据集当中进行

缺失数据的模拟

然后实际交通环境中

缺失数据的

缺失数据模式

一般由两种情况组成

一个是完全随机模式

也就是说MCR模式

在该模式下它的缺失点

之间是互相独立的

第二种是随机连续缺失模式

也就是MR

在该模式下它的缺失数据

是往往呈连续出现的

然后实际情况往往是由

这两种情况混合模式

该图显示是在MCR模式下

我们对不同的缺失数据模型的

补偿精度随着缺失率的

一个变化情况

从图中我们可以非常直观的

可以看出基于预测类的

两类算法的补偿精度

明显比其他的补偿精度差

然后位于最下面的是一个

是PPCA补偿

补偿算法的精度

它是最高的

而对于MCMC

这种方法它比较特别

就是当它缺失率

在比较低的时候

它的补偿精度还算可以

但是当它缺失率

达到一定的程度的时候

它的补偿精度误差会比较大

这主要是因为我们在

不同的缺失率的情况下

我们的采样数量是一致的

比如说在缺失率比较高的时候

我们预先设计这么一个采样数量

已经不足以

不足以使这个采样过程

达到收敛

所以导致这个误差比较大

这是在连续缺失模式下的

一个情况

在MCR中其实可以得到

类似的结论

但是对于

对于BNs它比较特别

它的补偿精度是非常差的

而且它随着缺失率的波动

也是非常厉害

主要是因为在MR

缺失模式下的时候

因为它数据是呈连续的缺失

那么这种情况就是对于

BNs是非常不利的

在混合模式下

可以得出同样的结论

此外我们还对不同模型的

一个补偿精度利用箱线图

进行了一个简单的统计

这是MCR模式下的

这是MR模式下的

这是混合模式下的

从这三个当中

我们可以得出以下几个结论

第一个就是对于

它的补偿误差的一个分布

ARIMA模型 BNs模型 MCMC模型

这三种方法

它整个箱体是比较宽的

就是它的误差分布是比较广的

而对于误差的异常率

我们可以看出它的BNs模型

它是最大的

总体而言的话我们可以看到

这个PPCA模型

它在补偿误差这块也是

比较最优的

综合以上几个实验

我们可以得出这么一个结论

就是在当前的一个典型

交通流缺失数据补偿模型下

PPCA应该是属于比较好的

一种算法

以上相关内容发表在

IET ITS 一个期刊上面

前一个研究内容我们已经得出

PPCA在当前是一个

比较优的算法

那么这一部分我们将进一步研究

PPCA它的一个改进的算法

这是PPCA模型

的基本模型

根据这几个假设

我们可以得出几个

比较重要的概率分布

那么第二个就是

PPCA模型概率表示形式

那么我们进一步对

PPCA模型

这个模型进行研究

我们可以发现它还是

存在几个局限性

第一个就是观测变量Y

和X之间它是存在一种

线性映射关系

那么这种线性映射关系

能否有效的将交通流

交通流内部的

特性进行提取

是值得进一步研究的

第二个我们从PPCA的概率

表示模型可以看出

它是一个单高斯

单高斯模型

那么这种单高斯模型

在实际的交通流环境中

是否能够得到很好的满足

也是需要进一步研究的

那么针对第一个线性映射关系

我们引入了核函数的PPCA

也就是KPPCA

就是将观测变量Y进行一个

非线性函数的一个映射

第二个针对单高斯分布

我们引入了混合的PPCA

也就是MPPCA

对单高斯分布进行一个扩展

那么为了对这个算法

有效性进行验证

我们仍采用PeMS系统当中

另外一个单点线圈数据

同样获取了两个月数据

进行了简单的预处理之后

我们获得了一个完备的数据集

需要说明的是

在MPPCA当中

有一个参数就是说

这个模型当中PPCA

模型的个数

M0需要事先给定的

在实验过程当中我们直接

对M0取2 M0取3进行一个实验

从中我们可以发现

就是在M0等于2的时候

它的误差是优于

同等条件下

M0等于3的一个精度

因此我们在接下来的实验中

都是直接选取M0等于2

进行这么一个实验

这是在MCR模式下的

一个补偿精度情况

这是在MR情况下的

这是在混合模式下的

从中我们可以看出

以下几点

就是基于PPCA的

这三类模型

它的补偿精度随着

缺失率变化并不是非常的明显

我们可以看到它的这个

这个做出来它的精度

是非常高的

第二点仔细

仔细观察这个图

这几个图我们可以看到

就是即使PPCA

相比另外这两种算法

它的精度是略差

但是呢在实际环境中

我们不需要引入

这么复杂的那个算法

因为它提升的精度

并不是非常高

因此我们可以得出

就是在基于单点交通流

缺失数据补偿环境下

PPCA的两个假设

在实际过程当中其实能得到

比较好的符合

此外我们还直接

直观的对这三种算法的

一个计算效率

进行了一个比较

从中我们可以看出

PPCA它计算效率是非常高

然后MPPCA它次之

KPPCA它是最高的

此外我们还研究了

天气因素对补偿精度的

一个影响

为此我们将每一天的

补偿精度进行了一个评估

图中红色的表示下雨天

和蓝色表示的是晴天的

从中我们可以直观的

可以看出就是

它的一个补偿精度

在下雨天和晴天之间

是没有明显的区别

因此我们在实际的

进行操作的过程当中

不需要将晴天和雨天

做一个单独的补偿

因此大大简化了实际工程的

一个应用

以上的相关内容发表在

一个国际会议上

前两部分内容

都是基于单点交通流

缺失数据补偿的

因此这部分我们将

着重研究如何去基于时空信息

进一步提升缺失数据补偿精度

在实际环境中我们

我们可以知道就是

位于相邻的

相邻的检测器在相邻的

时间段内有极大的可能

检测到同一辆车经过

因此在实际环境中

相邻的检测器之间往往

具有比较高的一个相关性

并且这个相关性往往是

非线性的

第二个利用这种非线性关系

在短时的交通流领域内

已经有一些模型

就是利用这一信息

它提高了它的一个预测精度

但是对于缺失数据补偿领域内

目前这类

这类方法还比较少

因此这部分我们将讨论

将KPPCA和PPCA进行扩展

然后进一步研究它是否

能够有效的挖掘这些信息

从而有效提升

补偿的一个精度

为此我们直接采用

采用了PeMS系统中

具有上下游关系的三个站点

其中中间那个检测器

是我们需要研究的一个站点

下游检测器我们获取了

7月份的数据

然后中间获取了三个月的数据

上游检测器获取了

一个七月份的数据

根据这些数据我们设计了

一系列实验

首先第一个是基于

单点数据的实验

在单点数据下我们

又设置了两组实验

一个是基于目标检测器的

一个月份的数据

第二个是利用目标点

三个月的数据

我们设计这两组实验的

目的就是为了说明

在进行缺失数据补偿的时候

如果我单纯的增加样本数量

能否有效的提升

缺失数据补偿精度

需要我们验证的

然后第二组实验是

基于空间信息的

也就是我们利用了

上下游关系的同一个月份的

数据进行实验

第三组实验是基于时空信息

也就是说在基于

空间信息的实验基础上

我们加入了上下游

检测器

经过时延变换之后的

信息进行的实验

这是基于单点数据的

一个实验结果

从中我们可以非常

明显的看到无论这一个月

还是三个月

KPPCA和PPCA之间

它的一个区别是非常少

这跟我们之前的研究

得出的结论是一致的

然后通过我们横向对比

也可以发现

这两组之间它的补偿精度

也没有一个明显的差异

也就是说我在实际过程当中

我单纯的增加单个检测器的样本量

对于补偿精度的提升

也是没有意义的

这是基于空间信息的

也就是基于三个检测器的

七月份数据进行一个

实验的结果

从中我们可以非常

明显的可以看出

基于空间信息之后的

一个补偿精度

已经非常显著的得到提升

并且这紫色的是那个

KPPCA的基于

空间信息的实验结果

它的补偿精度比PPCA

是更高的

这个实验结果应该是

本论文当中

是最重要的一个发现吧

然后在基于时空信息的时候

我们之前说过就是

在上游检测器

增加了一个时间序列

向后平移的一个数据

对于下游检测器

我们增加了一个时间序列

向前平移的一个数据

进行实验

这是实验结果

从中我们可以看出

先看KPPCA

KPPCA在时空信息的

实验条件下它的补偿精度

又得到了进一步的提升

虽然不是非常明显

但是对于PPCA的话

它的精度反而下降了

我们分析主要是因为

我们将时延之后的样本

加入到这个矩阵之后

样本之间非线性特性

PPCA可能不能特别好的

去挖掘

特征信息导致的

此外我们还对每组实验

环境下的不同模型

补偿误差进行了单高斯的拟合

从中我们可以看出

基于时空信息下的KPPCA

它的均值是

误差均值最小的

方差也是最小的

但是我们考虑到它的

一个时间计算

时间计算效率

我们可以看出PPCA

它的计算时间普遍比较低

因此我们基于这部分的内容

我们给出以下几个

两个建议吧

就是对于线上应用

对于那些对于时间要求

比较高的模型我们

可以考虑利用

空间信息的PPCA补偿模型

进行实验

因为基于空间信息的

PPCA补偿模型它的时间

计算复杂度比较低

并且它的精度也

得到了非常高的提升

而对于线下应用

我们可以考虑基于

时间和空间信息的

KPPCA模型

进行缺失数据补偿

因为该模型下

它的补偿精度是最高的

这部分内容

发表在 Transportation Research Part C 上面

以下是对论文

简单做一个总结

我们整个研究内容

大概分成三部分

然后

对第一部分我们建立了

一个新的模型补偿分类框架

然后提出了统一的

一个评价平台

选取了最优的补偿算法

为实际交通工程

提供了一定的指导意义

对第二部分我们引入了

KPPCA和MPPCA

两种补偿算法

我们为在交通流缺失的

补偿里面提供了

新的思路和工具

在第三部分研究内容当中

我们提出了基于时空信息的

缺失数据补偿模型

并且取得了非常好的效果

本文的不足之处

以及未来的可能的改进方向

就是说进一步利用

城市路网的数据

进行进一步进行研究

第二个在做数据预处理的时候

我们进一步研究

是补偿和聚合之间的

一个辨证关系

第三个就是利用MPPCA

进行时空信息的一个实验

第四部分我们看到KPPCA

它的计算时间相对非常高

因此我们可以进一步研究

它对应的改进算法

最后简单介绍一下研究成果

这是硕士期间发表的

相关论文

这是TRB国际会议上

获得的一个奖

这是国家奖学金

我的答辩完了 谢谢

2014年清华大学研究生学位论文答辩(一)课程列表:

第1周 经管学院

-王鑫《国际化对中国工资差距的影响研究》

--答辩人王鑫简介

--论文摘要

--论文答辩实况

--问答及答辩结果

--导师评价

--同学眼中的王鑫

--个人学术感言

第2周 化学系、金融学院、马院

-吴宇恩《Pt-Ni双金属催化剂的可控合成及催化性质研究》

--答辩人吴宇恩简介

--论文摘要

--吴宇恩答辩

--吴宇恩回答问题

--吴宇恩导师评价

--吴宇恩感言

-段昊泓《单原子层铑片及铑基二元纳米晶的合成及其催化性能研究》

--答辩人段昊泓简介

--论文摘要

--段昊泓答辩

--段昊泓问答

--段昊泓导师点评

--段昊泓采访

-刘凯《新颖拓扑结构的超两亲分子的构筑与功能》

--答辩人刘凯简介

--论文摘要

--化学系刘凯-个人答辩陈述

--化学系刘凯-问答及答辩结果

--化学系刘凯-导师评价

--化学系刘凯-个人感言

-谢臣哲《金融危机后央行调整存贷款基准利率对汇率影响的实证研究》

--答辩人谢臣哲简介

--论文摘要

--五道口金融学院-谢臣哲-个人答辩陈述

--五道口金融学院-谢臣哲-问答及答辩结果

--五道口金融学院-谢臣哲-个人感言

-张祎嵩《政治经济学视角下的欧债危机和欧洲经济政策》

--答辩人张祎嵩简介

--论文摘要

--张祎嵩答辩

--张祎嵩问答及答辩结果

--导师点评

--个人学术感言

第3周 工物系、自动化系、建筑学院

-吴文斌《基于并行技术的2D/1D耦合三维全堆输运方法研究》

--答辩人吴文斌简介

--论文摘要

--工物系吴文斌-个人答辩陈述

--工物系吴文斌-问答及答辩结果

--工物系吴文斌-导师评价

--工物系吴文斌-个人感言

-李月标《交通流缺失数据补偿算法的研究》

--答辩人李月标简介

--论文摘要

--自动化系李月标-个人答辩陈述

--自动化系李月标-问答及答辩结果

--自动化系李月标-导师评价

--自动化系李月标-个人感言

-房宇巍《从采育镇会所设计九号地看传统住宅的当代建构》

--答辩人房宇巍简介

--论文摘要

--建筑房宇巍答辩

--房宇巍问答

-朱琳《以浅空间理论分析中国园林并应用于凤河会所6号院设计》

--答辩人朱小琳简介

--论文摘要

--朱琳答辩

--建筑系朱琳问答

-杨睿《北京国家大剧院西侧街区保护与复兴设计策略初探》

--答辩人杨睿简介

--论文摘要

--杨睿答辩

--杨睿回答问题

第4周 建筑学院、航院、自动化系、计算机系、信研院

-邓施莹《应对南方滨海气候环境的酒店过渡空间优化设计研究——以广西北海银滩假日酒店为例》

--答辩人邓施莹简介

--论文摘要

--邓施莹答辩

--邓施莹问答

-任兆欣《超音速两相混合层中颗粒弥散与响应机制的研究》

--答辩人任兆欣简介

--论文摘要

--任兆欣答辩

--任兆欣问答

--任兆欣采访

--任兆欣导师点评

-章佳杰《车路协同框架下信号灯配时优化方法设计》

--答辩人章佳杰简介

--论文摘要

--自动化系章佳杰-个人答辩

--自动化系章佳杰-问答及答辩结果

--自动化系章佳杰-导师评价

--自动化系章佳杰-个人感言

-杨凯棣《孤立过饱和交叉口信号配时问题研究》

--答辩人杨凯棣简介

--论文摘要

--自动化系杨凯棣-个人答辩陈述

--自动化系杨凯棣-问答及答辩结果

--自动化系杨凯棣-导师评价

--自动化系杨凯棣-个人感言

-秦利静《推荐系统模型与学习算法研究》

--答辩人秦利静简介

--论文摘要

--计算机系秦利静答辩

--计算机系秦利静问答

--计算机系秦利静点评

--计算机系秦利静采访

-吴成钢《Property Testing and Related Problems》

--答辩人吴成钢简介

--论文摘要

--信研院吴成钢-个人答辩陈述

--信研院吴成钢-问答及答辩结果

--信研院吴成钢-个人感言

第5周 环境学院、人文学院、物理系

- 哈米德《Methane Combustion over Lanthanum-based Perovskite Mixed Oxides》

--答辩人哈米德简介

--论文摘要

--伊朗留学生答辩

--伊朗留学生问答

--伊朗留学生导师评价

--伊朗留学生访谈

-赖尚清《朱子仁论研究》

--答辩人赖尚清简介

--论文摘要

--人文-赖尚清答辩

--人文-赖尚清问答

--人文-赖尚清教师访谈

--人文-赖尚清访谈

-姜海波《人的存在与作为真理之本质的自由》

--答辩人姜海波简介

--论文摘要

--人文学院姜海波-个人答辩陈述

--人文学院姜海波-问答及答辩结果

--人文学院姜海波-导师评价

--人文学院姜海波-个人感言

-刘军伟《拓扑晶体绝缘体和拓扑绝缘体的材料预测和性质研究》

--答辩人刘军伟简介

--论文摘要

--物理系-刘军伟答辩

--物理系-刘军伟问答

--物理系-刘军伟导师点评

--物理系-刘军伟访谈

自动化系李月标-个人答辩陈述笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航 课程版权归原始院校所有,
本网站仅通过互联网进行慕课课程索引,不提供在线课程学习和视频,请同学们点击报名到课程提供网站进行学习。