当前课程知识点:2014年清华大学研究生学位论文答辩(一) > 第3周 工物系、自动化系、建筑学院 > 李月标《交通流缺失数据补偿算法的研究》 > 自动化系李月标-个人答辩陈述
返回《2014年清华大学研究生学位论文答辩(一)》慕课在线视频课程列表
返回《2014年清华大学研究生学位论文答辩(一)》慕课在线视频列表
下面请李月标报告
20到25分钟
各位老师大家下午好
我叫李月标
来自自动化系系统工程研究所
我的指导老师是李志恒老师
我答辩的题目是
交通流缺失数据补偿算法的研究
我主要从以下几个方面
进行我的论述
首先第一部分选题背景及意义
我们都知道目前数据在各个领域内
已经发挥越来越重要的作用
在交通领域内同样存在着
同样的问题
交通数据在整个智能交通系统中
起到一个非常重要的基础作用
以北京市为例
北京市目前已经建成一个中心
三大平台八大子系统的
这么一个智能交通框架
从这个框架中我们可以
清楚的看到交通数据
在智能交通系统中的
一个关键的作用
此外在实际的交通
工程应用中
对于交通模型的应用
需要事先利用完备的交通数据
对交通模型进行校正
比如说利用交通流数据
进行红绿灯配时
比如说在短时交通流
预测领域内
那么在实际情况中
由于检测器故障
网络传输失败等原因
交通流缺失问题非常严重
北京市的交通流平均缺失率
大概在10%左右
图示所示的是北四环
连续几个断面内对缺失率
情况做一个统计
从中我们可以看出
几个断面的缺失率
已经高达25%以上
此外在国外的一个
PeMS系统当中
同样存在着交通流数据缺失问题
图示所示就是在该系统中
几个站点的一个缺失情况
总体而言他们缺失率比较低
但是个别站点的缺失率
竟高达30%
此外在国外的一些研究所
以及国外的一些研究者
在进行相关领域的研究过程中
同样报道出他们的一个
交通流数据缺失的情况
因此在过去的一段时间内
在交通流缺失数据
补偿领域内
已经涌现出了一大批的
交通流缺失数据补偿算法
但是目前存在这么一个问题
就是各种算法现在缺乏一个
统一的平台进行评估
第二个现有的绝大部分模型
都是基于单点的交通流
缺失数据补偿
因此其补偿精度的提高
有待进一步进行研究
针对以上问题
本课题提出了以下几个
研究内容
针对第一个问题
我们研究了典型补偿算法
通过搭建新的
模型分类框架
然后实现统一的实验评估平台
从而评选出最优
当前最优的一个补偿算法
然后针对第一部分
我们评选出来最优的
补偿算法
也就是PPCA
我们进一步研究了其
对应的改进算法
并且利用实验进行验证
针对第二个问题
我们研究了基于多个路口
也就是基于时空信息的
缺失数据补偿模型
并且对于PPCA
及其改进的模型进行扩展
融合交通流的时空信息
进一步提升缺失数据
补偿精度
并且利用实验进行了一个验证
本课题的研究内容
基于863和973项目的一个支撑
首先第一部分典型交通流
缺失数据补偿算法研究
在该部分下我们调研了
当前的典型缺失数据补偿算法
然后根据其补偿的机制
将其分成三类
基于预测类的
基于插值类的
还有基于统计学类的
基于预测类的主要是
它将当前数据和对应的
历史数据之间建立一个
映射关系
然后我在补偿的时候
利用这种映射关系
对缺失数据进行一个估计
这一算法最大的一个缺点
就是说我无法利用
当前点的之后的一些信息
第二类基于插值的一个算法
它主要是利用已知的
时间上邻近空间上邻近
或者模式上邻近的
一系列数据
对缺失数据进行估计
这类算法的最大缺点就是说
我如何去选择最优的
这种邻近度量方法
以及我选多少这种邻近的
数据进行估计
第三类是基于统计学类的
但是这个方法首先必须
我对这个数据给定一个
先验的概率分布
然后经过迭代的
迭代的过程当中
将模型的参数进行优化
以及将缺失数据进行补偿
该类算法最大的特点
就是我必须给出一个
比较合理的一个先验概率分布
在这个实际过程当中
可能会
可能会遇到一个困难
为了对这类算法进行
一个统一的评价
我们从每类算法中
选取了两类补偿模型
典型的补偿模型
进行一个实验
本实验过程当中采用的是
美国的PeMS系统当中的
一个单线圈数据
通过选取其中的两个
两个月的数据进行一个
简单的预处理
从而我们获取一个
完备的实验数据集
在实验过程当中
我们需要从这个完备的
数据集当中进行
缺失数据的模拟
然后实际交通环境中
缺失数据的
缺失数据模式
一般由两种情况组成
一个是完全随机模式
也就是说MCR模式
在该模式下它的缺失点
之间是互相独立的
第二种是随机连续缺失模式
也就是MR
在该模式下它的缺失数据
是往往呈连续出现的
然后实际情况往往是由
这两种情况混合模式
该图显示是在MCR模式下
我们对不同的缺失数据模型的
补偿精度随着缺失率的
一个变化情况
从图中我们可以非常直观的
可以看出基于预测类的
两类算法的补偿精度
明显比其他的补偿精度差
然后位于最下面的是一个
是PPCA补偿
补偿算法的精度
它是最高的
而对于MCMC
这种方法它比较特别
就是当它缺失率
在比较低的时候
它的补偿精度还算可以
但是当它缺失率
达到一定的程度的时候
它的补偿精度误差会比较大
这主要是因为我们在
不同的缺失率的情况下
我们的采样数量是一致的
比如说在缺失率比较高的时候
我们预先设计这么一个采样数量
已经不足以
不足以使这个采样过程
达到收敛
所以导致这个误差比较大
这是在连续缺失模式下的
一个情况
在MCR中其实可以得到
类似的结论
但是对于
对于BNs它比较特别
它的补偿精度是非常差的
而且它随着缺失率的波动
也是非常厉害
主要是因为在MR
缺失模式下的时候
因为它数据是呈连续的缺失
那么这种情况就是对于
BNs是非常不利的
在混合模式下
可以得出同样的结论
此外我们还对不同模型的
一个补偿精度利用箱线图
进行了一个简单的统计
这是MCR模式下的
这是MR模式下的
这是混合模式下的
从这三个当中
我们可以得出以下几个结论
第一个就是对于
它的补偿误差的一个分布
ARIMA模型 BNs模型 MCMC模型
这三种方法
它整个箱体是比较宽的
就是它的误差分布是比较广的
而对于误差的异常率
我们可以看出它的BNs模型
它是最大的
总体而言的话我们可以看到
这个PPCA模型
它在补偿误差这块也是
比较最优的
综合以上几个实验
我们可以得出这么一个结论
就是在当前的一个典型
交通流缺失数据补偿模型下
PPCA应该是属于比较好的
一种算法
以上相关内容发表在
IET ITS 一个期刊上面
前一个研究内容我们已经得出
PPCA在当前是一个
比较优的算法
那么这一部分我们将进一步研究
PPCA它的一个改进的算法
这是PPCA模型
的基本模型
根据这几个假设
我们可以得出几个
比较重要的概率分布
那么第二个就是
PPCA模型概率表示形式
那么我们进一步对
PPCA模型
这个模型进行研究
我们可以发现它还是
存在几个局限性
第一个就是观测变量Y
和X之间它是存在一种
线性映射关系
那么这种线性映射关系
能否有效的将交通流
交通流内部的
特性进行提取
是值得进一步研究的
第二个我们从PPCA的概率
表示模型可以看出
它是一个单高斯
单高斯模型
那么这种单高斯模型
在实际的交通流环境中
是否能够得到很好的满足
也是需要进一步研究的
那么针对第一个线性映射关系
我们引入了核函数的PPCA
也就是KPPCA
就是将观测变量Y进行一个
非线性函数的一个映射
第二个针对单高斯分布
我们引入了混合的PPCA
也就是MPPCA
对单高斯分布进行一个扩展
那么为了对这个算法
有效性进行验证
我们仍采用PeMS系统当中
另外一个单点线圈数据
同样获取了两个月数据
进行了简单的预处理之后
我们获得了一个完备的数据集
需要说明的是
在MPPCA当中
有一个参数就是说
这个模型当中PPCA
模型的个数
M0需要事先给定的
在实验过程当中我们直接
对M0取2 M0取3进行一个实验
从中我们可以发现
就是在M0等于2的时候
它的误差是优于
同等条件下
M0等于3的一个精度
因此我们在接下来的实验中
都是直接选取M0等于2
进行这么一个实验
这是在MCR模式下的
一个补偿精度情况
这是在MR情况下的
这是在混合模式下的
从中我们可以看出
以下几点
就是基于PPCA的
这三类模型
它的补偿精度随着
缺失率变化并不是非常的明显
我们可以看到它的这个
这个做出来它的精度
是非常高的
第二点仔细
仔细观察这个图
这几个图我们可以看到
就是即使PPCA
相比另外这两种算法
它的精度是略差
但是呢在实际环境中
我们不需要引入
这么复杂的那个算法
因为它提升的精度
并不是非常高
因此我们可以得出
就是在基于单点交通流
缺失数据补偿环境下
PPCA的两个假设
在实际过程当中其实能得到
比较好的符合
此外我们还直接
直观的对这三种算法的
一个计算效率
进行了一个比较
从中我们可以看出
PPCA它计算效率是非常高
然后MPPCA它次之
KPPCA它是最高的
此外我们还研究了
天气因素对补偿精度的
一个影响
为此我们将每一天的
补偿精度进行了一个评估
图中红色的表示下雨天
和蓝色表示的是晴天的
从中我们可以直观的
可以看出就是
它的一个补偿精度
在下雨天和晴天之间
是没有明显的区别
因此我们在实际的
进行操作的过程当中
不需要将晴天和雨天
做一个单独的补偿
因此大大简化了实际工程的
一个应用
以上的相关内容发表在
一个国际会议上
前两部分内容
都是基于单点交通流
缺失数据补偿的
因此这部分我们将
着重研究如何去基于时空信息
进一步提升缺失数据补偿精度
在实际环境中我们
我们可以知道就是
位于相邻的
相邻的检测器在相邻的
时间段内有极大的可能
检测到同一辆车经过
因此在实际环境中
相邻的检测器之间往往
具有比较高的一个相关性
并且这个相关性往往是
非线性的
第二个利用这种非线性关系
在短时的交通流领域内
已经有一些模型
就是利用这一信息
它提高了它的一个预测精度
但是对于缺失数据补偿领域内
目前这类
这类方法还比较少
因此这部分我们将讨论
将KPPCA和PPCA进行扩展
然后进一步研究它是否
能够有效的挖掘这些信息
从而有效提升
补偿的一个精度
为此我们直接采用
采用了PeMS系统中
具有上下游关系的三个站点
其中中间那个检测器
是我们需要研究的一个站点
下游检测器我们获取了
7月份的数据
然后中间获取了三个月的数据
上游检测器获取了
一个七月份的数据
根据这些数据我们设计了
一系列实验
首先第一个是基于
单点数据的实验
在单点数据下我们
又设置了两组实验
一个是基于目标检测器的
一个月份的数据
第二个是利用目标点
三个月的数据
我们设计这两组实验的
目的就是为了说明
在进行缺失数据补偿的时候
如果我单纯的增加样本数量
能否有效的提升
缺失数据补偿精度
需要我们验证的
然后第二组实验是
基于空间信息的
也就是我们利用了
上下游关系的同一个月份的
数据进行实验
第三组实验是基于时空信息
也就是说在基于
空间信息的实验基础上
我们加入了上下游
检测器
经过时延变换之后的
信息进行的实验
这是基于单点数据的
一个实验结果
从中我们可以非常
明显的看到无论这一个月
还是三个月
KPPCA和PPCA之间
它的一个区别是非常少
这跟我们之前的研究
得出的结论是一致的
然后通过我们横向对比
也可以发现
这两组之间它的补偿精度
也没有一个明显的差异
也就是说我在实际过程当中
我单纯的增加单个检测器的样本量
对于补偿精度的提升
也是没有意义的
这是基于空间信息的
也就是基于三个检测器的
七月份数据进行一个
实验的结果
从中我们可以非常
明显的可以看出
基于空间信息之后的
一个补偿精度
已经非常显著的得到提升
并且这紫色的是那个
KPPCA的基于
空间信息的实验结果
它的补偿精度比PPCA
是更高的
这个实验结果应该是
本论文当中
是最重要的一个发现吧
然后在基于时空信息的时候
我们之前说过就是
在上游检测器
增加了一个时间序列
向后平移的一个数据
对于下游检测器
我们增加了一个时间序列
向前平移的一个数据
进行实验
这是实验结果
从中我们可以看出
先看KPPCA
KPPCA在时空信息的
实验条件下它的补偿精度
又得到了进一步的提升
虽然不是非常明显
但是对于PPCA的话
它的精度反而下降了
我们分析主要是因为
我们将时延之后的样本
加入到这个矩阵之后
样本之间非线性特性
PPCA可能不能特别好的
去挖掘
特征信息导致的
此外我们还对每组实验
环境下的不同模型
补偿误差进行了单高斯的拟合
从中我们可以看出
基于时空信息下的KPPCA
它的均值是
误差均值最小的
方差也是最小的
但是我们考虑到它的
一个时间计算
时间计算效率
我们可以看出PPCA
它的计算时间普遍比较低
因此我们基于这部分的内容
我们给出以下几个
两个建议吧
就是对于线上应用
对于那些对于时间要求
比较高的模型我们
可以考虑利用
空间信息的PPCA补偿模型
进行实验
因为基于空间信息的
PPCA补偿模型它的时间
计算复杂度比较低
并且它的精度也
得到了非常高的提升
而对于线下应用
我们可以考虑基于
时间和空间信息的
KPPCA模型
进行缺失数据补偿
因为该模型下
它的补偿精度是最高的
这部分内容
发表在 Transportation Research Part C 上面
以下是对论文
简单做一个总结
我们整个研究内容
大概分成三部分
然后
对第一部分我们建立了
一个新的模型补偿分类框架
然后提出了统一的
一个评价平台
选取了最优的补偿算法
为实际交通工程
提供了一定的指导意义
对第二部分我们引入了
KPPCA和MPPCA
两种补偿算法
我们为在交通流缺失的
补偿里面提供了
新的思路和工具
在第三部分研究内容当中
我们提出了基于时空信息的
缺失数据补偿模型
并且取得了非常好的效果
本文的不足之处
以及未来的可能的改进方向
就是说进一步利用
城市路网的数据
进行进一步进行研究
第二个在做数据预处理的时候
我们进一步研究
是补偿和聚合之间的
一个辨证关系
第三个就是利用MPPCA
进行时空信息的一个实验
第四部分我们看到KPPCA
它的计算时间相对非常高
因此我们可以进一步研究
它对应的改进算法
最后简单介绍一下研究成果
这是硕士期间发表的
相关论文
这是TRB国际会议上
获得的一个奖
这是国家奖学金
我的答辩完了 谢谢
-王鑫《国际化对中国工资差距的影响研究》
--答辩人王鑫简介
--论文摘要
--论文答辩实况
--问答及答辩结果
--导师评价
--同学眼中的王鑫
--个人学术感言
-吴宇恩《Pt-Ni双金属催化剂的可控合成及催化性质研究》
--答辩人吴宇恩简介
--论文摘要
--吴宇恩答辩
--吴宇恩回答问题
--吴宇恩导师评价
--吴宇恩感言
-段昊泓《单原子层铑片及铑基二元纳米晶的合成及其催化性能研究》
--答辩人段昊泓简介
--论文摘要
--段昊泓答辩
--段昊泓问答
--段昊泓导师点评
--段昊泓采访
-刘凯《新颖拓扑结构的超两亲分子的构筑与功能》
--答辩人刘凯简介
--论文摘要
-谢臣哲《金融危机后央行调整存贷款基准利率对汇率影响的实证研究》
--答辩人谢臣哲简介
--论文摘要
-张祎嵩《政治经济学视角下的欧债危机和欧洲经济政策》
--答辩人张祎嵩简介
--论文摘要
--张祎嵩答辩
--导师点评
--个人学术感言
-吴文斌《基于并行技术的2D/1D耦合三维全堆输运方法研究》
--答辩人吴文斌简介
--论文摘要
-李月标《交通流缺失数据补偿算法的研究》
--答辩人李月标简介
--论文摘要
-房宇巍《从采育镇会所设计九号地看传统住宅的当代建构》
--答辩人房宇巍简介
--论文摘要
--建筑房宇巍答辩
--房宇巍问答
-朱琳《以浅空间理论分析中国园林并应用于凤河会所6号院设计》
--答辩人朱小琳简介
--论文摘要
--朱琳答辩
--建筑系朱琳问答
-杨睿《北京国家大剧院西侧街区保护与复兴设计策略初探》
--答辩人杨睿简介
--论文摘要
--杨睿答辩
--杨睿回答问题
-邓施莹《应对南方滨海气候环境的酒店过渡空间优化设计研究——以广西北海银滩假日酒店为例》
--答辩人邓施莹简介
--论文摘要
--邓施莹答辩
--邓施莹问答
-任兆欣《超音速两相混合层中颗粒弥散与响应机制的研究》
--答辩人任兆欣简介
--论文摘要
--任兆欣答辩
--任兆欣问答
--任兆欣采访
--任兆欣导师点评
-章佳杰《车路协同框架下信号灯配时优化方法设计》
--答辩人章佳杰简介
--论文摘要
-杨凯棣《孤立过饱和交叉口信号配时问题研究》
--答辩人杨凯棣简介
--论文摘要
-秦利静《推荐系统模型与学习算法研究》
--答辩人秦利静简介
--论文摘要
-吴成钢《Property Testing and Related Problems》
--答辩人吴成钢简介
--论文摘要
- 哈米德《Methane Combustion over Lanthanum-based Perovskite Mixed Oxides》
--答辩人哈米德简介
--论文摘要
--伊朗留学生答辩
--伊朗留学生问答
--伊朗留学生访谈
-赖尚清《朱子仁论研究》
--答辩人赖尚清简介
--论文摘要
--人文-赖尚清答辩
--人文-赖尚清问答
--人文-赖尚清访谈
-姜海波《人的存在与作为真理之本质的自由》
--答辩人姜海波简介
--论文摘要
-刘军伟《拓扑晶体绝缘体和拓扑绝缘体的材料预测和性质研究》
--答辩人刘军伟简介
--论文摘要