当前课程知识点:2016年清华大学研究生学位论文答辩(一) > 第三周 自动化系——冯会娟 > 问答及及答辩结果 > 问题及答辩结果
返回《2016年清华大学研究生学位论文答辩(一)》慕课在线视频课程列表
返回《2016年清华大学研究生学位论文答辩(一)》慕课在线视频列表
下面请各位委员提问
从那边开始吗
一个一个
都可以 都可以 都可以
我问一下你那个
关于大脑那个RNA-Seq那个数据
你们用的是别人的data是吧
我们是自己产生的
自己产生的
对对
你们有没有
因为那个大脑里面这个
各个神经细胞的表达谱
也是不一样的
对
那个你们有没有考虑
就是至少分区那样子
对 我们用的就是
那个皮质那一块
皮质那一块
对 不是整个大脑
不是整个大脑
对
行
我想问一下那个
以前大家来评价这个
RNA这个这些sample
是不是降解
一般就是先看这个跑胶是吧
就是一些生物学实验
对
你有没有做过一个对比
就是说这个
比如说用这种方式
然后如果是在这个
能看到这些降解的
这些sample
肉眼就能看见的这些sample
然后在你们的评价里边
会有什么样的一个表现
有 对 我们有对比
因为那个时间关系
就没有放上去
我这有一个片子
就是那个生物学的方法
它是用那个RIN的方法
然后它通过跑胶
来分析那个基于rRNA
这个样本是不是有没有降解
所以我们在公开数据里边
找了有就是这个样本
它能够提供RIN这个指标
然后就用我们的方法
分析了一下
然后比较了一下mRIN
跟RIN这两个方法
就相当于一个实验方法
一个是基于数据的方法
对样本那个RA降解那个评估
我们这有一个图
对 我们这在这个数据上
可以看到就是用mRIN
跟RIN比首先是
就是因为目前来说
对于样本质量评估
大家还是用RIN
这种实验方法
所以我们首先将mRIN
跟RIN做的对比
然后发现mRIN跟RIN
其实它在有一定程度的相关性
但是我们认为
就是RIN这个方法
它主要是基于那个rRNA的特征
所以我们认为它是捕捉不到
就是mRNA的降解
然后我们在这又用了一个
就是相当于是提供一个
提供一个参考
就是对那些RIN值比较高
mRIN值也比较高的样本
我们认为它是参考样本
然后就去分析这些样本里边
如果它跟
就是它降解的程度
跟参考样本的对比
计算它的那个相关性
然后我们发现比起RIN来说
mRIN它更能预测样本
降解样本与参考样本的关系
mRIN为什么有负值
因为我们算的是
一个那个把所有的样本中
所有基因的mKS
做了一个负平均
为了跟RIN
相当于是跟RIN有一个对比
因为RIN的话
它是从0到10
然后0的话就代表
这个样本的降解特别严重
10的话代表
这个样本是基本没有降解
然后我们相当于也就是
为了保持跟RIN一致
就是说mRIN越低
那就是希望它的那个
就是mRIN越低
表征样本的降解越严重
所以因为是基于那个mKS算的
所以会有一定的负值
那它的正负号有意义吗
没有
就是0是表示什么
降解还是不降解
这就是mRIN
它需要给一个
从统计程度上
给一个那个显著性的判断
就是说你单纯的这个数值
是没有意义的
所以需要一个
比如说我们需要建立一个
一个所有样本的一个
降解跟不降解的数据库
就是说这里边所有的样本
它降解的样本
它应该是这样的mRIN值
不降解的样本是
那样的mRIN值
然后我们提供的样本
在这个数据库中
来计算它的那个分布
然后给出一个
降解跟不降解的那个统计
显著性的检验
那不同的测序实验
或者不同测序的机器的型号
它弄出来的数据
这个mRIN值可比吗
这个我们我暂时还不清楚
因为我们现在所有的数据
都是Illumina
得到的那个数据
没有去分析别的数据
就是说你会不会看到说
一个batch的
这个样本的mRIN值
普通偏高还是偏低呢
但是它不一定是说是真正的
它有可能有batch effect
对
表达的数据有batch effect
它都可以影响
我们
因为你说用数据库来做参考
那么这个就是不同的batch
有什么有多大的可比性
对于mRIN值来说
这个因为我们目前
主要是就是我们这部分的研究
主要是基于BrainSpan
跟GTEx这两个数据
然后GTEx
其实它也是有不同的
实验室做的不同的batch
然后我们在GTEx的数据中
没有发现就是有特别明显的
batch effect
但是如果搜集比如说不同的
别的实验室
做的一些小样本数据
我觉得可能会有
但是我们还没有
往那些数据上尝试
我再补充一下
就是这个mRIN的这个事情
就是说你说是
这个要需要要建立一个数据库
这不同的
比如说不同可能细胞类型
它也有可能需要
有一个对比的参考值是吧
对
那么这些参考值
是从哪能获得或者是
其实就像那个RIN这个方法
它也是就是说它把这个样本
先把所有的RNA
完整的RNA
它认为跑胶得到的
完整的RNA它测一个RIN
然后给一个值
然后对 其实是一样的
我问一个就是你对你这个方法的
就是信心的一个
就是是和你对你这个方法
有信心的一个问题吧
就是你前面那个是膀胱癌是吧
前列腺癌
前列腺癌
前列腺癌
那个你通过这种
RNA-Seq的数据
然后经过你的算法
找到了CDK5
这样的一个可变剪切
对这个癌症有影响
那你觉得是相关性呢
还是因果性呢
或者说你的这个
生物信息应用的这种
这种分析方法能够就是
这种结果能不能拿去
就是用实验来验证它
对 我们之前是准备做实验
但是那个实验
后来是因为就是医学院老师
那边的细胞的培养的问题
然后还没有就是
后来实验就没有做成
但是确实是想做实验验证的
因为CDK5这个基因
它本来跟前列腺癌的这个关系
之前的研究就有一些报道
然后也有一些实验
就是敲除CDK5之后
在前列腺癌的细胞中
看到很明显的一个
phenotype的变化
所以我们认为
就是我们又观察到了
很强烈的CDK5的差异剪切
然后而且它的两个转入本有着
基本就是一个有激酶功能
一个没有
那我们认为就是
这个差异剪切
在跟那个雄性激素受体受体的作用
应该是会有一定的实验效果的
但是我们还没有做
就是说之前做没有做完
简单回答他那个其实是
其实是我们是认为
它是个因果关系
就是它是有原因的
他的主要问题就是
你是觉得它是相关性
它是有原因吗
对对对
我们还是推测它是一个原因
同时往细里追究的话
就是说你们那个RNA-Seq的数据
应该是global的
一个谱学的数据
对对
那就是CDK5
这是一个从打分来说
是最高的呢还是就是它是
就是一个specific的
其它都没有 就它有
因为我们是
就是说我们有一个
很严格的一个过滤过程
就是说做了多步的分析
然后一步一步的滤到了CDK5
之前主要是关心
因为前列腺癌里边
有一个雄性激素受体的信号通路
然后这个雄性激素受体信号通路里边
有大量的激酶参与
所以我们就把首先把目标
放在了激酶的研究中
然后对于这些激酶
就是我们看它是不是有差异剪切
对差异剪切的激酶
然后我们去做
它的那个蛋白质结构域的功能预测
然后经过这个预测
得到的筛选后的基因
然后我们再进行
它跟前列腺癌的相关的
相关性的研究
然后我们最后找到了这个基因
这个基因它的
你的意思是那个
生物信息学分析之前
你已经整合了很多
这个癌症相关的factor
很多的知识是吧
对
谢谢
我觉得做了
也做了很多工作
那我也就接着刚才那个问
因为你这个选择的是
这个前列腺癌通路里面
然后找到了这个CDK5对吧
我们就是
我们刚开始要做这个前列
做激酶的话
是因为前列腺癌
它的那个信号通路里边
有大量的激酶参与
但并不是只关心
那个参与信号通路的激酶
因为我们认为
就是可能一个通路
它不一定初始有那么全
所以我们关心的
是整个激酶家族有518个基因
是整个激酶
然后跟那个前列腺这个通路做
从这个里面能找出来是吧
就是 就是说做激酶
是因为前列腺癌的通路
跟激酶有关系
但是我们后边的分析
没有局限于前列腺癌这个通路里
就是基本是所有的激酶
就是都做了分析
然后一步一步的进行过滤
是
因为你如果直接
从这个通路来的话
你还不如直接就拿通路做
对对
就不需要前面那么复杂了
对 因为它的通路里边的
激酶特别少 就没几个
但是参与的这些基因
主要都是激酶
所以我们认为激酶
在前列腺癌里边比较重要
那你这个
除了找出这个CDK5以外
你还找出别的没有
我们也找出一些别的基因
但是对它那个进行
转入本水平的分析
而且发现
就是也做了一些文献调研
然后其它的基因
没有在文献里边发现有很强的
跟雄性激素受体
有比较强的那个作用关系
我们是挑了这个作为一个例子
行 那我再问你一个小问题
就是说因为你前面提到了
有那个共剪接网络是吧
有一个共表达网络
对
是吧
你觉得这个共剪接网络
它的那个网络的边是什么
共剪接网络的边
我们目前画的时候
每个节点是一个exon
然后一个边其实是不知道
它是不是因果关系
或者相互作用关系
但是我们认为
在这个共剪接网络里边
就是因为建立这个共剪接网络
是基于这些外显子的
那个剪接模式
然后我们就认为这个
在这个网络里面这些外显子
它随着这个发育的过程中
有着相似的剪接模式
比如说它在早期都包含
在晚期都被剪切掉
只是说它的模式相似
但是我们不知道是因果关系
还是 对
但是我们进行了分析
发现这些外显子所在的基因
它都有比较
就是在神经的形成中
有相似的功能
这个共剪接网络
和共表达网络之间
你觉得它们之间的这种关系
就是有什么区别和联系
或者关系大吗
共剪接网络和共表达网络的
区别和联系
影响因素
我觉得共剪接网络
跟共表达网络
基本上是在两个层次
其实我觉得共剪接网络
是在转入本水平
你其实可以认为是
除了在基因层次的网络
一个调控网络
在转入本水平存在着
另外一个调控网络
就是我们希望就是说
在基因水平的网络研究
越来越广泛跟充分之后
大家可以转向
转入本水平的网络的研究中
行
我刚刚那个你有一个预测
那个发育成熟的那个图
对 就是你这样的这个点
不是很多那个散点图里面
就是我想知道
你这是怎么来这个
训练这个模型
其实因为这个点还是挺多的
只不过是因为你它这个是
比如说它的实际成熟度是离散的
然后很多点它都是一样的
聚在一起的
就是你知道我们这
总共有96个样本
应该是有
我们96个样本里边
有60个样本
是知道它的真实的成熟度的
所以这应该是有60个样本
但是很多点重合在一起
重合点在一起
对 它成熟度只是取整数值
对 我成熟度的话
相当于是有六个时期
比如说一的话就是胚胎前14天
然后这样的话
因为有很多样本
都是从胚胎前14天采的
所以它很多的样本点重合
对 那你就是
你的这个预测是怎么预测的
预测的这个是
就是这个剪接分数
是怎么弄出来的
剪接分数就是我们这
得到的RNA测序数据
然后我们之前不是构建了
一个那个发育中
动态变化的剪接模块
然后我们就提取那些模块中
外显子的剪接分数
然后就有一个这个96
每个样本都有
所有模块里边外显子剪接分数
然后参考就是说我们得到
我们之间产生的
那个9个时间点的皮质发育中
模块的剪接分数
然后以这个为参考样本
然后是相对是以那个模块为特征
那KNN是预测什么
就是我们就计算
这里边所有的样本
以那个所有的外显子的
剪接分数为特征
然后计算样本点之间的距离
然后就将那个把它的成熟度
预测到就是离它最近的
那个样本点
就是离这九个发育时间点
最近的一个样本点
那训练数据和那个测试数据
是怎么分的
这就是说基本就是
这个参考数据
就是九个时间点的样本
然后所有的样本
都作为一个测试
那就是说你是用同样的数据
来做训练
然后用同样的数据
把它放在这
就是你会担心这个
过拟合的问题吗
其实这不存在一个
训练跟测试的问题
其实就是我们对所有的样本
就比如说这
这上边有九个点
然后对于每一个样本
我们都去算与九个点之间的距离
然后把它划到这个点
但是那我建议你是这样
你比如说你96个样本你取64个
你来训练一个方法
因为KNN你要决定K
就是你训练之后
你再放上你的
留出来的那32个样本中
测试一下
你看看这个模型是不是很好
因为我担心就是
你的feature很多的时候
就是如果可变剪接到这个
内含子和外显子
对
比较多的时候
那么就是很
样本量比较少
你如果有成百上千个
这个可变剪接事件的话
那么就容易
容易你看到一个
比较好的预测
但是有可能它是过拟合的
就是我想你这个
我不知道你文章投过没有
就是审稿人
肯定会问这样的问题
我拿这个图来说事的话
它又是说没有分开
这个训练结果
预测这个测试集
谢谢老师
还有一个问题是说
你说你的生物信息的贡献是
建设这个流程
那么这个流程
就是你当时比如说那个
可变剪接第三章
就是你的流程里面
有没有比较不同的方法
你说比如说可变剪接那个
比如说你用一种方法
但是就是那这种方法
为什么你选择它呢
有没有比较过不同的方法
最终你说你选择一个方法
而且有一定的理由
它里边的方法好在哪
所以你说你建了一个流程
但是我们说你这个流程
可能是相对好的
但是如果你换一个流程的话
或者换其中一个模块的话
可能结果又不一样了
就是你介绍一下
你当时做的这些情况
因为我们当时就是说
找那个差异剪接的时候
就是我们组自己做了一个软件
然后跟
那个NU
那个是做转入本分析的
表达分析的软件 RD
那个叫 对NURD那个软件
那个是做转入本表达分析的
我们当时其实试了
比如说转入本的
我们也试了Cufflinks
跟NURD
这些所有的那个
这些还好
我觉得差异表达的
你这写的是用NURD
估计差异剪接
肌酶基因在传入本表达的水平
对
所以这个还是转入本表达水平
对
那个哪个是差异表达的
差异剪接
差异剪接的话
我们也是自己组开发了一个
叫DSGseq
跟当时就是
以那个比较有名的软件
叫DEXseq
然后两个是以外显子为中心
找差异剪接的方法
然后我们是取了
这两个方法的交集
就是其实对于每个方法
我们觉得还是信心度
不是那么高
所以就组合多个方法
然后取其中的交集
希望能够得到更有信心的结果
就是那个谁和谁的交集
DEXseq跟DSGseq这两个
都是找差异剪接
剪接的软件
都是你们组的吗
不是 就是一个是我们组的
还有一个是
它们两个的重合度怎么样呢
它们两个重合度
差不多在80%的样子
所以你就取了交集
对
对
就是反正从报告的时候
你要突出你的这个
生物信息方面的贡献
所以就是你
如果以后你出去讲这些的话
那么你就把这个
最好是你稍微提一下
就是说你怎么把这个流程
流程建设肯定不是
不是说每一个
就像你写的这个流程图一样
这么一气呵成的
肯定中间有很多调整
但是这也恰恰是
你做生物信息的
这个研究中的重要的部分部分
你得把它讲出来
你如果直接这样写的话
它是一个结果
但是就看不到你
你在里面的贡献是什么样了
比如说有经验的同学
可能就是很快
可以把这个弄成
但是在搞出来之前
可能是需要很多 几个月
甚至更多的这个调试
但是这也是你的贡献所在
就是你怎么把它
能更加突出出来
好 行
好 大家还有没有问题
在座的同学们谁有没有问题
好 那如果没有问题的话
那冯会娟同学的博士论文答辩
答辩本身就到这
我们就 好 谢谢
谢谢老师
好 下面宣读冯会娟同学的
答辩委员会决议书
基因的选择性剪接
是一种重要的转入后调控机制
该论文基于高通量测序数据
针对MRA选择性剪接的
功能和调控展开研究
选题具有重要的理论意义
和潜在应用价值
论文取得以下创新性成果
一 提出来一种
在样本水平和转入本水平
评价RNA测序数据中
RNA完整性的统计方法
定量估计RNA
测序数据中的三撇偏差
并标记降解的样本
二 鉴定了基于RNA测序数据
研究选择性剪接功能的分析流程
研究的肌酶差异剪接
在前列腺癌中的功能
提出的肌酶CDK5差异剪接
在前列腺癌中的作用模型
三 鉴定了基于RNA测序
和(英文)数据
研究选择性剪接调控的分析流程
在小鼠大脑发育中的
动态剪接模块
和调控机制研究中
取得若干发现
并应用于神经细胞的
成熟程度评价
论文结构合理 逻辑性强
答辩过程思路清晰
回答问题准确
论文工作表明
该生在本门学科上掌握了
坚实宽广的理论基础
和系统深入的专门知识
具有独立从事
科学研究工作的能力
答辩委员会经无记名投票
一致同意冯会娟同学
通过博士论文答辩
并建议授予其工学博士学位
一致同意推荐为
清华大学优秀博士学位论文
好 祝贺你
-个人答辩陈述
--个人答辩陈述
-问题及答辩结果
--问题及答辩结果
-个人答辩陈述
--Video
-问题及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩及陈述
-问题及答辩结果
--问题及答辩结果
-个人答辩及陈述
--个人答辩及陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩及陈述
--个人答辩陈述
-问题及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问题及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--Video
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--Video
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--Video
-问题回答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--Video
-问答及答辩结果
--Video
-个人学术感言
--Video
-个人答辩陈述
--Video
-问答及答辩结果
--Video
-个人学术感言
--Video
-个人答辩陈述
--Video
-问答及答辩结果
--Video
-个人学术感言
--Video
-个人答辩陈述
--Video
-问答及答辩结果
--Video
-个人学术感言
--Video