当前课程知识点：2016年清华大学研究生学位论文答辩（一） > 第三周自动化系——冯会娟 > 问答及及答辩结果 > 问题及答辩结果

返回《2016年清华大学研究生学位论文答辩（一）》慕课在线视频课程列表

问题及答辩结果在线视频

问题及答辩结果

下一节:个人答辩陈述

返回《2016年清华大学研究生学位论文答辩（一）》慕课在线视频列表

问题及答辩结果课程教案、知识点、字幕

下面请各位委员提问

从那边开始吗

一个一个

都可以都可以都可以

我问一下你那个

关于大脑那个RNA-Seq那个数据

你们用的是别人的data是吧

我们是自己产生的

自己产生的

对对

你们有没有

因为那个大脑里面这个

各个神经细胞的表达谱

也是不一样的

对

那个你们有没有考虑

就是至少分区那样子

对我们用的就是

那个皮质那一块

皮质那一块

对不是整个大脑

不是整个大脑

对

行

我想问一下那个

以前大家来评价这个

RNA这个这些sample

是不是降解

一般就是先看这个跑胶是吧

就是一些生物学实验

对

你有没有做过一个对比

就是说这个

比如说用这种方式

然后如果是在这个

能看到这些降解的

这些sample

肉眼就能看见的这些sample

然后在你们的评价里边

会有什么样的一个表现

有对我们有对比

因为那个时间关系

就没有放上去

我这有一个片子

就是那个生物学的方法

它是用那个RIN的方法

然后它通过跑胶

来分析那个基于rRNA

这个样本是不是有没有降解

所以我们在公开数据里边

找了有就是这个样本

它能够提供RIN这个指标

然后就用我们的方法

分析了一下

然后比较了一下mRIN

跟RIN这两个方法

就相当于一个实验方法

一个是基于数据的方法

对样本那个RA降解那个评估

我们这有一个图

对我们这在这个数据上

可以看到就是用mRIN

跟RIN比首先是

就是因为目前来说

对于样本质量评估

大家还是用RIN

这种实验方法

所以我们首先将mRIN

跟RIN做的对比

然后发现mRIN跟RIN

其实它在有一定程度的相关性

但是我们认为

就是RIN这个方法

它主要是基于那个rRNA的特征

所以我们认为它是捕捉不到

就是mRNA的降解

然后我们在这又用了一个

就是相当于是提供一个

提供一个参考

就是对那些RIN值比较高

mRIN值也比较高的样本

我们认为它是参考样本

然后就去分析这些样本里边

如果它跟

就是它降解的程度

跟参考样本的对比

计算它的那个相关性

然后我们发现比起RIN来说

mRIN它更能预测样本

降解样本与参考样本的关系

mRIN为什么有负值

因为我们算的是

一个那个把所有的样本中

所有基因的mKS

做了一个负平均

为了跟RIN

相当于是跟RIN有一个对比

因为RIN的话

它是从0到10

然后0的话就代表

这个样本的降解特别严重

10的话代表

这个样本是基本没有降解

然后我们相当于也就是

为了保持跟RIN一致

就是说mRIN越低

那就是希望它的那个

就是mRIN越低

表征样本的降解越严重

所以因为是基于那个mKS算的

所以会有一定的负值

那它的正负号有意义吗

没有

就是0是表示什么

降解还是不降解

这就是mRIN

它需要给一个

从统计程度上

给一个那个显著性的判断

就是说你单纯的这个数值

是没有意义的

所以需要一个

比如说我们需要建立一个

一个所有样本的一个

降解跟不降解的数据库

就是说这里边所有的样本

它降解的样本

它应该是这样的mRIN值

不降解的样本是

那样的mRIN值

然后我们提供的样本

在这个数据库中

来计算它的那个分布

然后给出一个

降解跟不降解的那个统计

显著性的检验

那不同的测序实验

或者不同测序的机器的型号

它弄出来的数据

这个mRIN值可比吗

这个我们我暂时还不清楚

因为我们现在所有的数据

都是Illumina

得到的那个数据

没有去分析别的数据

就是说你会不会看到说

一个batch的

这个样本的mRIN值

普通偏高还是偏低呢

但是它不一定是说是真正的

它有可能有batch effect

对

表达的数据有batch effect

它都可以影响

我们

因为你说用数据库来做参考

那么这个就是不同的batch

有什么有多大的可比性

对于mRIN值来说

这个因为我们目前

主要是就是我们这部分的研究

主要是基于BrainSpan

跟GTEx这两个数据

然后GTEx

其实它也是有不同的

实验室做的不同的batch

然后我们在GTEx的数据中

没有发现就是有特别明显的

batch effect

但是如果搜集比如说不同的

别的实验室

做的一些小样本数据

我觉得可能会有

但是我们还没有

往那些数据上尝试

我再补充一下

就是这个mRIN的这个事情

就是说你说是

这个要需要要建立一个数据库

这不同的

比如说不同可能细胞类型

它也有可能需要

有一个对比的参考值是吧

对

那么这些参考值

是从哪能获得或者是

其实就像那个RIN这个方法

它也是就是说它把这个样本

先把所有的RNA

完整的RNA

它认为跑胶得到的

完整的RNA它测一个RIN

然后给一个值

然后对其实是一样的

我问一个就是你对你这个方法的

就是信心的一个

就是是和你对你这个方法

有信心的一个问题吧

就是你前面那个是膀胱癌是吧

前列腺癌

前列腺癌

前列腺癌

那个你通过这种

RNA-Seq的数据

然后经过你的算法

找到了CDK5

这样的一个可变剪切

对这个癌症有影响

那你觉得是相关性呢

还是因果性呢

或者说你的这个

生物信息应用的这种

这种分析方法能够就是

这种结果能不能拿去

就是用实验来验证它

对我们之前是准备做实验

但是那个实验

后来是因为就是医学院老师

那边的细胞的培养的问题

然后还没有就是

后来实验就没有做成

但是确实是想做实验验证的

因为CDK5这个基因

它本来跟前列腺癌的这个关系

之前的研究就有一些报道

然后也有一些实验

就是敲除CDK5之后

在前列腺癌的细胞中

看到很明显的一个

phenotype的变化

所以我们认为

就是我们又观察到了

很强烈的CDK5的差异剪切

然后而且它的两个转入本有着

基本就是一个有激酶功能

一个没有

那我们认为就是

这个差异剪切

在跟那个雄性激素受体受体的作用

应该是会有一定的实验效果的

但是我们还没有做

就是说之前做没有做完

简单回答他那个其实是

其实是我们是认为

它是个因果关系

就是它是有原因的

他的主要问题就是

你是觉得它是相关性

它是有原因吗

对对对

我们还是推测它是一个原因

同时往细里追究的话

就是说你们那个RNA-Seq的数据

应该是global的

一个谱学的数据

对对

那就是CDK5

这是一个从打分来说

是最高的呢还是就是它是

就是一个specific的

其它都没有就它有

因为我们是

就是说我们有一个

很严格的一个过滤过程

就是说做了多步的分析

然后一步一步的滤到了CDK5

之前主要是关心

因为前列腺癌里边

有一个雄性激素受体的信号通路

然后这个雄性激素受体信号通路里边

有大量的激酶参与

所以我们就把首先把目标

放在了激酶的研究中

然后对于这些激酶

就是我们看它是不是有差异剪切

对差异剪切的激酶

然后我们去做

它的那个蛋白质结构域的功能预测

然后经过这个预测

得到的筛选后的基因

然后我们再进行

它跟前列腺癌的相关的

相关性的研究

然后我们最后找到了这个基因

这个基因它的

你的意思是那个

生物信息学分析之前

你已经整合了很多

这个癌症相关的factor

很多的知识是吧

对

谢谢

我觉得做了

也做了很多工作

那我也就接着刚才那个问

因为你这个选择的是

这个前列腺癌通路里面

然后找到了这个CDK5对吧

我们就是

我们刚开始要做这个前列

做激酶的话

是因为前列腺癌

它的那个信号通路里边

有大量的激酶参与

但并不是只关心

那个参与信号通路的激酶

因为我们认为

就是可能一个通路

它不一定初始有那么全

所以我们关心的

是整个激酶家族有518个基因

是整个激酶

然后跟那个前列腺这个通路做

从这个里面能找出来是吧

就是就是说做激酶

是因为前列腺癌的通路

跟激酶有关系

但是我们后边的分析

没有局限于前列腺癌这个通路里

就是基本是所有的激酶

就是都做了分析

然后一步一步的进行过滤

是

因为你如果直接

从这个通路来的话

你还不如直接就拿通路做

对对

就不需要前面那么复杂了

对因为它的通路里边的

激酶特别少就没几个

但是参与的这些基因

主要都是激酶

所以我们认为激酶

在前列腺癌里边比较重要

那你这个

除了找出这个CDK5以外

你还找出别的没有

我们也找出一些别的基因

但是对它那个进行

转入本水平的分析

而且发现

就是也做了一些文献调研

然后其它的基因

没有在文献里边发现有很强的

跟雄性激素受体

有比较强的那个作用关系

我们是挑了这个作为一个例子

行那我再问你一个小问题

就是说因为你前面提到了

有那个共剪接网络是吧

有一个共表达网络

对

是吧

你觉得这个共剪接网络

它的那个网络的边是什么

共剪接网络的边

我们目前画的时候

每个节点是一个exon

然后一个边其实是不知道

它是不是因果关系

或者相互作用关系

但是我们认为

在这个共剪接网络里边

就是因为建立这个共剪接网络

是基于这些外显子的

那个剪接模式

然后我们就认为这个

在这个网络里面这些外显子

它随着这个发育的过程中

有着相似的剪接模式

比如说它在早期都包含

在晚期都被剪切掉

只是说它的模式相似

但是我们不知道是因果关系

还是对

但是我们进行了分析

发现这些外显子所在的基因

它都有比较

就是在神经的形成中

有相似的功能

这个共剪接网络

和共表达网络之间

你觉得它们之间的这种关系

就是有什么区别和联系

或者关系大吗

共剪接网络和共表达网络的

区别和联系

影响因素

我觉得共剪接网络

跟共表达网络

基本上是在两个层次

其实我觉得共剪接网络

是在转入本水平

你其实可以认为是

除了在基因层次的网络

一个调控网络

在转入本水平存在着

另外一个调控网络

就是我们希望就是说

在基因水平的网络研究

越来越广泛跟充分之后

大家可以转向

转入本水平的网络的研究中

行

我刚刚那个你有一个预测

那个发育成熟的那个图

对就是你这样的这个点

不是很多那个散点图里面

就是我想知道

你这是怎么来这个

训练这个模型

其实因为这个点还是挺多的

只不过是因为你它这个是

比如说它的实际成熟度是离散的

然后很多点它都是一样的

聚在一起的

就是你知道我们这

总共有96个样本

应该是有

我们96个样本里边

有60个样本

是知道它的真实的成熟度的

所以这应该是有60个样本

但是很多点重合在一起

重合点在一起

对它成熟度只是取整数值

对我成熟度的话

相当于是有六个时期

比如说一的话就是胚胎前14天

然后这样的话

因为有很多样本

都是从胚胎前14天采的

所以它很多的样本点重合

对那你就是

你的这个预测是怎么预测的

预测的这个是

就是这个剪接分数

是怎么弄出来的

剪接分数就是我们这

得到的RNA测序数据

然后我们之前不是构建了

一个那个发育中

动态变化的剪接模块

然后我们就提取那些模块中

外显子的剪接分数

然后就有一个这个96

每个样本都有

所有模块里边外显子剪接分数

然后参考就是说我们得到

我们之间产生的

那个9个时间点的皮质发育中

模块的剪接分数

然后以这个为参考样本

然后是相对是以那个模块为特征

那KNN是预测什么

就是我们就计算

这里边所有的样本

以那个所有的外显子的

剪接分数为特征

然后计算样本点之间的距离

然后就将那个把它的成熟度

预测到就是离它最近的

那个样本点

就是离这九个发育时间点

最近的一个样本点

那训练数据和那个测试数据

是怎么分的

这就是说基本就是

这个参考数据

就是九个时间点的样本

然后所有的样本

都作为一个测试

那就是说你是用同样的数据

来做训练

然后用同样的数据

把它放在这

就是你会担心这个

过拟合的问题吗

其实这不存在一个

训练跟测试的问题

其实就是我们对所有的样本

就比如说这

这上边有九个点

然后对于每一个样本

我们都去算与九个点之间的距离

然后把它划到这个点

但是那我建议你是这样

你比如说你96个样本你取64个

你来训练一个方法

因为KNN你要决定K

就是你训练之后

你再放上你的

留出来的那32个样本中

测试一下

你看看这个模型是不是很好

因为我担心就是

你的feature很多的时候

就是如果可变剪接到这个

内含子和外显子

对

比较多的时候

那么就是很

样本量比较少

你如果有成百上千个

这个可变剪接事件的话

那么就容易

容易你看到一个

比较好的预测

但是有可能它是过拟合的

就是我想你这个

我不知道你文章投过没有

就是审稿人

肯定会问这样的问题

我拿这个图来说事的话

它又是说没有分开

这个训练结果

预测这个测试集

谢谢老师

还有一个问题是说

你说你的生物信息的贡献是

建设这个流程

那么这个流程

就是你当时比如说那个

可变剪接第三章

就是你的流程里面

有没有比较不同的方法

你说比如说可变剪接那个

比如说你用一种方法

但是就是那这种方法

为什么你选择它呢

有没有比较过不同的方法

最终你说你选择一个方法

而且有一定的理由

它里边的方法好在哪

所以你说你建了一个流程

但是我们说你这个流程

可能是相对好的

但是如果你换一个流程的话

或者换其中一个模块的话

可能结果又不一样了

就是你介绍一下

你当时做的这些情况

因为我们当时就是说

找那个差异剪接的时候

就是我们组自己做了一个软件

然后跟

那个NU

那个是做转入本分析的

表达分析的软件 RD

那个叫对NURD那个软件

那个是做转入本表达分析的

我们当时其实试了

比如说转入本的

我们也试了Cufflinks

跟NURD

这些所有的那个

这些还好

我觉得差异表达的

你这写的是用NURD

估计差异剪接

肌酶基因在传入本表达的水平

对

所以这个还是转入本表达水平

对

那个哪个是差异表达的

差异剪接

差异剪接的话

我们也是自己组开发了一个

叫DSGseq

跟当时就是

以那个比较有名的软件

叫DEXseq

然后两个是以外显子为中心

找差异剪接的方法

然后我们是取了

这两个方法的交集

就是其实对于每个方法

我们觉得还是信心度

不是那么高

所以就组合多个方法

然后取其中的交集

希望能够得到更有信心的结果

就是那个谁和谁的交集

DEXseq跟DSGseq这两个

都是找差异剪接

剪接的软件

都是你们组的吗

不是就是一个是我们组的

还有一个是

它们两个的重合度怎么样呢

它们两个重合度

差不多在80%的样子

所以你就取了交集

对

对

就是反正从报告的时候

你要突出你的这个

生物信息方面的贡献

所以就是你

如果以后你出去讲这些的话

那么你就把这个

最好是你稍微提一下

就是说你怎么把这个流程

流程建设肯定不是

不是说每一个

就像你写的这个流程图一样

这么一气呵成的

肯定中间有很多调整

但是这也恰恰是

你做生物信息的

这个研究中的重要的部分部分

你得把它讲出来

你如果直接这样写的话

它是一个结果

但是就看不到你

你在里面的贡献是什么样了

比如说有经验的同学

可能就是很快

可以把这个弄成

但是在搞出来之前

可能是需要很多几个月

甚至更多的这个调试

但是这也是你的贡献所在

就是你怎么把它

能更加突出出来

好行

好大家还有没有问题

在座的同学们谁有没有问题

好那如果没有问题的话

那冯会娟同学的博士论文答辩

答辩本身就到这

我们就好谢谢

谢谢老师

好下面宣读冯会娟同学的

答辩委员会决议书

基因的选择性剪接

是一种重要的转入后调控机制

该论文基于高通量测序数据

针对MRA选择性剪接的

功能和调控展开研究

选题具有重要的理论意义

和潜在应用价值

论文取得以下创新性成果

一提出来一种

在样本水平和转入本水平

评价RNA测序数据中

RNA完整性的统计方法

定量估计RNA

测序数据中的三撇偏差

并标记降解的样本

二鉴定了基于RNA测序数据

研究选择性剪接功能的分析流程

研究的肌酶差异剪接

在前列腺癌中的功能

提出的肌酶CDK5差异剪接

在前列腺癌中的作用模型

三鉴定了基于RNA测序

和（英文）数据

研究选择性剪接调控的分析流程

在小鼠大脑发育中的

动态剪接模块

和调控机制研究中

取得若干发现

并应用于神经细胞的

成熟程度评价

论文结构合理逻辑性强

答辩过程思路清晰

回答问题准确

论文工作表明

该生在本门学科上掌握了

坚实宽广的理论基础

和系统深入的专门知识

具有独立从事

科学研究工作的能力

答辩委员会经无记名投票

一致同意冯会娟同学

通过博士论文答辩

并建议授予其工学博士学位

一致同意推荐为

清华大学优秀博士学位论文

好祝贺你

2016年清华大学研究生学位论文答辩（一）课程列表：

第一周化学系工程系——胡杨

-个人答辩陈述

--个人答辩陈述

-问题及答辩结果

--问题及答辩结果

第一周化学系——张淼

-个人答辩陈述

-问题及答辩结果

--问题及答辩结果

第一周化学系——张天

-个人答辩陈述

--个人答辩及陈述

-问题及答辩结果

--问题及答辩结果

第一周化学系——严波

-个人答辩及陈述

--个人答辩及陈述

-问答及答辩结果

--问答及答辩结果

第一周化学系——徐俊

-个人答辩及陈述

--个人答辩陈述

-问题及答辩结果

--问题及答辩结果

第一周化学系——曹玮

-个人答辩陈述

--个人答辩陈述

-问题及答辩结果

--问答及答辩结果

第一周化学系——陈骥

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问题及答辩结果

第一周化学系——王丽达

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问题及答辩结果

第一周化学系——李闯

-个人答辩陈述

-问答及答辩结果

--问题及答辩结果

第二周热能系——王翱

-个人答辩陈述

-问答及答辩结果

--问答及答辩结果

第二周热能系——付世龙

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问答及答辩结果

第二周热能系——余景文

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问题及答辩结果

第二周热能系——刘雨廷

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问答及答辩结果

第二周热能系——维克多

-个人答辩陈述

-问题回答及答辩结果

--问题及答辩结果

第二周热能系——孙宏明

-个人答辩陈述

--个人答辩陈述

第二周热能系——徐雷

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问答及答辩结果

第二周热能系——袁野

-个人答辩陈述

--个人答辩陈述

第二周热能系——宗毅晨

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问题及答辩结果

第三周自动化系——Aziz

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问题及答辩结果

第三周自动化系——冯会娟

-个人答辩陈述

--个人答辩陈述

-问答及及答辩结果

--问题及答辩结果

第三周自动化系——刘洋

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问答及答辩结果

第三周自动化系——马晨光

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问题及答辩结果

第三周自动化系——史建涛

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问题及答辩结果

第三周自动化系——吴佳欣

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问题及答辩结果

第三周自动化系——王婷婷

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问题及答辩结果

第三周自动化系——尚超

-个人答辩陈述

--个人答辩陈述

-问答及答辩结果

--问答及答辩结果

第四周自动化系——郑小龙

-个人答辩陈述

-问答及答辩结果

-个人学术感言

第四周机械系——张志刚

-个人答辩陈述

-问答及答辩结果

-个人学术感言

第四周热能系——王卫良

-个人答辩陈述

-问答及答辩结果

-个人学术感言

第四周自动化系——祖松鹏

-个人答辩陈述

-问答及答辩结果

-个人学术感言

问题及答辩结果笔记与讨论

也许你还感兴趣的课程:

© 柠檬大学-慕课导航课程版权归原始院校所有，
本网站仅通过互联网进行慕课课程索引，不提供在线课程学习和视频，请同学们点击报名到课程提供网站进行学习。