当前课程知识点:2016年清华大学研究生学位论文答辩(一) > 第三周 自动化系——冯会娟 > 个人答辩陈述 > 个人答辩陈述
返回《2016年清华大学研究生学位论文答辩(一)》慕课在线视频课程列表
返回《2016年清华大学研究生学位论文答辩(一)》慕课在线视频列表
各位老师各位同学大家下午好
非常高兴大家能够来参加
今天下午冯会娟同学
和王婷婷同学的博士生论文答辩
那么下面的话先由我来介绍一下
这次参加答辩的
答辩委员会的各位专家和老师
答辩委员会的主席
是李梢老师来自清华大学
以及北京大学的李程老师
来自中科院微生物所的
娄春波老师
来自清华大学的谢震老师
和来自清华大学的张学工老师
下面我简单介绍一下
冯会娟的个人简历
冯会娟于1989年4月
出生于河南省新密市
2007年9月考入
华中科技大学生物信息技术专业
2011年7月本科毕业
并获得工学学士学位
2011年9月免试进入
清华大学自动化系
在张学工老师的指导下
攻读控制科学与工程的
博士学位至今
在读期间完成总学分36学分
发表SCI论文两篇
其中第一作者论文两篇
学位论文的题目是
基于高通量测序研究选择性
剪接的功能和调控
下面请委员会的主席
(李梢)老师主持会议
下面请冯会娟同学
进行博士学位论文答辩
时间不超过40分钟
好的
各位老师同学大家下午好
首先非常感谢大家
能抽出时间来参加
我的博士论文答辩
我博士论文的题目是
基于高通量测序研究选择性
剪接的功能和调控
首先我今天会从以下三个方面
来给大家汇报我的工作
首先是研究背景
其次是主要的工作介绍
最后是总结和展望
首先要给大家介绍一下
为什么我们选择选择剪接性剪接进行研究
遗传物质遵循中心法则
首先从遗传物质
从DNA经过转录传递到RNA
RNA经过翻译传递到蛋白质
经遗传信息的基本单位是基因
基因由外显子和内含子
间隔排列组成
而基因通过转录形成初始的mRNA
而初始mRNA通过选择性间剪接
形成具有多种不同外显子
组成形式的转录本
而这种不同外显子
组成形式的转录本
则是由选择性剪接产生
选择性剪接
是一种重要的转录后调控机制
选择性剪接有非常重要的功能
从最基本上来说
选择性剪接能够增加转录组
编码蛋白质的复杂性和多样性
具体来讲选择性剪接
可以改变mRNA的稳定性
可以产生不同的翻译过程
而且可以改变蛋白质的性质
以及产生功能获得性和
功能缺失型的蛋白质
还可以产生
具有相反作用的蛋白质
这些蛋白质在细胞中
重要的组成部分
例如转入因子
它能够参与多种多样的细胞过程
甚至改变细胞的形态
选择性剪接除了在单基因水平
改变蛋白质的结构和性质以外
还能往往形成共剪接网络
以网络的形式
网络内的基因具有相似的剪切形式
协同完成特定的生物功能
选择性剪接功能的复杂性离不开
选择性剪接调控的复杂性
选择性剪接调控简单来说
包含一些初级的核心元件
以及辅助元件
调控选择性剪接的初级元件
包括分支位点
3’剪接位点和5’剪接位点
而调控选择性剪接的辅助元件
包括一些RNA结合蛋白
它们能够特异性的识别
位于可变外显子
以及外显子上下游的
一些特定的序列
从而识别这些序列
结合这些序列上对该外显子的
剪切起到抑制或者是促进作用
选择性剪接自1977年发现以来
得到了大量的研究
而近年来随着高通量测序技术的
发展使得选择性剪接的研究
进入了一个新阶段
其中高通量RNA测序
通过将细胞内的mRNA进行打断
提取细胞内的mRNA
并将其打断之后
对其剪接组成进行测序
而将得到的
通过高通量测序得到的读段
定位到基因组上之后
可以在选择性剪接
形成的转录本的组成
以及转录本的表达量
进行检测和定量研究
此外HITS-CLIP技术通过抓取
组织内或者细胞内
RNA结合蛋白与RNA结合的片段
也就是说能够调控
选择性剪接的序列
通过提取这些序列
并将其用高通量测序的方法
进行测序
我们将得到的读段
通过生物信息学的处理
可以在全转录组范围内定位
RNA结合蛋白和RNA结合序列
也就是调控选择性剪接的调控序列
那么选择性剪接是一种
重要的转录后调控的机制
在以前的研究上大部分对
选择性剪接对基因表达的调控
停留在基因水平
主要包括对基因表达量的估计
建立共表达的网络
以及研究基因功能
和研究基因的转录调控
但是随着基因水平研究
越来越丰富和完善
并且由于高通量测序技术的发展
使得从基因表达调控的
基因水平的研究慢慢地转向了
转录本水平的研究
这样就提出了一些新的问题
包括如何对选择性剪接进行检测
以及定量研究
如何建立转录本水平的网络
也就是共剪接网络
如何研究选择性剪接基因的功能
如何研究选择性剪接调控
然而近年来随着
HITS-CLIP和RNA测序技术的发展
有大量的研究
利用高通量测序技术
对选择性剪接的功能和调控
以及选择性剪接的网络进行研究
这里面的研究
主要可以概括为以下四大方面
第一是主要是用高通量测序技术
检测转录组中的选择性剪接事件
第二是比较样本间的剪接差异
此外还通过一些生物学的方法
研究选择性剪接的功能以及调控
特别是RNA测序数据的积累
为研究选择性剪接提供了大量的资源
然而RNA测序数据
仍然存在着一定的质量问题
如何对RNA测序数据
进行质量评估
把握数据的质量是进一步研究
选择性剪接的一个基础
然而现在目前还缺乏
对RNA测序数据质量
进行系统研究的方法
通过样本间剪接差异的比较
我们往往可以得到
大量的差异剪接基因
而对差异剪接基因的功能
缺乏单基因水平的
选择性剪接功能的分析
而这是单基因水平的
选择性剪接功能的分析
在疾病的应用中尤为的重要
此外HITS-CLIP
和RNA测序的技术结合使用
使得研究RNA结合蛋白
在选择性剪接的调控作用
得到了快速的发展
但是研究RNA结合蛋白的组合
结合多种数据研究
RNA结合蛋白的组合调控
在选择性剪接的研究应用中
仍然有一定的缺乏
而RNA结合蛋白的组合调控
在发育中尤其的重要
为此基于现在的研究现状
我们从RNA测序数据出发
首先提出了基于统计方法
mRIN评估
RNA测序数据质量的方法
其次我们建立了
选择性剪接功能的分析流程
并应用在疾病中
研究了激酶的选择性剪接
我们此外还结合了
HITS-CLIP数据
和RNA测序数据
建立了选择性剪接组合调控的
分析流程
并将其用在发育中
研究了选择性剪接
在神经发育中的调控
并对其做了应用
现在来主要简单的介绍一下
本文的研究工作
首先我们刚才提到
RNA测序数据
仍然存在着一定的质量问题
那么如何评估
RNA测序数据的质量
是目前领域中
仍然缺乏的一个问题
所以我们希望提出
基于RNA测序数据的统计方法
来评估RNA测序数据的质量
RNA测序数据中
存在着一定的3’偏差
主要体现在如果将
读段定位在基因组上之后
定位到基因上的读段
呈现一种非均匀分布的情况
在基因的3’有着大量的
读段积累
而基因的3’偏差的来源
有多个可能
但最重要的是这个3’偏差
表现了样本中RNA的降解
RNA测序数据中的3’偏差
有着重要的影响
会严重的影响基因表达的估计
如图我们可以看到
这是一组BrainSpan中脑样本的数据
而中间这些在全局上呈现
基因低表达的这些样本
它们存在着严重的RNA降解
因此我们认为
评估RNA测序数据
是后续分析的基础
现在我们急需要提出一种方法
对RNA测序数据
用一定的基于数据的方法
对RNA测序的样本进行标记
也就是能够区分
降解跟未降解的样本
对于未降解的样本
我们可以进行后续的分析
因此我们提出了一个基于
RNA测序数据的mRIN的方法
这个方法主要是对
RNA测序数据中3’偏差进行估计
首先对于每个样本中的每个基因
我们经过读段定位后可以得到
位于这个基因上所有读段的分布
我们将分布转化为累计分布
并与理想状态下
基因上应该呈现的均匀分布
进行比较
定义一个KS统计量
来量化样本中基因的3’偏差
并且我们将每个样本中
每个基因的KS统计量
以它的中位数进行平均化
得到了一个mKS举证
这里mKS举证表征样本中
基因的3’偏差
mKS越大表明
这个基因的3’偏差越严重
也就表明这个样本的
这个基因的降解越严重
我们将mKS
将样本中所有基因的mKS
进行一个取其负平均值
可以得到样本的mRIN值
mRIN值表征样本的降解程度
并且我们计算一个基因的mKS值
与所有样本中mRIN值的
相关性系数
我们定义为该基因的降解系数
其中mRIN值越小
表明样本的降解越严重
而基因的稳定系数
GIS越高
表明基因的稳定性系数越高
此外对于得到的
所有样本得到mRIN值进行一个
正态分布的估计
我们可以计算
样本降解是否显著的P值
我们将mRIN应用到刚才之前
观察到的那一组数据中
我们可以看到在全局上呈现
基因低表达的样本
它的mRIN值也都比较低
这就说明我们的方法
能够很好的区分在
区分有着严重3’偏差的样本
所以总结这部分的工作
我们提出了一个统计的方法
将RNA测序的样本进行标记
区分降解与未降解的样本
对于未降解样本
我们可以进行下一步的
选择性剪接的功能和调控的分析
所以基于以上的方法
我们将mRIN
应用在了公共的数据中
并且建立了
选择性剪接功能的分析流程
并且将其应用在疾病的研究中
目前来说对于选择性剪接
在疾病中的研究
主要的模式是这样的
对于正常和疾病的样本
往往通过差异剪接的分析
我们可以得到大量的
具有差异剪接的功能
差异剪接的基因
而对这些差异剪接的基因
目前的研究
往往是对这些基因进行
GO功能和KEGG pathway的富集分析
而缺乏单基因水平的功能分析
也就是说我们无法知道里边的
每一个基因它具体在疾病中
起什么样的作用
因此我们希望建立一个流程
从这样的一堆基因中
选取侯选基因进行功能分析
也就是建立单基因水平
选择性剪接的功能
分析流程
我们建立了这样的分析流程
首先对于得到的RNA测序数据
进行读段定位
得到的数据进行
差异表达和差异剪接的分析
并且进行功能的富集分析
对于在富集分析中得到的
差异剪接基因进行进一步的
蛋白质结构域的分析
也就是分析
那些差异剪接的外显子
它们是否富集在
具有功能的蛋白质结构域中
进一步将侯选基因
进行转录本的表达分析
我们将这个流程应用在
前列腺癌的研究中
我们采用的数据是
两组公开发表的数据
其中一组是前列腺癌组织的数据
另一组是前列腺癌细胞系的数据
其中前列腺癌病人的
这个细胞组织含30个样本
是有20个癌症组织
和10个癌旁组织
细胞系的数据包含21个前列腺癌
细胞系的数据 共58个样本
这样本都经过mRIN
对其降解程度进行了估计
经过上述的分析流程
我们发现了一个基因
基因激酶CDK5
这个基因包含了两个转录本
它包含了12个外显子
可以编码两个转录本
其中两个转录本的差别在于
这个第六号外显子
第六号外显子中包含了
一个重要的激酶的作用位点
如果这个外显子被剪切掉
那么产生的第二个转录本
就不具有激酶的功能
我们发现了这个基因CDK5
在前列腺癌的癌旁中
存在着差异剪接
也就是在癌症细胞中
CDK5选择性的表达
第一个转录本
也就是包含激酶功能的转录本
这个包含激酶功能的转录本
能够在下游磷酸化雄性激素受体
雄性激素受体是在前列腺癌中
非常重要的一个转录因子
并且促使将磷酸化的
雄性激素受体促使其往核内转运
激活其下游前列腺癌细胞的
下游的转入活性
而在正常的也就是癌旁细胞中
我们发现基因CDK5选择性的表达
第二个转录本
而失去了
对雄性激素受体的作用活性
也就是导致雄性激素受体
下游的转录活性失活
所以这一部分
我们主要的研究内容就是建立了
选择性剪接功能分析的流程
并且应用在前列腺癌的研究中
进行了差异剪接分析
并且提出CDK5的差异剪接
与雄性激素受体的作用模型
除了功能的分析以外
现在选择性剪接调控的分析
也是一个非常重要的课题
而HITS-CLIP数据和
RNA测序数据的发展
则为研究选择性剪接的调控
提供了新的技术和手段
我们将结合
HITS-CLIP和RNA测序数据
研究皮质发育中
选择性剪接的调控
我们知道大脑是人类所有组织中
所有器官中最为复杂的组织
其中选择性剪接在大脑中
尤为的广泛
而皮质发育的过程中
现在皮质发育的研究
不是一个新的研究课题
近年来有多个研究组
基于皮质发育研究了
单个RNA结合蛋白及其靶标
也就是研究皮质发育中
单个RNA结合蛋白的调控过程
但是皮质发育过程中往往是
这些RNA结合蛋白
不是以单个起作用的
而是往往以一个组合调控的机制
在皮质发育的过程中起作用
也就是说相同的外显子
可以受多个RNA结合蛋白的调控
我们在这里希望建立一个流程
来研究皮质发育过程中
RNA结合蛋白的组合调控机制
我们采用的数据是
小鼠大脑皮质发育
从胚胎前14天
到成年小鼠21个月
9个时间点共计18个
RNA测序样本的数据
并且了结合在大脑发育中
非常重要的四个剪接因子
Ptbp Nova Rbfox和Mbnl的
HITS-CLIP数据
我们建立了以下的分析流程
首先对于9个时间点的
RNA测序数据
我们用
成对差异剪接分析的方法
得到了在发育中
有动态变化的外显子
也就是有动态剪接变化的基因
对于这些
有动态剪接变化的外显子
我们基于WGCNA
基因共表达网络的方法
建立了动态剪接模块
并且对于得到的模块进行了
剪切保守性
其剪切的鲁棒性
以及功能富集的分析
最后我们基于RNA测序数据
HITS-CLIP数据
进行了皮质发育过程中
RNA结合蛋白组合
调控机制的研究
这里需要提出的是我们采用了
RNA数据HITS-CLIP数据
建立了贝叶斯网络
能够预测RNA结合蛋白的靶标RNA
这样预测的结果是
对于每个exon我们能够给出
每个RNA结合蛋白
能或者不能结合在其上
这1是表示
该RNA结合蛋白能够促进
该外显子的剪接
而-1是表示
该RNA结合蛋白能够抑制
该外显子的剪接
缺省的话代表这个RNA结合蛋白
不能够调控该外显子的剪接
将这个分析流程运用
在我们之前提到的
皮质发育的数据中
我们发现了在皮质发育中
具有四个动态的剪接模块
可以看到有模块一模块二
模块三和模块四
模块一和模块二呈现一种
在它们的外显子
随着发育时间的变化
呈现一种单调的变化
例如模块一中的这些外显子
在早期
在发育的早期它的外显子呈现
外显子被剪接掉
而随着时间的变化
它的外显子逐渐被包含
我们将分析的重点
放在两个单调变化的模块中
我们发现对于模块一
模块一中的外显子发生剧烈
剪接变化的时间点在P4与P15之间
而模块二中的外显子
则发生在P0前后
也就是出生前后
我们认为我们在发育中发现了
两个重要的模块
其中模块一是被称为
晚期发育的模块
模块二被称为早期发育的模块
对这些模块里边的基因进行功能分析
我们发现这些早期发育的模块
与神经细胞特征的形成相关
而对于晚期发育的模块
则与神经元的成熟
和神经回路的构建相关
进一步的根据贝叶斯网络推断
RNA结合蛋白的靶标的方法
我们将刚才提到的
指1和-1的指示矩阵进行可视化
然后可以看出RNA结合蛋白
对发育中模块的
一个组合调控的作用
例如可以看到在模块一中
有着Rbfox和Mbnl
这两个剪接因子的靶标的富集
而在模块二中可以看到
有Ptbp以及Rbfox这两个靶标
这两个RNA结合蛋白的靶标
靶标的富集
在这里举一个例子
我们可以看到这个基因
Gabrg2这个基因
它的9号外显子是一个在动态发
是在皮质发育中动态变化的
一个外显子
而且外显子的上下游
我们也能够看到四个剪接因子
Ptbp Nova Rbfox和Mbnl
都有它的motif的富集
并且我们将相关的
相关的RNA结合蛋白(抄除)后
也就是进行了RNA测序的
干扰实验之后
会发现该外显子的剪接
也发生了显著的变化
我们在这里发现
对于发育中的选择性剪接模块
Ptbp能够抑制
选择性剪接的成熟模式
主要的作用点在出生前后
也就是P0
而Nova Rbfox能在早期
也就是P2的早期促进发育中
成熟模式的出现
而Mbnl则在晚期促进选择性剪接
成熟模式的出现
我们考虑到皮质大脑的组织里面
有多种多样的细胞类型
而皮质发育只是其中的
一个重要的部分
那我们希望将建立的共剪接网络
应用在所有大脑的神经细胞中
以此为基础来评价神经细胞的
成熟程度
为此我们收集了公共发表的
96个数据
包含了有体外和体内
有体外体内纯化的神经细胞
以及组织细胞
并且提取其选择性剪接动态模块
以9个时间点皮质发育的
动态剪接模块为参考
建立了最近邻的学习方法
对神经细胞的成熟
程度进行预测
在这我们可以看到我们的方法
能够很好的预测
我们的方法得到的预测的实际
预测的成熟度
能够与实际的成熟程度
非常较好的吻合
但是在这可以看到
一个比较例外的样本
这个样本它的实际成熟程度
我们在这对成熟实际进行了划分
我们可以看到这个样本点
它叫嗅觉神经元简化为OSN
这个样本点它的实际成熟度为6
但是我们预测到
它的预测成熟度为1
进一步我们采用上述的分析方法
采用共剪接网络
和剪接调控的分析方法我们发现
嗅觉神经元与其他的神经元
有着显著的不同
这个不同主要体现在
嗅觉神经元在早期发育的
exons中它有一部表达
能把Nova Rbfox这两种
在神经细胞中广泛表达的
RNA结合蛋白
因此在早期发育的外显子中
这些外显子不能受到
Nova Rbfox的促进作用
它的剪接被抑制
它的剪接主要由Ptbp起作用
被抑制
而在晚期发育的外显子中
嗅觉神经元与其他神经元相同
都存在着Mbnl对它
对其剪接的一个促进作用
那么总结这部分
我们基于RNA测序数据
和HITS-CLIP数据
研究了皮质发育中
RNA结合蛋白的组合调控作用
我们发现Ptbp Rbfox Nova
和Mbnl四个RNA结合蛋白
在皮质发育的过程中
分别在不同的时期
对皮质发育中动态变化的外显子
有促进和抑制的作用
那么总结我所有的工作
我们首先基于RNA测序数据
提出了统计方法mRIN
对RNA测序数据质量进行评估
我们保留了能够经过
mRIN过滤的未降解的样本
在研究了前列腺癌中
激酶选择性剪接的功能
经过我们的流程的分析
我们提出了激酶CDK5的
差异剪接与AR相互作用的模型
此外基于RNA测序数据
和HITS-CLIP数据
我们研究了在皮质发育中
RNA结合蛋白的组合调控作用
我们发现了皮质发育中
Ptbp Rbfox Nova Mbnl四个
RNA结合蛋白的组合调控
并且还发现了
嗅觉神经元的剪接特异性
这个整个论文的创新性
可以从生物信息学角度
和生物发现的两个角度进行总结
我们在生物信息学的角度构建了
选择性剪接功能
和选择性剪接的调控的分析流程
而并将及其流程分别应用在
疾病和发育的研究中
作出了有意义的生物发现
然而本文的工作还有一定的缺陷
例如第一个工作中
我们开发的统计学方法
由于它要对样本降解程度的
给一个显著性的评估
那它对样本的数目有一定的限制
那这个限制可以通过
在大规模的搜集公开
发表的RNA测序数据
建立一个样本质量的
标准数据库来进行提高
此外我们在第二个工作中
研究了激酶与AR的相互作用
在前列腺癌中的相互作用模型
而这个模型需要进一步的
生物实验的验证
此外最后我们建立了
RNA结合蛋白的
组合调控机制的研究
而将这些研究应用在
不同神经元细胞中
我们发现了嗅觉神经元的
剪接特异性
那么进一步我们可以将研究
扩展到不同神经元亚型
之间选择性剪接的差异
这是我发表的相关论文
其中第一个方法
我们提出mRIN的统计方法
发表在Nature communications上
而且在同年被Nature Methods
作为研究亮点进行了报道
我们进行了前列腺癌的研究
投稿至RECOME-CCB
并做了短口头报告
我们最后一个工作在准备投稿
这样就是我所有的工作内容
首先我需要感谢一下
我的导师张学工教授
应该是五年前大概同一个时间
感谢张老师
给了我一个面试的机会
然后能让我
我本科学的是生物信息学
生物信息技术
然后谢谢张老师给了我这个机会
能让我跟
六年前面试
五年前
五年前入学
对 六年前 六年前
所以谢谢张老师给了我这个机会
能让我跟生物信息学再续前缘
那么还要感谢
在我的访学期间
哥伦比亚大学助理教授
张朝林老师
以及哥伦比亚大学的
研究生和博士后
Sebastian和Rachel两个同事
在第二个工作中的
颇有成效的讨论
最后还要感谢
清华大学医学院王栋老师
在第二工作中的实验方面
提供的建议和指导
我还要感谢TNlist
所有一全体的同学和老师
一直以来对我的关怀和帮助
我还要感谢国家留学基金委
提供了一个机会让我能够有幸
在哥伦比亚大学访问一年
最后感谢国家自然科学基金
然后谢谢大家
-个人答辩陈述
--个人答辩陈述
-问题及答辩结果
--问题及答辩结果
-个人答辩陈述
--Video
-问题及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩及陈述
-问题及答辩结果
--问题及答辩结果
-个人答辩及陈述
--个人答辩及陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩及陈述
--个人答辩陈述
-问题及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问题及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--Video
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--Video
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--Video
-问题回答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--Video
-问答及答辩结果
--Video
-个人学术感言
--Video
-个人答辩陈述
--Video
-问答及答辩结果
--Video
-个人学术感言
--Video
-个人答辩陈述
--Video
-问答及答辩结果
--Video
-个人学术感言
--Video
-个人答辩陈述
--Video
-问答及答辩结果
--Video
-个人学术感言
--Video