当前课程知识点:2016年清华大学研究生学位论文答辩(一) > 第三周 自动化系——吴佳欣 > 问答及答辩结果 > 问题及答辩结果
返回《2016年清华大学研究生学位论文答辩(一)》慕课在线视频课程列表
返回《2016年清华大学研究生学位论文答辩(一)》慕课在线视频列表
下面请各位委员提问
还是我先来
你这工作做了很多挺好的
然后就是我有几个小问题
就是第一个
是你刚才那个图里面有一个
也就是说前面
有一个7个网络的分组
还有一个8个的分组
然后你最后做出来那个Heat Map
它好像是完全
有一个Heat Map只有保守比较有效
对
另外那个Heat Map
就是其他都没有什么效果
其他都
就是保守有效其他也有效
那个原因是什么
那个原因是因为我们
就是分组是这样分组的
就是因为怕时间不够没细讲
就是比如说我们当以这个
比如说我们当以这个
不同物理化学特性进行分组的时候
这样的话对于
比如说这个氨基酸分子量来说
我们因为计算它的7个情形
所以我们就利用这个7个情形
最后作为它的特征
然后计算任意两个
这个nsSNP的相似性
这就这样的
比如说我们利用7个情形的时候
比如说我们计算原始氨基酸
那我们计算原始氨基酸的
所有这6个物理化学特性的量
然后我们利用它
然后再选了一个就是这种
就距离的方法然后计算它的相似性
所以其实它这个表示是不同的东西
就是如果这么理解吧
就说你第一个只有保守性有关系
第二个相当于是你把保守性
也融到这前面里面了
对 就可以理解为是为什么了
就是第一个是因为
我们只有保守性有意义
然后第二个相当于是我们还
就是对
确实是保守性也融在里边
而且就是这个
它因为跟这个计算情形有关
因为它最开始这个计算情形
是相当于都是单个的
没考虑它的改变量什么这些的
所以其实真正起作用的
应该是它的改变量
然后第二个问题就是说
你刚才说到那个变量选择的过程
就是说变量选择的时候
你是删一个
然后看别的那个影响力
你说那个基因本体数据
和蛋白相互作用之间的贡献
是最大的是吧
对
就说你刚才强调了一条
就是说这些变量之间
它可能是相关的
对
那你现在的话
如果是一次删一个
如果你一次删多个呢
因为其实我们现在就是想看
只考虑单个的是吧
对 我们现在只想看一下
单个的就是它的
就是贡献量大概是多大
您说的那个就有点像特征选择了
特征选择我们做了
等会儿我看一眼
特征选择是这样的
就是我们对所有的这个每一个疾病
都进行了特征选择
然后后来我们会发现
就是首先可以看一下
这个就是这个每个数据
它这个相关性大概是这样的
就是它其实
尤其这后面相关性不会特别大
但是前面相关性会很大
因为它计算都是一个东西
就是nsSNP导致蛋白质的这个效果
所以我们进行了特征选择
对于每一个疾病
我们就进行特征选择
然后特征选择之后
我们会发现是这样的
就是首先
就是大部分的疾病
还是趋于选择所有
而且选择越多越好
然后而且每一个疾病
它选择的那个都不一样
就最终它选择特征都不一样
所以我们想做一个比较系统的方法
而且它这个
其实最后它那个总的那个提高
也不会说特别大 有质的突变
所以我们最终
还是就没有进行特征选择就这样的
好
好 谢谢
我还是接着问
非常有意思的工作
工作量还是挺大的
问几个小问题
一个是关于你那个第一个工作里面
SNP那个相互的网络
它那一条边代表什么意思
对 这个其实我们也讨论过
其实没有物理意义
只是有一个
只是就是说想看看
它们之间的那种相似性
就相当于它特征的相似
它因为每一个SNP都会有一些特征
然后它们就相当于是它们之间的
这种相似性
我们觉得这种相似性
也许在功能上就会有作用
你不要求它是同一个蛋白上的是吗
都不要求 对
就这一两个蛋白上的呢
对 其实这是一个虚的概念
因为是
因为其实是这样的
就是第一个工作
其实做的并不是很好
所以最终也没有敢投
特别好的文章或者什么
就是因为第一个工作
其实我们只是先第一步想解决
就是因为已有的算法
不能解决到底
哪个nsSNP导致哪种疾病
所以我们现在就想利用一些方式
然后把它们能进行一个沟通
就是联系在一块
然后正好当时出了这么一个算法
然后比较合适
我们当时就想先试验一下
看利用这种算法能不能
就是把它们进行沟通
但是其实从最后的结果来说
就是利用那种算法
它那个就是预测的效果
并不是很好
对 而且它就是根据
对于这个特征来说
也会就是比较受影响
所以它效果并不算特别好
所以在第二种方法的时候
我们就根本没有利用任何特征
我们直接就利用它们那个
每一种算法
就是每一种那种
每一个那个就叫什么
每一个方法它们计算出的结果
我们直接用了它们的结果
而没利用它们之间计算那些特征
然后关于就是你的第二个部分
SPRING这边
你提到那个种子基因
部分已知的时候还有完全未知的时候
它部分已知就是
你如果只知道一个种子基因
和知道好几十个种子基因
这种情况下你怎么来衡量
这种情况是这样的
就是首先如果只知道
一个基因的情况下
那它就没法进行验证
因为我们每一次验证的时候
就表示删除那个基因的信息量
所以我们选取都至少
具有两个基因的
其次我们也做了一个这个
我们也做了一个验证
就是发现这个种子基因
就是在验证的已知部分
就是这个种子基因的这个个数
其实并不会特别影响它的效果
就比如像您说的是
它如果有两个
大部分其实现在已知报道的都是
两个三个四个
就是报道的一个疾病
基本上也就报道两个三个四个
就是确定它是它的致病基因
然后四个以上的数量并不是很多
然后我们就发现它的结果
其实也并不是说就是影响特别大
还要问你一个问题
就你的SPRING方法听着挺好
那它有什么缺点
它有缺点 就是因为是这样的
就是尤其像刚才那个
就是在说这个的时候
其实就很明显的感觉到了
就是它很依赖于
我们前期实验的设计
也就是说当你其实如果能把我们
侯选集缩小到比较小的情况下
那它预测准确性会很高
但是如果你比如说你的那个
侯选集很大
即使它比如说有1%的错误率
比如说侯选集1万的情况下
它的1%的错误率
它的其实这个错误率
都是非常就是明显的
因为我们只考虑前面的
就是万一比如错误都集中在前面
所以这样的话
前面的预测信息就没有意义
所以其实也基于就是
我们这个实验设计
所以就是说
预测算法肯定不是绝对的
它不可能说真正代替实验
所以就是说
如果它能跟实验比较好的结合
所以为什么其实我们实际数据
找的都是这种新生突变
因为从新生突变来说
它的数量其实是有限的
可以通过父母然后进行筛查
就这样的
还有包括其实真正拿我们这个算法
做出来的那个人
虽然那个不算是新生突变
但是它也是用父母进行了筛查
然后最后侯选集也是几百个
在几百个里边然后用SPRING算法
找出来效果就是比较好
但是确实如果要是一大堆的话
那肯定前面
就即使准确率比较高
它前面肯定会有挺多错误的
大概是这样
你刚才这个总结的话
主要这个问题还出在它前面实验上
从你计算的角度来说
你没有什么可改进的
没有 计算上肯定也有
计算上后来就是包括像吴蒙蒙他也
就是因为我们现在就是我们第一维
我们这是做了最初的版本
然后后面我们也对那个特征
重新进行了一次就是筛选
然后包括我们还加入了
很多其他的特征
比如说像那种coexpression
就这种共表达共调控这些信息
都可以加进去 就这些信息
然后还有包括像算法上也可以改进
这肯定都是可以改进的
接这个问一下
就是你像这个自闭症
这种比较复杂的这种
这个一个是这个遗传学上比较复杂
另外表型上也比较复杂
对
你做了这些数据
看了这些文献以后你感觉
它的背后的致病基因
它是在可能的致病的基因
在一个什么量级上
你看看它这个侯选的
1000多个 100多个
就是你感觉你找到的17个
可能是都是对的
但是这17个能解释这个病人中的
百分之多少
然后整体如果想解释所有病人的话
大约这个数量
你当然不会一个准确的数了
你估计这个数是有没有一个感觉
我感觉应该挺多的
因为不停地在发现
挺多是什么数量
就是基因现在已经发现30几个了
对 但是你感觉挺多30几个
是冰山之一角呢 还是完成百分之八十
我觉得也应该
已经差不多有百分之五六十了
就是不可能太多
不可能说那么多基因
都跟这个自闭症相关
但是我觉得就是起作用的
肯定是主要的几个基因 大部分
反正就是最后预测出来
基本上都是几个基因然后排在前面
不止30个吧 这个文献好像有点老
2014年和2015年应该有那种
新的了
对呀 它那个筛查的病人就是这几个
我记得是应该已经上百了
上百了 就致病基因是吗
对 就是可能的这种…
对可能的是挺多的 对可能是挺多
现在我就说已经被验证
肯定证实了 现在基本上是
但是你就验证证实的这些
你能够解释多少的病人
你说能解释百分之五六十的病人吗
解释不了是吗
所以这个
这个所以就是
就是验证的基因差不多是个位数1% 3%
对 所以这个我是在考虑
就是说这个问题做到什么时候
对 其实我觉得您说的挺对的
就是说预测出来的这些基因
和到最后真正能
就是说判断它肯定是致病的
而且包括最后能真正给它
解决这个疾病
就治好这个疾病
我觉得这一步应该还是差的挺远的
这个里面是这样的
就是说应该包括现在讲的
精准医疗之类的指的是
同样的一种疾病里面不同的人
他的相关的基因是不一样的
对
对吗 主要应该是这样的
对
而你这个是相当于
这类所有病里面所有的
这是common gene common variant
对
common gene common variant
就说这两个实际上
它的特点不一样
你们是肿瘤恶性
这些每个不同的人群里面
他们那个都是百分几的突变
百分几的突变
而你这个里面是说我说相关的
你这个里面并没有多少common
所以说她这个是就全部合在一起
所有实际上就对吧 不好说的
还有可能有其他的变异
因为你现在只看到突变
而且还可能是在非编码区域的
你现在只是编码区的
对 你就说后面应该说精准预测
个人上面的
另外一个问题
你在第一个工作里边
你做那个疾病的相似性的时候
怎么度量
你不用翻 你就说就行了
不用翻页翻到那一页
就是大概说一下什么概念
疾病相似性是首先就是相当于
找一个专门的这个医学词汇
你就说找的是啥就行了
我们找了两种
第一种基于的是那个MESH
从中就是提取了它的那个
提取它的
因为MESH它就是医学词汇表
然后我们就利用OMIM的数据库中
然后它对每一个disease都有一个
就clinical的这种
它叫text
就是它有一个正文去衡量
每一个这个疾病的这种临床表现
我们就从中提取它的那个
每一个词汇
把它每一个词语都提取出来
然后这样的话
然后这样
因为有一些词语
它具有那个信息量是不同的
对 那个时候怎么度量呢
提取这个词语来
你最后总得把它变成一个数
对
形成一个数问题是
那个第一个方法应该是用的那个
就是类似于TF-IDF那种算法
就是相当于一个是它的词频
一个是它的那个就是信息量
然后这样好一点
然后第二种方法
我们就是第二种方法
我还真的就给做了一个
是这样的 第二种方法
这都不是我们自己算
就是人家是已经发表的
第二种方法是这样
它利用的是一个
也是那个自然语言处理方法
简单说一下
算一个互信息是吧
对 先算互信息
然后这样它就找到
所有的这个互信息里面最大的
那问题就来了
既然有两种方法
那这两种方法会一致吗结果
这个表型相似性
相对来说还是比较一致的
因为其实它是基于
就是还是基于它的那个
其实本质它就是一样的
提取它的那个特征词汇
虽然是两个数据
那就已经回答了我问题了
对
我问你是不是一致的你就说
你这两个方法是你自己算的还是
都是他已经报道的
对 他们已经报道了
已经报道的数据了
另外还有一个问题就是
你最后数据库那个
你那个数据库你收集的那些
可能的图片是从哪里收集的
是 dbSNP
然后CADD和1000 Genome上
就是其实是这样的
就是它主要是对于
就说你已经回答了我的问题了
我问的问题没那么复杂
对 不用解释那个
那就是说 因为下面还有别的问题
就是其实你80几亿
那就相当于每一个位点
所有可能的突变都已经在了
对 基本上就是这样
就是都已经在其他的数据库里
有人报道过这件事
所有的位点都已经有人报道过
对
这个我还是挺surprise的
对就是CADD
它就总结了所有这些就那个数据库
然后它把就是所有的
它是那些突变都真的看到有人
没有 所以它说叫可能
就是它其实现在知道那个
它用祖先的位置
比如祖先这个位置是A
那么基本上它就有三可能三种变异
就是TCG
就这样它把这基本都考虑进来了
所以你那80几亿就是约等于90亿嘛
90亿就是所有可能了
对
然后你就把那个每一个可能的突变
相应的一些物理化学性质什么的
都提取出来
对 就是这样的
我可以了
翻到方老师那个问题
你如果用MeSH term来define
疾病之间的相关性
那就会有假阳性对吧
你比如说这个很多的肿瘤会有疼痛
但是那个你比如说关节炎也会疼痛
但实际上这两个病因和最后的结果
会完全不一样
这个你怎么考虑
你们这个预测出来的结果中
这个假阳性的问题
是这样的就是我们采用的那个
MeSH算法首先是人家算好的
所以其实我们就是没有真正
自己进行验算 就是进行计算
那么在这个过程中
就是其实我们也只是考虑就是说
笼统的考虑它的表型相似性
因为如果太细致的话
其实这个我觉得也不是特别现实
所以肯定在这个疾病表型相似性上
会有一些误差
所以这个也是为什么
我们最终选用的是10个
就是10个它那个
就是跟这个表型最相近的
它们的致病基因作为种子基因
就我们没选最相近的那个
或者最相近的两个
我们选了一个10个就是有一个容差
就是我们认为我们就是尽量的希望
在这10之中会有一些是真的
因为一旦只要是它这个种子基因中
包括真的致病基因
它这个效果就会很好
因为我觉得你第二部分的结论
好像语气太强
因为没有任何一个预测SNP和
疾病的关系可以说准确预测 对吧
从你那个表征的结果上面来讲
其实也不能算做准确预测
只能较准确的找到了看见了 对吧
好的
挺好的工作我有两个问题
第一个问题我觉得你的title
文章的title是 一方面是SNP
一方面是疾病
但是从论文
还有从你讲SNP当中
这一环就是SNP
到底是怎样导致疾病的
这个逻辑链条没有
哪怕有一个例子能说就可以了
我不是搞疾病这个领域的
所以我也说不上来
但是我就只是从
我在结构方面有一些认识
你打开你的第11页
第11页
第11页的那些feature
我知道您
原来当时写过
对feature
对
我觉得左边的几个feature
可能每一个都跟那个致病性关联不大
对
为什么呢
因为αβ这些区域不会被怎么样
对 我看到了
基本上这些变异
就有可能发生两个区域
一个是在那个coil functional sites
第二个区域有可能发生在结构上
但是不能这么衡量
你看可以另外一种就是
它跟谁有contact
这些contact如果发生显著的变化
它们就有可能会导致疾病
就可能吧
所以contact信息用这些都衡量不了
对 您说的挺好
我有那个comment我觉得如果是你
对这个SNP
到底怎么样产生这个逻辑链条
能认识比较清楚
这方面的feature设计的会更合理
对
我也不敢保证
我说的feature是合理的
您说得对 是这样的
因为我不是做疾病我只是对结构有认识
另外这个小的comments
就是你考虑的疾病
与nsSNP的关联分数的时候
你是用的2011年Perlman
这个方法
我看这个大意我觉得你可以
借鉴邓老师那个方法
邓老师是
Domain-domain interaction from protein那个
就是这个疾病有可能是
多个SNP来的
但是到底是 就可能infer出来
到底是有哪一个对它的贡献最大
那边paper我觉得可能更准确
我推那个
好的
我借着刚才王秀杰老师的
那个问题再问一下
就关于你那个图3.5正文里面
你说免疫疾病效果特别差
然后别的特别好
我觉得这差别很小
对 就没说特别差
就是只是相对来说弱一些
而且其实就是就像
你刚才在答辩上
你说的就是免疫疾病特别差
别的特别好
当时是在你这个上面30几页吧
对
就一个关于免疫系统疾病的那个
在43页我看到了
就是相对来说会稍微的弱一些
统计不显著
对统计不显著
为什么你要单独拿出来说它呢
我就当时觉得看起来
会稍微的有一些那个
它的就是会有一些疾病
然后效果会差一些
差不多 scale一个是0.5的
都在双叉线里头
没什么大问题一个小问题
好你做的这个工作量也是挺大
做这些是挺不错的
我也是几个小问题
第一个是
因为你在这是主要是整合多种数据
多种信息来预测
我觉得这个我觉得还是挺好
但是我就问你
它是特征越多越好吗
应该不是 我觉得应该不是
因为很多致病基因
它在共表达的时候它就不表达
这些基因driver共表达
特征多的时候有时候那个造成
会有冲突 对 反而会有冲突
你是怎么看待这个
怎么处理这个中间的
对 就是其实我们不是也是做了
那个特征选择了嘛
但是反正就从结果显示也有
我们一共验证了1400多种疾病
然后结果也是大部分
有三四百种疾病
它还是趋于选择所有的
就是可能它会有一些弥补
就是互相之间还是有一些弥补
然后还有一个我看你那个
第一个做的时候是讲那个选表型
最相似的10个疾病的时候的基因
但是有的病如果说差不多
跟什么都
不相似了是吧
对 因为你用值嘛
最相似的话
是不是也要考虑设定阈值
因为有的它前10个或者差的就很远
对 您说的这很好
当时其实我们也考虑过了
但是它会存在一个问题就是
我们当时考虑的时候
就是如果说比如
有的选三个 有的选四个
这样它那个总的基因数量
可能会差的特别大
就是那个种子基因的数量差特别大
所以当时我们就想说
为了稍微的能平衡一点
所以选了那个
对 确实做得不是特别精细
就是如果要是精细起来
确实应该当时有cut off
就应该选用cut off
因为当时我们也是
对确实看了这个问题了
对然后 我看你那里面提
就是那个侯选集
就是侯选集
就是你第二种方法
侯选集越精确越好那侯选集怎么来的
侯选集就是测序测来的嘛
就是说测序
就是比如说所以就是我们做的那个
后来的真实数据实验
也基本上都是新生突变
它也都是相当于它先测父母
然后再测儿女再测孩子的
然后通过跟这个
因为亲近的这种
它能筛出很多那种一样的
它把一样都筛取
然后这样得到一种新生的
然后最后侯选的
那里头开始测的那个结果是吧
对这样用的
然后还有一个很小的一个
其实就是一个
因为你是讲那个你的那个
SNP的网络都是没有意义的
对
这就跟刚才卜老师也提的对吧
你这个从SNP怎么到这个疾病
因为你那个是没有物理意义的
对
而且以前基于
比如说蛋白质相互作用网络什么的来做
产生一种一定的物理意义的
还是有着表型相似
确实你发现了很多疾病
就是属于一个蛋白复合物
或者说是一个网络通路导致
所以说我也是觉得你应该把这里面
把这个联系把的符号
把这些联系的一些
相当现在什么数 排序的高低这些数
具有一定的意义上能不能结合起来
会更有说服力一些
我们如果要多加一些就是比如像
那个蛋白质结构方面的特征
可能就很多会
也会有很好的效果
我觉得关键是逻辑链条
对
不一定讲特征就是要看Why
对 得说出为什么
你们现在会更容易优先找到
这种在已知致病基因上的基因突变吗
会 对 肯定是 肯定是会
对于已知的可能会有一些biaos
还有什么问题包括在座的
如果没有的话那就
谢谢吴佳欣同学
好下面宣读吴佳欣同学的
答辩委员会决议书
识别致病遗传变异
是生物信息学中的一个重要问题
对于理解疾病的遗传学基础
促进精准医学的发展具有积极作用
论文通过整合多种基因组数据
和疾病表型相似性数据建立了
识别特定疾病
相关致病遗传变异的方法
取得以下创新性成果
一 利用多种非同义单核苷酸
多态性相似性网络
和疾病表型相似性网络
建立了预测模型
可用于发现潜在致病
非同义单核苷酸多态性
第二 设计了一种可识别
全基 全外显子组测序数据中
致病突变的统计算法
为疾病的遗传学研究
提供了有效工具
第三 建立了一个
全基因组单核苷酸变异
及其功能影响分数的数据库
为研究人类遗传致病变异
提供有价值的参考资源
论文结构合理
逻辑性强
答辩过程思路清晰
回答问题满意
论文工作表明该生在本门学科上
掌握了坚实宽广的理论基础
和系统深入的专门知识
具有独立从事科学研究工作的能力
答辩委员会经无记名投票
一致同意吴佳欣同学通过
博士论文答辩
并建议授予其工学博士学位
答辩委员会六人中四票同意
推荐为清华大学优秀博士学位论文
祝贺你
-个人答辩陈述
--个人答辩陈述
-问题及答辩结果
--问题及答辩结果
-个人答辩陈述
--Video
-问题及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩及陈述
-问题及答辩结果
--问题及答辩结果
-个人答辩及陈述
--个人答辩及陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩及陈述
--个人答辩陈述
-问题及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问题及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--Video
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--Video
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--Video
-问题回答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问题及答辩结果
-个人答辩陈述
--个人答辩陈述
-问答及答辩结果
--问答及答辩结果
-个人答辩陈述
--Video
-问答及答辩结果
--Video
-个人学术感言
--Video
-个人答辩陈述
--Video
-问答及答辩结果
--Video
-个人学术感言
--Video
-个人答辩陈述
--Video
-问答及答辩结果
--Video
-个人学术感言
--Video
-个人答辩陈述
--Video
-问答及答辩结果
--Video
-个人学术感言
--Video