当前课程知识点:新冠肺炎预防及治疗中的药物研发 > Lecture 7 Molecular Detection for Emergent Virus > 第七单元 讨论2 > 3.3 The AI workflow for COVID-19 (2)
但是 这类证据是非常薄弱的
它们无法将治疗效果量化
在GHDDI
我们有一个全面的药理数据库
里面涵盖所有的实验数据结果
据此 我们也做了数据库的挖掘
也就是基于结构化数据的挖掘
这同样也是一种AI技术
所有的工作都是基于Python语言实现的
这也是刚才提到的
研究数据类型的一个例子
药物研发过程中
我们通常有体外、体内
和临床阶段的数据
在每个阶段
需要采用不同的标准
来诠释药物显著性及其量化结果
举个例子来说
这个是SARS的一个靶点
它的IC50
这是一个医学上的检测值
而且每个分子都有它的
SMILES简化分子结构式
标明它的分子结构
所以
我们对这种化学层面信息的了解
是非常详细的
因此
我们能够知道哪种疗法的效果更好
以及每种药物的
潜在问题或治疗效果是什么
我们在1月底的时候
就把这种类型的数据
投放在我们的信息共享门户上
很多研究人员看到了这些原始数据
帮助我们一起
从他们的专业角度进行分析
随后也基于其中的
部分数据发表了学术论文
此外
我们也做了相应的分析和数据清洗
我们最终集中在深度挖掘病毒靶点
宿主靶点和治疗药物上面
以更彻底的方式进行深度分析
在这里
即将引出的是第二个工作流程
也就是基于已知证据进行推理
首先
第一个思路是基于物种相似性
我们知道SARS、MERS
和SARS-CoV-2是同属一个家族
它们的相似度很高
但是我们不知道
但是他们的基因序列的相似性
不是非常的明确
所以我们不清楚这几个病毒中的
哪个靶点是近似的
我们根据蛋白质序列
找到了三个靶点
采用的是瑞士研究所提供的
开源免费工具(Swiss model)
在server下进行了最初的同源模建
因为在这几个靶点位置上
SARS和SARS-CoV-2的序列非常相似
所以我们认为同源模建是相对准确的
后期已有晶体学家
通过对部分靶点的结构进行比对分析
认可了这个同源模建的方法
误差很小
我们从三张图中可以看到
黄色高亮的序列
SARS和新冠病毒是不一样的
3C蛋白酶几乎是相同的
只是在催化位点
有一点小小的区别
而对于RDRP
它的催化位点就在这里
是完全保守的
但是对于木瓜蛋白酶(PLpro)来说
在三个抑制剂结合位点上有很大的差异
所以
我们会看到目前处于高优先级的
有RDRP靶点
也可能还有3C蛋白酶
当然根据后来的结果我们也知道
RDRP就是瑞德西韦这个药物的靶点
也是目前在临床试验中
相对比较有希望的一个药物
这进一步说明
这个模型是合理的
于是
我们又在数据库中提取
并清理了两组与SARS和MERS相关的数据
一组是病毒感染表型的数据
这部分数据是基于细胞实验
验证化合物针对SARS和MERS
有效性的相关结果
于是我们推测
这些化合物很有可能
对新型冠状病毒也有效
这份清单中化合物
实际上有超过一百个分子
基于既往所有检测结果
根据化合物有效性的结果进行排序
我们找到了市面上
所有类型的RDRP抑制剂
希望这当中存在新冠病毒的
潜在候选药物并能够得以再利用
部分候选药物在随后的
SARS-CoV-2细胞试验中
显现出了与SARS类似的效果
另外一个亟待我们解决的问题是
病毒的传染途径
当我们对一种新病毒一无所知时
我们需要了解它是如何感染人类的
目前
我们唯一能搜索到的是SARS病毒相关的信息
我们在一个叫GeneCard的网站上展开了搜索
在这个网站上
你可以搜索任何一种病原体的名字
网站就会给出所有相关的人类基因
并基于一个特有的评分标准进行排序
这个分数是衡量这两个概念
在文献中被提及的频率有多高
如果他们在报告中存在较多的关联
网站就会给出一个较高的分数
根据搜索结果可知
对于SARS病毒来说
ACE2(血管紧张素转化酶2)的
搜索结果排在首位
并且它的得分是远远高于其他靶点的
我们还可以看到
TMPRSS2(丝氨酸蛋白酶)
也是一个可成药的靶点
这意味着这种类型的关联算法
即便是没有阅读任何相关文献
也能帮助我们筛选
可供深度挖掘的关键受体信息
基于以上信息
我们很快便在现有SARS结构研究基础上
进行了另外一项同源模建工作
我们对SARS-CoV-2尖峰蛋白
和人类ACE2蛋白展开了快速的
分子动力学(MD)研究
探究它们之间是如何相互作用的
初步的模拟结果显示出
一个非常稳健的关联
两种蛋白结构之间的结合
具有较强亲和力
这与感染率也存在一定关联
在传染病预防早期阶段
我们非常希望了解这些信息
但这些仍然是非常早期阶段的
生物物理学或模拟水平的实验结果
它不能给出任何结论
只能提供一些指导
而后来针对ACE2蛋白
结合亲和力的检测结果
证明了它的结合亲和力非常强
同时也解释了为什么感染率这么高
第二个思路是
寻找广谱抗病毒药物
我们的假设是
如果一个药物可以治疗
不同类型的病毒感染
不管这两种病原体有多大的差异
它可能针对的是一个相似的
宿主生物通路
也可能针对的是一个病毒靶点
但这个靶点本身在
所有的病毒中都是存在的
我们对此也进行了数据挖掘
涵盖约7000种抗病毒化合物
如果我们采用1μmol EC50
作为药物有效性的分界点
我们识别出462个分子
至少能够有效抑制两种病毒
51个分子至少能够有效抑制五种病毒
这张图中橙色的部分就是这51个分子
以及它们是如何抑制不同类型病毒的
这些数据的详细情况
都可以在我们的信息共享门户上看到
我们对所有药物又做了进一步的分析
实际上
大多数药物确实是靶向人类的
这也解释了为什么它们具有广谱活性
并且一些药物也可以另作他用
因为不同的靶点
甚至是完全不同的靶点的
药物结合的口袋可能都存在
一定的相似之处
这是“一药多用”的另外一个可能的原因
因此
基于这个结果
我们得到两个药物清单
一个是相对较短的已知药物清单
另外我们还得到了一个巨大的
早期化合物清单
而我们需要做的是
思考如何处理这些数据
较短的清单一般包含
十几种到上百种药物
通常我们会建议研究人员
根据既往文献进行深入的挖掘和比较
甚至可以推荐临床用药
因为已知药物的毒性
已经被测试过了
我们可以知道
如何在正确的治疗窗口中使用
但是我们要充分利用早期数据
这部分数据量很大
所以我们经常会利用
这些数据来构建AI预测模型
以便后期能在更大的化合物库
中筛选更多新的可能
紧接着我们进入下一步
也就是根据收集到的
不同类型数据集来
训练和评估AI模型
所有模型的构建
都需要基于一定的科学合理性
-1.2 Applications in COVID-19 pandemic
-Lecture 1 homework
-2.5 New targets for SARS-CoV-2
-Lecture 2 homework
-3.2 The AI workflow for COVID-19 (1)
-3.3 The AI workflow for COVID-19 (2)
-3.4 The AI workflow for COVID-19 (3)
-Lecture 3 homework
-4.1 Brief introduction about COVID-19 and coronavirus life cycle
-4.2Background on application of computational approaches on drug discovery
-4.3 Case study on targeting SARS-CoV-2 3CL protease
-Lecture 4 homework
-Lecture 5 homework
-6.1
-6.3
-Lecture 6 homework
-7.2 Detection Methods for Virus
-7.3 Detection of Viral Proteins
-7.4 Detection of Genetic Materials
-7.5 Advances in Molecular Detection Methods
-Lecture 7 homework