3.3 The AI workflow for COVID-19 (2)慕课视频播放-新冠肺炎预防及治疗中的药物研发-MOOC慕课视频教程-柠檬大学

但是这类证据是非常薄弱的

它们无法将治疗效果量化

在GHDDI

我们有一个全面的药理数据库

里面涵盖所有的实验数据结果

据此我们也做了数据库的挖掘

也就是基于结构化数据的挖掘

这同样也是一种AI技术

所有的工作都是基于Python语言实现的

这也是刚才提到的

研究数据类型的一个例子

药物研发过程中

我们通常有体外、体内

和临床阶段的数据

在每个阶段

需要采用不同的标准

来诠释药物显著性及其量化结果

举个例子来说

这个是SARS的一个靶点

它的IC50

这是一个医学上的检测值

而且每个分子都有它的

SMILES简化分子结构式

标明它的分子结构

所以

我们对这种化学层面信息的了解

是非常详细的

因此

我们能够知道哪种疗法的效果更好

以及每种药物的

潜在问题或治疗效果是什么

我们在1月底的时候

就把这种类型的数据

投放在我们的信息共享门户上

很多研究人员看到了这些原始数据

帮助我们一起

从他们的专业角度进行分析

随后也基于其中的

部分数据发表了学术论文

此外

我们也做了相应的分析和数据清洗

我们最终集中在深度挖掘病毒靶点

宿主靶点和治疗药物上面

以更彻底的方式进行深度分析

在这里

即将引出的是第二个工作流程

也就是基于已知证据进行推理

首先

第一个思路是基于物种相似性

我们知道SARS、MERS

和SARS-CoV-2是同属一个家族

它们的相似度很高

但是我们不知道

但是他们的基因序列的相似性

不是非常的明确

所以我们不清楚这几个病毒中的

哪个靶点是近似的

我们根据蛋白质序列

找到了三个靶点

采用的是瑞士研究所提供的

开源免费工具（Swiss model）

在server下进行了最初的同源模建

因为在这几个靶点位置上

SARS和SARS-CoV-2的序列非常相似

所以我们认为同源模建是相对准确的

后期已有晶体学家

通过对部分靶点的结构进行比对分析

认可了这个同源模建的方法

误差很小

我们从三张图中可以看到

黄色高亮的序列

SARS和新冠病毒是不一样的

3C蛋白酶几乎是相同的

只是在催化位点

有一点小小的区别

而对于RDRP

它的催化位点就在这里

是完全保守的

但是对于木瓜蛋白酶(PLpro)来说

在三个抑制剂结合位点上有很大的差异

所以

我们会看到目前处于高优先级的

有RDRP靶点

也可能还有3C蛋白酶

当然根据后来的结果我们也知道

RDRP就是瑞德西韦这个药物的靶点

也是目前在临床试验中

相对比较有希望的一个药物

这进一步说明

这个模型是合理的

于是

我们又在数据库中提取

并清理了两组与SARS和MERS相关的数据

一组是病毒感染表型的数据

这部分数据是基于细胞实验

验证化合物针对SARS和MERS

有效性的相关结果

于是我们推测

这些化合物很有可能

对新型冠状病毒也有效

这份清单中化合物

实际上有超过一百个分子

基于既往所有检测结果

根据化合物有效性的结果进行排序

我们找到了市面上

所有类型的RDRP抑制剂

希望这当中存在新冠病毒的

潜在候选药物并能够得以再利用

部分候选药物在随后的

SARS-CoV-2细胞试验中

显现出了与SARS类似的效果

另外一个亟待我们解决的问题是

病毒的传染途径

当我们对一种新病毒一无所知时

我们需要了解它是如何感染人类的

目前

我们唯一能搜索到的是SARS病毒相关的信息

我们在一个叫GeneCard的网站上展开了搜索

在这个网站上

你可以搜索任何一种病原体的名字

网站就会给出所有相关的人类基因

并基于一个特有的评分标准进行排序

这个分数是衡量这两个概念

在文献中被提及的频率有多高

如果他们在报告中存在较多的关联

网站就会给出一个较高的分数

根据搜索结果可知

对于SARS病毒来说

ACE2（血管紧张素转化酶2）的

搜索结果排在首位

并且它的得分是远远高于其他靶点的

我们还可以看到

TMPRSS2（丝氨酸蛋白酶）

也是一个可成药的靶点

这意味着这种类型的关联算法

即便是没有阅读任何相关文献

也能帮助我们筛选

可供深度挖掘的关键受体信息

基于以上信息

我们很快便在现有SARS结构研究基础上

进行了另外一项同源模建工作

我们对SARS-CoV-2尖峰蛋白

和人类ACE2蛋白展开了快速的

分子动力学（MD）研究

探究它们之间是如何相互作用的

初步的模拟结果显示出

一个非常稳健的关联

两种蛋白结构之间的结合

具有较强亲和力

这与感染率也存在一定关联

在传染病预防早期阶段

我们非常希望了解这些信息

但这些仍然是非常早期阶段的

生物物理学或模拟水平的实验结果

它不能给出任何结论

只能提供一些指导

而后来针对ACE2蛋白

结合亲和力的检测结果

证明了它的结合亲和力非常强

同时也解释了为什么感染率这么高

第二个思路是

寻找广谱抗病毒药物

我们的假设是

如果一个药物可以治疗

不同类型的病毒感染

不管这两种病原体有多大的差异

它可能针对的是一个相似的

宿主生物通路

也可能针对的是一个病毒靶点

但这个靶点本身在

所有的病毒中都是存在的

我们对此也进行了数据挖掘

涵盖约7000种抗病毒化合物

如果我们采用1μmol EC50

作为药物有效性的分界点

我们识别出462个分子

至少能够有效抑制两种病毒

51个分子至少能够有效抑制五种病毒

这张图中橙色的部分就是这51个分子

以及它们是如何抑制不同类型病毒的

这些数据的详细情况

都可以在我们的信息共享门户上看到

我们对所有药物又做了进一步的分析

实际上

大多数药物确实是靶向人类的

这也解释了为什么它们具有广谱活性

并且一些药物也可以另作他用

因为不同的靶点

甚至是完全不同的靶点的

药物结合的口袋可能都存在

一定的相似之处

这是“一药多用”的另外一个可能的原因

因此

基于这个结果

我们得到两个药物清单

一个是相对较短的已知药物清单

另外我们还得到了一个巨大的

早期化合物清单

而我们需要做的是

思考如何处理这些数据

较短的清单一般包含

十几种到上百种药物

通常我们会建议研究人员

根据既往文献进行深入的挖掘和比较

甚至可以推荐临床用药

因为已知药物的毒性

已经被测试过了

我们可以知道

如何在正确的治疗窗口中使用

但是我们要充分利用早期数据

这部分数据量很大

所以我们经常会利用

这些数据来构建AI预测模型

以便后期能在更大的化合物库

中筛选更多新的可能

紧接着我们进入下一步

也就是根据收集到的

不同类型数据集来

训练和评估AI模型

所有模型的构建

都需要基于一定的科学合理性

3.3 The AI workflow for COVID-19 (2)在线视频

3.3 The AI workflow for COVID-19 (2)课程教案、知识点、字幕

新冠肺炎预防及治疗中的药物研发课程列表：

Lecture 1 Traditional Chinese Medicine in the COVID-19 Prevention and Treatment

Lecture 2 Small Molecule Drug Discovery for COVID-19

Lecture 3 Artificial Intelligence and other computational technologies in COVID-19 drug discovery

Lecture 4 In silico modelling and the application in the drug discovery against COVID-19

Lecture 5 Potential Biologics for COVID-19 treatment

Lecture 6 Virus-host interactions and the applications in drug discovery for COVID-19

Lecture 7 Molecular Detection for Emergent Virus

3.3 The AI workflow for COVID-19 (2)笔记与讨论

也许你还感兴趣的课程: