当前课程知识点:新冠肺炎预防及治疗中的药物研发 > Lecture 7 Molecular Detection for Emergent Virus > 第七单元 讨论2 > 3.2 The AI workflow for COVID-19 (1)
对于新冠肺炎的药物研发
我将介绍在疫情最初爆发时
GHDDI的一些内部经验
作为一个主要由计算机科学家
和化学家组成
几乎没有生物学家的团体
我们希望能找到一种方法
来快速找到针对这种
完全未知的新病毒的疗法
我们做了以下的努力
首先
我们将这一问题输入到
一个由数据驱动算法和大量数据文献
组成的系统中
接着
我们进行了数据挖掘和清理
以进一步找到相关证据
然后
根据这些证据
我们提取出最重要的信息
并使用这些信息
来构建人工智能模型
最终使用该模型来筛选新的治疗方案
这是一个很高层次的工作流程
在接下来的演讲中
我将逐步介绍工作流程中的每一步
在此之前
让我们谈谈为什么
这个工作流程能够运作
我将谈到这个工作流程的一些优势
首先
在这个工作流程中
每个步骤都是通过计算机程序来实现的
这意味着如果尚未把它们整合在一起
则可以通过
网络应用程序接口(APIs)进行整合
也就是说
每个任务可以在基于
网络的计算机程序上单独完成
只要有可以执行此任务的计算机程序
就可以将任务分别执行再将它们整合在一起
第二个特点是
需要在线资源和全球合作
来完成这些任务
因为不同的步骤
需要来自不同国家和不同研究团队的
服务器和数据
第三
如果整个工作流程是完全自动化的
而无需任何人工调整
则只需花费不到一天的时间
就可以在高性能的计算系统上
完成所有的计算分析工作
最后一个好处是
这个流程所需的专家干预很少
我们希望构建一个
与该领域的资深生物学家一样
具有洞察力的人工智能系统
以便于在不同研究社区中的
每个地方都能迅速做出响应
使得研究人员都能与时俱进
但是
目前在药物研发中的人工智能技术
仍在开发中
因此
这一工作流程目前还不是完全自动化的
需要一些人工干预(human-AI augmentation)
我希望human-AI augmentation这个词
能帮助各位更好理解不同程序下
人工智能应用
首先
我想介绍一个令人惊喜的的事
是关于在GitHub上进行的
有关抗击新冠肺炎的国际合作
这张截图是今天刚截的
目前
在GitHub上创建的项目存储库中
全球已经有超过31,000个
有关新冠肺炎的合作项目
我记得在二月初时
这个数字只有3000
这确实非常鼓舞人心
稍后我也将介绍这31,000个项目中的一个
首先
让我们谈谈工作流程的第一步
当我们得到一种新病毒时
如果我们想要知道如何攻克它
至少我们需要得到它的基因序列
在今年1月5日时
我们在基因库(Gene Bank)中
获得了这种新病毒的基因序列
这就是我们处理这种未知病毒的第一步
然后我们执行了Blast算法
Blast是一种搜索算法
可将不同地区的基因
与整个基因库进行比对
以找到最相似的基因
多年来
这种算法已在生物医学领域广泛使用
这是我在1月21日所做的比对结果
当时
这种病毒的基因是全新的
可以找到的最接近的是
蝙蝠所携带的类似于SARS的冠状病毒
具有98%的一致性
第二个最接近的是SARS冠状病毒
一致性约为82%
据此可知
这种病毒的基因
已经非常接近SARS了
基于此
我们将投入更多的时间
来判断这场疫情是否将是一次
类似于SARS病毒的爆发
但是我们需要更多的证据来支持这一假设
另外
这种搜索算法是具有时效性的
今天
我又针对这一病毒的基因序列
进行了一次Blast搜索
各位可以看到
大多数的基因序列
实际上是当前爆发的病毒的
基因突变株的变体
因此
各位可以了解到
基因序列以及它的参考物
实际上是随时间演变的
在我们有了待挖掘的数据目标之后
我们首先需要找到所有与冠状病毒相关的数据
以挖掘该新型病毒的潜在疗法
这家公司叫Casualy
实际上
在一月份中国正爆发疫情时
这家位于英国的公司
与GHDDI进行了一些合作
所以他们提供了一些数据给我
他们慷慨地为我们提供了
有关冠状病毒研究的一系列数据
各位可以看到
这就是自然语言处理技术的
工作流程
这个系统能够标识某个概念的关键字
这些概念通常都有对应的词典
例如药物名称或种类名称
然后他们根据特定的关键词
进一步寻找逻辑关联
在此基础上
他们就能够鉴定出
具有抑制SARS或者
某种能够改变病毒活性的重要基因
从而找到治疗方案
运用这种方法
他们就可以锁定潜在的药物靶点
或有疗效的药剂
这是他们生成的一张清晰的图表
各位可以看到不同类型的试剂
与SARS或其他冠状病毒疾病相关的
基因之间的关联
以及它们的网络关系
由此,各位可以发现
如果我们在整个数据库中进行挖掘
大多数药物都存在多个靶点
而大多数靶点又都是多效的
基于此
我们就可以对正发生的事情
有一个非常广泛而且完整的了解
另一个类似的例子是
一家名为Dimensions的公司
他们也非常擅长自然语言处理技术
他们一直在追踪记录所有
基于冠状病毒的出版物
截止到今天
已经有大概12000个相关出版物了
对于任何研究人员来说
想要完全知晓这么多的出版物是不可能的
因此我们需要这种技术的指导
这家公司目前专注于临床试验
并生成了一个公开的谷歌文档
这就是那个谷歌文档的内容
里面记录了当前所有临床试验批件号
截止到今天
全球共有1495个试验
然后
他们也记录了这些试验的所有详细信息
包括该试验处于哪个阶段
在哪个国家执行
以及采取了什么干预措施
干预措施的意思是
在试验中运用的药物或疗法
以及任何其他措施
因此
这个系统可以提供研究和临床领域
实时更新的动态信息
另一个非常有趣的例子是Coronawhy
这是一个在Kaggle挑战上发起的
全球志愿者团体
这一组织运用自然语言处理技术
来寻找新型冠状病毒疾病的潜在疗法
这个志愿团体300多名志愿者
实际上我和我团队中的一些成员也是参与其中
各位可以从这个应用示例中看到
这实际上是一个微软Power BI界面
这个界面包含的数据
有针对一般冠状病毒或特定SARS-CoV-2病毒的
文献中提到的所有药物信息
由此就可以实时了解到是否有新药问世
或者是否有旧药近期引起了更多关注
以便于研究人员进行实时跟踪研究
-1.2 Applications in COVID-19 pandemic
-Lecture 1 homework
-2.5 New targets for SARS-CoV-2
-Lecture 2 homework
-3.2 The AI workflow for COVID-19 (1)
-3.3 The AI workflow for COVID-19 (2)
-3.4 The AI workflow for COVID-19 (3)
-Lecture 3 homework
-4.1 Brief introduction about COVID-19 and coronavirus life cycle
-4.2Background on application of computational approaches on drug discovery
-4.3 Case study on targeting SARS-CoV-2 3CL protease
-Lecture 4 homework
-Lecture 5 homework
-6.1
-6.3
-Lecture 6 homework
-7.2 Detection Methods for Virus
-7.3 Detection of Viral Proteins
-7.4 Detection of Genetic Materials
-7.5 Advances in Molecular Detection Methods
-Lecture 7 homework