COVID-19疫情的肆虐,凸显出人工智能在药物发现领域的重大贡献。
随着COVID-19疫情不断威胁全球民众的生命安全与日常生活,人们开始高度重视这一疾病的预防与治疗。以往人用药物在美国食品药监局(FDA)的批准流程往往需要耗费数亿美元,且需要数月甚至数年的临床试验周期。但是,也许治疗COVID-19的特效药就藏在FDA方面已经批准的超过7800种人用药物当中。为了验证这一猜想,全球数百名研究人员开始投入不懈努力。
在这样一个时间节点之下,人工智能挺身而出担当重任,尝试用AI药物发现的方式为抗疫工作带来新的希望。在今年全美最具发展前景的50家人工智能企业当中,Atomwise、Genesis Therapeutics、Recursion Pharmaceuticals以及twoXAR等AI药物发现厂商榜上有名。来自英国的Benevolent.ai等企业也开始在国际上推动AI药物发现的普及。这些公司早在COVID-19疫情爆发之前就迈出了自己的探索脚步,希望使用AI方法发现现有药物能否治疗多种疾病。
从事这方面研究的AI从业者也在快速增加。为此,我们与斯坦福大学人类中心AI研究所著名生物工程学教授兼副主任Russ Altman博士进行了交流。Altman的实验室重点研究人类遗传变异对药物反应造成的影响。面对此次气势汹汹的COVID-19疫情,他和同事们迅速调整了工作重心。尽管传统临床试验可能需要数年时间,但Altman和他的团队在几周之内就发现了一种有助于对抗COVID-19的药物,其间采用的正是斯坦福大学研究科学家Stefano Rensi所倡导的方法。尽管这种新方法不可能百试百灵,但他的团队确实在AI技术的助力下投身于这场全球性的战役并快速取得成果。
“阻断”蛋白质并抗击病毒
疾病控制与预防中心(CDC)发布的图片,揭示出冠状病毒表现出的超微结构。
过去几个月以来,“病毒”已经成为全球范围内的热点议题。病毒是一种无法自我复制的亚显微介质,只能依赖于健康的宿主细胞才能保持活动。正常的人类细胞中包含6000到7000个蛋白质分子。COVID-19病毒被称为SARS-CoV-2,它会带着6种蛋白质大分子进入人体细胞,这些在分子在这里被进一步处理为29种功能性蛋白。接下来,这些蛋白质开始控制完整细胞,并由病毒指挥细胞从正常完成人体功能转为单纯生成更多SARS-CoV-2拷贝。最终,宿主细胞中将充满SARS-CoV-2后代,并在进一步裂解之后感染其他更多健康的宿主细胞。
治疗这种病毒的一种可行方法,就是阻断病毒蛋白的作用。如果科学家们能够找到一种干扰病毒控制细胞能力的方法,即有望阻止这种疾病的发生。另一种方法就是阻断某些“帮助”病毒发挥作用的人类蛋白质。但是,要找到并阻断这些特定蛋白质(即「靶标」)、发现具有阻断作用的药物以及验证是否切实发挥了阻断效果,无疑是一项艰巨的工作。在Altman的实验室中,他们运用AI技术通过三步走战略就此展开探索。
步骤1:通过自然语言处理(NLP)明确方向
第一步是使用AI技术查看与COVID-19相关的数千篇研究论文。对人类而言,阅读此类论文需要长时间的正规生物学专业学习。但机器完全能够在自然语言处理的支持下无缝遍历这些学术文献。斯坦福大学的机器学习算法扫描了数千篇与烈性传染病相关的论文,包括MERS、HIV以及SARS等,并从中寻找与COVID-19之间的相似之处。其工作原理类似于搜索引擎,能够以图形方式映射文献中的术语并配合NLP算法进行链接整合,帮助Altman和他的团队快速发现TMPRSS2这一“可疑”蛋白作为潜在靶标。
使用自然语言处理将COVID-19相关疾病的学术文献转换为图形化模型。
Altman解释道,“TMPRSS2是一种人类蛋白质,可帮助COVID-19进入人体细胞。”下图所示,为TMPRSS2如何帮助COVID-19与ACE2结合以进入人体细胞。
TMPRSS2帮助COVID-19与ACE2结合以进入人体细胞。
步骤2:使用有监督机器学习投射3D结构
下一步则是了解靶标蛋白质的“外观”。遗憾的是,目前世界上还没有现成的蛋白质形状数据库。蛋白质会以多种方式进行弯曲与折叠,明确并理解其独特构型往往极度复杂。要在实验室中确定蛋白质形状,研究人员往往需要耗费数月甚至数年时间。但是,机器学习技术足以生成接近精确蛋白质形状的表示,Altman实验室也正在以此作为突破口。Altmann提到,“这在本质上是一种有监督机器学习问题,相当于给定一个序列,并对其呈现出的3D结构做出预测。目前此类预测算法已经可以在网上轻松获取。”
为TMPRSS2蛋白质生成3D模型。
步骤3:寻找用于阻断蛋白质的药物
最后,Altman实验室还需要寻找一种能够阻断目标蛋白质功能的药物。只要阻断蛋白质功能,他们就能阻止COVID-19的进一步感染。直观地看,药物阻断蛋白质的方式高度依赖于其几何形状与物理性质。换言之,这种阻断类药物就像一把钥匙,能够将蛋白质功能彻底关闭。
阻断类药物就像一把钥匙,能够将蛋白质功能彻底关闭。
他们首先绘制出可能“匹配”TMPRSS2蛋白质结构的潜在药物,然后将其与已经获得FDA批准的备选药物(见下图)进行比对,并最终确定Argatroban似乎很有希望。更重要的是,Argatroban是FDA批准生产的在售药物,因此只要疗效确切,人们很快就可以将其投入COVID-19治疗。
图中所示,为可能“匹配(具有高亲和力)”TMPRSS2蛋白质的潜在药物及其监管状态。
AI药物发现将给我们带来怎样的影响?
这一切还仅仅只是开始。目前,全球数十家实验室及企业正在研究如何利用AI技术加快药物发现。除了解决当前最迫切的COVID-19抗疫需求之外,这种新方法也有望在抗击罕见病方面发挥作用,帮助制药企业省下新药研发所带来的数亿甚至数十亿美元成本。例如,如果AI技术能够帮助人们发现可确切治疗镰状细胞性贫血的现成药物,那将是对世界的一大杰出贡献。用Altman的话说,“如果能够切实降低药物发现成本并匹配税收优惠,那么新疗法的黄金时代将就此拉开弃。”
Altman还提醒我们,成功的企业必须“将AI技术与强大的生物学、化学以及AI团队紧密结合起来。如果单纯强调AI部分,而忽视了其他传统学科的因素,则根本不可能带来理想的成果。”换言之,只有组织起涵盖生物学家、化学家以及计算机科学家的跨学科团队,我们才能组织起具备强大药物发现能力的新兴力量。疫情的持续蔓延让我们必须快速行动起来。而且除了COVID-19之外,我们也要时刻提醒自己,每一天都有上百万罕见病患者仍在遭受病痛的折磨。而AI技术,将成为攻克这些顽疾的有力武器。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面