联系我们

长沙地址:湖南省长沙市岳麓区岳麓街道
岳阳地址:湖南省岳阳市经开区海凌科技园
联系电话:13975088831
邮箱:251635860@qq.com

加强人工智能药物研发的四种方式

  这些原始数据随后被进一步处置。正在Insilico,这一过程包罗引入评分机制,“我们有一款东西,能够评估颁发论文的科学家的可托度,”扎沃隆科夫说,“若是一小我之前撒过谎,那么他再次撒谎的概率就会更高。”。

  为了鞭策制药公司之间的数据共享,Owkin参取了一项欧盟赞帮的项目——Melloddy。该项目采用联邦进修(federated learning)方式,使十家制药公司可以或许正在不向合作敌手披露生物和化学数据的环境下,配合锻炼预测软件。正在该项目中,锻炼模子用来联系关系的化学布局取其生物活性,最终其预测精确性远超大大都公司的现有模子。

  然而,扎沃隆科夫认为,不该轻忽这些并不完满的公共数据。他暗示:“这些数据必需被反复操纵,终究曾经有大量动物因而被,而人工智能需要依赖这些数据进行锻炼。”他从意建立小规模、高质量的数据集,以用于测试人工智能模子的预测能力,确保其正在利用大规模、可能存正在缺陷的数据集锻炼后仍能做出精确预测。

  当分歧尝试室利用分歧的方式、试剂和仪器时,数据中可能会引入所谓的“批次效应”(batch effects)。样本处置过程中的细微差别、分歧批次试剂和细胞之间的变异,以至是布局的定名和描述体例,城市导致数据的变化。而这些变化可能被人工智能模子误判为具有生物学意义的特征。杜兰德注释道:“你不克不及间接拿两个尝试室生成的数据集进行结合阐发,而不进行预处置。”?。

  2023年8月,Insilico完成了一项IIa期临床试验,研究对象为特发性肺纤维化(idiopathic pulmonary fibrosis,IPF)患者,这是一种导致肺部瘢痕化的疾病。公司目前正筹备后续试验,而扎沃隆科夫对将来充满决心:“自2019年以来,我们已确定了22种临床前候选药物。”!

  2019岁暮,Insilico Medicine的人工智能驱动药物研发平台PandaOmics发觉了一种针对纤维化疾病的新靶点,该类疾病涉及过度的瘢痕组织增生。随后,公司操纵其生成式人工智能平台Chemistry42设想了可以或许阻断该靶点的化合物。该算法操纵ChEMBL等大型数据库,进修化学布局的模式,并生成潜正在药物。

  哪些问题最紧迫?哪些处理方案该当优先实施?这些问题仍存正在争议。为进一步切磋若何让人工智能实正实现对药物研发的变化,达到很多人所期望的程度,本文采访了多位该范畴的研究人员,以梳理出可采纳的具体步履。

  有些人认为,生成合适人工智能需求的有序数据的最佳体例是制定尝试运转和演讲的法则。例如,能够从一起头就同一疾病和基因的定名,并提前告竣尝试和谈。一个成功的案例是人类细胞图谱(Human Cell Atlas),这是一个于2016年启动的全球项目,目前已以严酷尺度化的方式绘制了数百万小我体细胞图谱。这些分歧的数据为人工智能算法供给了根本,有帮于寻找潜正在的药物靶点。

  人工智能锻炼的数据凡是来自已颁发的研究,而这些研究往往更倾向于展现成功成果,这就导致人工智能正在进修时对生物学范畴构成了一种扭曲且过于乐不雅的认知。例如,已有的研究数据中,更多记实的是正在动物尝试中表示优良、无较着毒性的成熟化合物,而对那些失败的化合物记实较少。因而,人工智能正在进行药物发觉时,可能会因缺乏大量躲藏失败的案例,而无法全面评估药物的潜力。

  一种处理方式是从一起头就明白收集反面和负面成果的企图。此中一个遭到关心的项目由美国大学分校的布局生物学家詹姆斯·弗雷泽(James Fraser)带领,并由美国先辈研究打算署(ARPA-H)赞帮。该项目关心的是药代动力学(pharmacokinetics),即研究人体对化合物的感化体例。

  5。另一方面,充实操纵现有资本,如复杂的数据量和更智能的数据处置,能够正在很大程度上降服人工智能正在新药研发中的挑和。

  然而,虽然复杂的数据规模似乎表白人工智能变化药物研发只是时间问题,但现实并非如斯。数据质量往往难以达标,由于大大都数据的采集并未特地针对机械进修进行设想。尝试方式和数据记实体例缺乏分歧性,以及研究成果方向于颁发积极结论,而忽略负面或无效数据,这些要素城市带来问题。虽然有些人认为,只需数据量脚够大,就能从动处理这些问题,但也有人认为,学术界和工业界的研究人员需要联袂合做,提高用于机械进修模子的数据质量。

  Polaris了数据集的根基审核尺度。例如,数据建立者必需申明数据的生成体例及其合用范畴,并明白援用其消息来历。此外,该平台提示研究人员自行查抄数据集中能否存正在较着的反复项或不明白的消息。计较化学家沃尔特斯说道:“我们还邀请专家对部门公开数据集进行审核,以便向学术界和工业界供给高质量数据的参考。”为了进一步提拔数据质量,Polaris还引入了一种认证标章,用于标识那些合适尺度的数据集。

  开辟可以或许加快药物发觉的系统的环节正在于大量优良数据。取其他一些人工智能使用范畴的科学家比拟,药物研发范畴的研究人员具有结实的数据根本:全球各地的尝试室正正在络绎不绝地发生大量生物数据,为人工智能手艺的使用奠基了根本。

  “像诺华如许的大公司——我曾正在此中工做多年——具有成千上万个化合物的测试数据,这些化合物曾被用于评估取特定卵白质的连系环境,”杜兰德说道,“但他们不情愿取合作敌手分享这些数据,由于这是他们的焦点资产。”。

  他进一步,这些高质量数据应来自从动化尝试室,通过尺度化体例特地生成某些类型的数据,以提高人工智能锻炼的靠得住性。

  人工智能该当可以或许整合潜正在药物的三维几何布局和原子布局,并建立它若何取靶卵白连系的图谱。随后,研究人员能够调整设想,使潜正在药物更具效力,或者算法能够识别全新的靶点进行摸索。此外,人工智能系统还可能考虑到药物取靶点彼此感化的复杂生物。某些潜正在药物可能会因取多种非靶卵白发生不良彼此感化而带来副感化,从而影响其使用前景。

  一些大型公共数据池无疑更难被人工智能操纵。例如,批量RNA测序(bulk RNA sequencing),其数据来历于夹杂的组织样本,因而反映的是多个细胞的基因表达平均程度。而现在,单细胞测序(single-cell sequencing)被认为更具劣势,由于它能够检测罕见细胞所发生的卵白质,并正在组织映照中供给更高的分辩率。

  一些研究人员认为,复杂的数据量和更智能的数据处置能够正在很大程度上降服人工智能正在新药研发中的挑和。“只需数据脚够多,人工智能就能学会若何进行泛化,”扎沃隆科夫暗示。

  Nature期刊发布《加强人工智能药物研发的四种方式》,切磋人工智能正在药物研发中的挑和和机缘。

  巴黎人工智能生物手艺公司Owkin的首席数据科学官艾瑞克·杜兰德(Eric Durand)说道:“人工智能面对的一个庞大挑和是数据的生成体例。”?。

  此外,Insilico还会公司正在发布临床试验成果后的股价波动。若是股价大幅下跌,那么无司若何表述,我们城市认为试验成果是负面的。

  Insilico Medicine通过整合美国数十亿美元研究赞帮所发生的数据,将其取学术论文、临床试验、专利以及基因和化学数据存储库相链接。“现代人工智能东西能够逃溯某项立异的来历,以至具体到最后的研究赞帮项目,”扎沃隆科夫注释道。

  制药公司控制着大量数据,包罗负面研究成果,并以尺度化体例收集这些数据,使其更合用于人工智能模子的阐发。然而,只要一小部门数据被公开。拉赫曼估量,即便是相对的制药公司,也仅公开其数据的15%–30%,而临床试验数据的公开比例可达到50%。

  4。为此,研究人员呼吁制药公司正在数据共享方面阐扬另一项劣势——资金支撑,以推进制药公司间的数据共享。

  帕多指出,若是不进一步勤奋生成同一且高质量的数据,那么继续研发更先辈的算法可能意义不大。他暗示:“一旦这些‘优良’数据可用,我们就能正在准确的标的目的上取得快速且显著的进展。”。

  这些数据的价值,制药公司本身当然深知。2018年,巴塞尔诺华制药公司(Novartis)的首席施行官瓦斯·纳拉西姆汉(Vas Narasimhan)曾提出,要将公司从头定位为“医药取数据科学公司”,并强调其正在新药研发中拥抱人工智能手艺的大志。因而,大大都制药公司对于取学术界或其他企业共享数据持极大的立场。

  制药公司同样遭到方向于分享反面成果的影响。“被颁发的老是成功案例,”拉赫曼说道。当公司选择不公开其负面研究成果时,呈现给算法的就会比现实愈加简单、光鲜。

  然而,并非所有人都对这一感应对劲。分歧公司采用分歧体例出产的数据,正在整应时往往会碰到熟悉的问题。此外,对数据进行匿名化处置可能会降低其消息的丰硕度。“想要正在不泄露化学布局及尝试方式的前提下整合数据集,这很是坚苦。”沃尔特斯注释道。

  弗雷泽将他目前的研究称为“avoid-ome”项目,由于它旨正在为人工智能东西供给需要的数据,以识别这些潜正在问题。该项目标方针并不是生成关于药物靶点的数据,而是研究那些科学家凡是但愿避免的卵白质。其焦点是成立一个尝试数据和布局数据的数据库,专注于取ADME相关的卵白质连系消息。自客岁10月获得资金支撑以来,弗雷泽的尝试室已起头针对ADME的代谢环节进行测试。

  一种药物正在体内的去向取决于其正在体内的接收、分布、代谢和分泌(ADME)。若是人体断根某种化合物的速渡过慢,可能会带来平安风险。但若是它被排出得太快,药效可能也会大打扣头。“你能够设想出一个能慎密连系方针卵白的,但若是该被敏捷排出体外,它就无法做为无效的药物,”该项目标支撑者沃尔特斯说道。药物还可能取体内的非方针卵白彼此感化,从而激发毒性反映,并减缓或削减药物达到预期方针部位的量。

  一个名为Polaris的项目——一个用于药物研发的基准测试平台——也旨正在帮帮清理和尺度化机械进修所需的数据集。该项目正在2024岁尾发布了一篇预印本论文,提出了相关指南,并正正在收罗反馈看法。

  2025年2月27日,Nature期刊发布《加强人工智能药物研发的四种方式》(Four ways to power-up AI for drug discovery),文章切磋了人工智能正在药物研发中的挑和和机缘。启元洞见编章次要内容,旨正在为读者领会加强人工智能药物研发的方式供给参考。

  美国州剑桥生物手艺公司Relay Therapeutics的计较化学家帕特·沃尔特斯(Pat Walters)说道:“必需小心看待这些数据。它们来自分歧尝试室,而这些尝试室的尝试体例并不不异,因而很难做到‘同类对比’(apples-to-apples comparisons)。”!

  药物研发极其坚苦,汉堡生物手艺公司Evotec的计较化学家大卫·帕多(David Pardoe)说道:“正在大约100年的现代医学成长过程中,我们仅为约7000种稀有疾病中的500种找到了医治方式。这一过程耗时过长,成本过高。”但理论上,人工智能无望处理这两个问题。

  此外,该项目并未改善学术界所依赖的公共数据库现状。学者们深知,光靠请求是不成能让他们等闲获得制药公司的数据。因而,一些研究人员呼吁制药公司正在数据共享方面阐扬另一项劣势——资金支撑。

  这些研究将有帮于开辟预测性人工智能模子,从而优化候选药物的药代动力学特征。“研究人员将需要合成更少的,同时能更全面地评估所有潜正在问题,从而更快地找到合适所有尺度、能够进入人体试验的药物。”弗雷泽说道。

  但拉赫曼认为,这种保举是不靠得住的。他说:“我的尝试室曾经堆集了大量数据,表白这并不成行。”然而,这些失败的数据并未颁发,导致人工智能无法识别这个错误,从而继续做犯错误的预测。

  目前,最具研究价值的数据库之一是英国生物样本库(UK Biobank),该项目系统性地收集了50万名英国人的基因、糊口体例、健康消息及生物样本。该项目已获得跨越5亿英镑(约6。32亿美元)的赞帮,但次要资金来历是和慈善机构。人工智能生物科技公司Insilico Medicine的创始人兼首席施行官阿列克谢·扎沃隆科夫(Alex Zhavoronkov)暗示,“大型制药公司该当赞帮像英国生物样本库如许的项目。”。

  这些ADME问题凡是正在药物研发的后期才出来,可能导致高贵的失败。“目前的过程就像打地鼠一样,”弗雷泽说道,“你设想新的来消弭一个问题,但另一个问题又冒出来了,然后你再环绕它进行优化。”。