随着OpenAI、微软、百度等大厂竞相发布ChatGPT大模型产品,AIGC的落地应用逐渐成为新的关注焦点。大厂以外,初创公司已经率先将探索的触角伸向了生命科学领域。日前,创业企业百图生科发布了其基于生命科学大模型xTrimo的AIGP(AI Generated Protein)平台


(资料图片仅供参考)

与依靠人力设计、动物模型筛选等方法进行的传统蛋白质生成模式相比,百图生科CEO刘维对《科创板日报》记者指出,AIGP在针对“难成药”靶点的蛋白设计上,有机会向传统的蛋白质设计模式发起挑战

“传统上,蛋白质筛选主要依靠动物实验,后者已形成了非常成熟的体系。如果用AIGP去替代它们的部分工作流程,意义相对有限;而对于难成药靶点,传统方式已经很难有所突破,AIGP有了更大的应用意义:它也许不能完全答对,但可以提出相关性预测,再通过多轮的迭代就能找到答案。”刘维称。

《科创板日报》记者从发布会现场获悉,该平台已构建了千亿级参数的预训练模型以及多组学免疫图谱,目前有40余个在研项目正经由AI技术在推进研发中,另已在内测中为某创新免疫调控药物提供了多个高性能弹头、新功能传感器

在算法端,更多的应用及反馈数据有助于大模型算法的迭代升级。百图生科也计划将AIGP平台的部分成熟功能对专业用户开源。刘维在现场预计称,该平台会在今年6月迭代至1.5版本,并将部分功能模块进一步向专业用户开放;年内,该平台将进一步迭代至2.0版本,并向更多合作伙伴推荐使用。

进一步资料显示,百图生科成立于2020年11月,由李彦宏牵头创立并出任董事长; 2021年7月,百图生科宣布完成上亿美元的A轮融资,融资由GGV资本领投,百度、君联资本、蓝驰创投、真知资本、襄禾资本跟投,公司创始人李彦宏继续追加投资。

记者获悉,目前百图生科正拟进行新一轮融资。

▌难以成药靶点成新突破点

难成药靶点指的是,那些因为其独特的生物学特性、药物设计上的挑战、临床研究上的难度等原因,而难以成药的靶点。它是当前生物医药领域的一个热点研究领域,也是科学家们想要挑战的圣杯。

近年来,利用人工智能技术等新工具和方法来进行难成药靶点新药的研发逐渐在圈内流行,不少AI企业以及一些Biotech们都试图通过在该类型靶点上进行突破而“出圈”。因此,百图生科的选择并不让人意外。

在发布会现场,刘维对该问题的态度也显得很坦然:“大模型对于难成药靶点有泛化能力的,可以为科学家们进行赋能,反过来,来自专家的经验也可以进一步帮助算法模型继续优化迭代,进而形成正向循环。”

而且,进一步来看,由于缺少有效的开发方法,科学家们就难成药靶点与AI企业进行跨界合作的意愿也会更强。这是因为,“对于难成药靶点,其蛋白本身就难以制备,科学家们或许已经穷尽了传统的研究方法,进展却非常有限,对于新方法的接受度也会更高。”刘维称,目前与百图生科进行合作的伙伴,大部分是围绕难成药靶点所进行的。

合作数据上,百图生科称,已有近20家合作伙伴和百图生科开展了AIGP联合研发合作,方向覆盖高性能弹头设计、新功能蛋白质设计、靶点挖掘和调控蛋白设计等领域,其中多个项目取得了阶段性的发现成果

除生物医药外,百图生科也计划将AIGP技术应用到环保、材料、消费等更多场景。

▌蛋白质设计开启新市场

针对难成药靶点的蛋白设计为什么能由AI来“代笔”呢?在现场,百图生科的CTO宋乐给出了一个生动的解释。

以ChatGPT类比来看,ChatGPT通过大量的语料预训练,其训练逻辑是26个字母-词语-句子-段落-文章,预训练后,再通过人的评分反馈以及强化学习算法,反复迭代,最终ChatGPT能够“自然流畅”地与人对话。

而蛋白质的自动生成,也存在着类似的逻辑链路。

“生命科学里中,最重要的语言是蛋白质,蛋白质是由20种氨基酸串成的一条链,前者类似于单词,后者则像句子一样。各个氨基酸链之间折叠成三维的蛋白质结构,再与其他蛋白质互相作用,这不就是联系上下文吗?进而又产生了复杂的蛋白质相互作用网络,形成细胞功能。”宋乐解释称,如果仔细研究人体,会发现各种细胞分子之间的作用关系非常有趣,“有点像词、句、段落的嵌套结构。”

据介绍,百图生科AIGP平台设置了3类功能模块,分别是Function to Protein Design(F2P,根据结构、功能、可开发性等功能指标设计/优化蛋白质)、Protein to Protein Design(P2P,给定抗原等目标蛋白,设计与之以特定方式结合的抗体等蛋白),以及Cell to Protein Design(C2P,给定细胞,发现调控细胞功能的靶点蛋白并设计相应的调控蛋白)。记者注意到,相较于其他同类型企业,与百度颇有渊源的百图生科或在大模型非常依赖的算力解决方案上更有优势。

▌大数据仍然关键

从数据上来看,百图生科现有的数据量达到了千亿级别。记者在现 场了解到,该数据中90%来自于公开和半公开的数据整理。

不同于日常语境下的聊天数据,AI企业要获取生命科学领域的数据,其壁垒较高,而且数据的整理也更加复杂、成本更大。

“我们做了世界上最大的生命科学的数据图谱。公开数据整理听起来很容易,但是过程很难。因为这些数据散落在不同的数据集,甚至不是结构化数据,是论文、专利,怎么把它们抽取出来?它们表面看似不相关但在更底层却是有连接的,怎么关联起来?我们有大量的专业人员,整理了几亿、几十亿的蛋白质实体,厘清了几百亿蛋白质的关系,这些都是给大模型非常重要的语料数据。”刘维表示。

宋乐则进一步补充称,要训练出千亿参数级别的大模型,需要近一千个GPU运行数月时间,才能够训练一版比较好的模型,成本较大。“从当前的角度来说,我们能够达到最好的模型是大概是千亿级的参数,也许在未来一年或者三年时间,我们会训练到万亿级别。”

在现场,刘维也坦言称,企业在NLP算法以及算力上也和百度有相应的合作。

▌未来或可实现自动化蛋白质工厂

基于此,刘维向《科创板日报》记者描绘了一座“蛋白质工厂”:

由科研人员输入对目标蛋白质的各种参数需求,算法在生成蛋白质后,该蛋白质可以被自动打印出来,这一系列工作可全部自动化完成。科研人员只拿着由算法自动化生产出来的蛋白质进一步科学验证即可。

这样一来,蛋白质设计、生产的整个流程将被极大简化:“花大约几十分钟、几个小时的时间来设计蛋白,用高通量的蛋白打印系统,几天时间能把蛋白制备出来。”刘维称,这一速度已经是业内领先的。

据悉,百图生科已经在苏州建立了高通量的蛋白打印中心,一年可实现几万个复杂蛋蛋白质的打印、制备、测定工作。“我们以后希望把这个能量再进一步扩展,从而支撑大量的研发项目。”刘维称。

如此一来,百图生科实现了自身业务从设计到生产再到验证的闭环。

关于商业模式,刘维表示,百图生科AIGP平台,最终目的不是面向商业客户收取服务费,而是寻找公测的合作伙伴,利用AIGP领先的蛋白质从头设计能力和合作伙伴在生命科学领域的其他能力,包括扩展到石油、环保等其他领域的专业能力,来共同建立前沿的药物研发项目,或者独特的生命科学/环保健康等等产品的研发项目,通过双方的合作,让这些研发项目更快取得成功,这样既可创造社会效益,也可获得经济效益回报。

推荐内容