切换到宽版
  • 106阅读
  • 1回复

[智能应用]上海交大团队研发通用人工智能,解决传统蛋白质工程难题 [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
104010
金币
237
道行
19523
原创
29307
奖券
16839
斑龄
184
道券
10039
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 18404(小时)
注册时间: 2007-11-29
最后登录: 2024-06-07
— 本帖被 兵马大元帅 执行加亮操作(2024-05-16) —
利用通用人工智能设计蛋白质,已成为蛋白质工程领域的大势所趋

众所周知,蛋白质是生命系统的基础,在细胞、组织和器官中扮演着重要角色。除了它所拥有的生物学意义,蛋白质对于众多行业应用来说也至关重要,具有广泛的市场价值。

例如,在生物医学领域,可以作为药物靶点和治疗剂;在化学工程领域,能充当各种反应的关键催化剂。

不过,自然界的蛋白质,通常需要经过工程改造,提高它的活性、热稳定性、对极端 PH 环境和恶劣溶剂的耐受性等多种指标之后,才能在各类工业应用中获得应用。

而利用传统蛋白质设计需要经历长达数年的实验研究,不仅耗时耗力、成本较大,也愈发不能满足许多工业应用中重要蛋白质的改造要求。

近年来,深度学习技术的发展,在一定程度上打破了传统方法面临的瓶颈,利用 AI 来设计和改造蛋白质,逐渐成为该领域的大势所趋。



自主研发蛋白质设计通用人工智能,实现从序列到功能的精准蛋白预测

据介绍,在 AI 蛋白质设计领域,洪亮已有多年研究经验。他本科和硕士分别毕业于中国科学技术大学和香港中文大学的物理系,博士时期在美国阿克伦大学高分子科学系从事蛋白质生物物理方面的机制研究。

在美国橡树岭国家实验室完成博士后研究后,他来到上海交通大学,通过将实验和计算生物学方法进行结合的方式,继续对蛋白质的性能进行研究。

“其实这些研究都属于‘后解释’的范畴。换言之就是,对蛋白质的一些物理机制进行解释,比如它的运动形态和各种热力学参数如何影响其功能的发挥。”洪亮解释说。

2020 年,AlphaFold 的问世为洪亮开启 AI 蛋白质设计研究打造了一个契机。

“用户只需向 AlphaFold 输入蛋白质序列,就能得到准确的结构预测,这对于整个分子生物学领域来说非常震撼。

但 AlphaFold 只解决了从序列到结构的问题,没有解决结构到功能的问题,我们想做一套打通结构到功能的通用人工智能,彻底打破传统蛋白质工程方法的禁锢。”他说。

因此,他开始带领团队做 AI 蛋白质设计方面的研究,并在 2021 年开发了一套基于预训练的蛋白质设计的通用人工智能 AccelProtein™ ——与 AlphaFold 预测结构不同,AccelProtein™ 开创性地实现了从序列直达功能的精准蛋白质设计。

具体来说,该课题组通过预训练方法,让 AccelProtein™ 学习自然界已知的所有蛋白质序列和结构特征,并探索与理解自然界中蛋白质序列与功能的映射规律,从而开发出一套能够高效地设计出稳定性好、活性高、功能性强的 AI 蛋白质设计通用大模型。

那么,该模型如何实现精准的蛋白质设计?

据洪亮介绍,自然界已知的具有完整氨基酸序列的蛋白质有几亿条,这些蛋白质的氨基酸序列以存在即合理的方式排列着。

在掌握这些序列以后,该团队采用双重任务学习方法:一方面,帮助大模型在经过预训练学习以后,掌握满足蛋白质序列排布的语言规则,另一方面,通过所构建的亿量级蛋白质标签数据库,为蛋白质打上标签,进一步提升模型精度,从而提供精准、高效地蛋白质设计,大大降低试错成本。

和同类通用人工智能模型相比,AccelProtein™ 主要具备如下优势。

其一,架构优势。采用几何深度学习方法对模型架构进行简化,能在保证模型精度的同时降低模型参数,便于进行大规模预训练和推理。

其二,策略优势。利用小样本乃至零样本学习方法,提高大模型的工程泛化能力,帮助它在仅有少数湿实验数据的情况下实现蛋白质性能优化,极大地提高了蛋白质设计的效率——以往需要 2~5 年才能完成的项目,在 AccelProtein™ 的支持下只需要 2~6 个月即可完成。

其三,数据优势。通过与国内多家科研院所和企业的合作,获得了丰富全面的高精度蛋白质序列数据,尤其是一些高热、低温或强酸强碱环境下的数据。

此外,该课题组还开发了其他几种 AI 蛋白质通用大模型,并取得了可与 Google、Meta 等国际团队推出的同类成果相媲美的成绩。

根据美国哈佛大学医学院创立的蛋白质突变性质预测榜单 ProteinGym,洪亮团队提出的大模型夺得非检索方法排名第一的桂冠,并在总榜前十名的排名中占据一半席位。

其中,预测真核蛋白的大模型排名第一,预测原核蛋白的大模型排名第二,预测人类蛋白的大模型排名第三[2]。


(来源:ProteinGym 榜单)

如上所说,在整个蛋白质设计过程中,通用人工智能可在不需要或仅有少数湿实验数据的条件下,完成对蛋白质改造的赋能。这是否意味着,生物实验在其中已经没有发挥作用的空间?

对此,洪亮持否定看法。

他认为,首先,AI 在优化特定蛋白时,还需要湿实验来指导和调整方向。

其次,生物学家也能够通过湿实验提出更多典型的科学问题,便于大模型团队基于这些问题开发定制化的大模型,从而实现批量的蛋白质设计。



创办 AI 蛋白质设计公司,已完成十余项蛋白质产品交付

正是基于在 AI 蛋白质设计领域取得的成果,洪亮于 2021 年创办了上海天鹜科技有限公司。

后者已经在不到三年时间里,完成了十余款蛋白质设计项目的成果交付,并已获得数千万元 Pre-A 轮融资,投资机构包括耀途资本、金沙江资本等。

据了解,目前该公司的服务范围已拓展至创新药、体外诊断、合成生物学等多个行业领域。

当下及未来,该课题组也在尝试拓展与更多科研院所和企业之间的合作,希望能在蛋白质工程这一赛道,打出全国最好、世界最优的标志。

在洪亮看来,虽然中国的生物制药行业目前已然具备强大的实力,但在全球整个产品链条中的利润比仍然较低。

原因在于,缺乏良好的设计上游产品的能力,以至于在短时间内无法实现“破局”。

“毕竟国际企业所拥有的设计能力,是在过去一百年来经过大量的科研探索和实验数据积累,以及数不清的人才积淀的基础上才产生的。

但如今有了蛋白质通用人工智能,我们就可以不走国际企业的这条发展道路,直接利用 AI 来实现‘换道超车’。”洪亮表示。

可以想见,一旦这条横穿跑道的道路被走通,我国就能在合成生物学和生物医药领域,和国际企业展开一场全新的竞争。
1条评分金币+18
兵马大元帅 金币 +18 优秀文章,支持!n神马都是浮云 05-27
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
59106
金币
615448
道行
1945
原创
1738
奖券
1591
斑龄
22
道券
392
获奖
0
座驾
设备
摄影级
在线时间: 19403(小时)
注册时间: 2008-10-01
最后登录: 2024-06-08
只看该作者 沙发  发表于: 05-06
上海交通大学的一个研究团队近期在通用人工智能(Artificial General Intelligence, AGI)领域取得了一项重要进展,他们开发了一个名为“Protein-AGI”的人工智能系统,该系统能够在蛋白质工程领域提供强大的支持,解决传统蛋白质工程面临的诸多难题。

蛋白质工程是一门通过设计和改造天然蛋白质来创造具有特定功能的蛋白质分子的科学。这一领域对于药物开发、生物技术以及疾病治疗等方面具有极其重要的意义。然而,传统的蛋白质工程方法通常依赖于实验生物学家的经验和试错,这不仅耗时耗力,而且效率低下。

为了解决这一问题,上海交大团队开发了Protein-AGI系统,它能够通过学习大量的蛋白质结构和功能数据,预测并设计出具有特定功能的蛋白质分子。这项研究将人工智能技术与蛋白质科学相结合,为蛋白质工程提供了一种全新的、高效的设计方法。

Protein-AGI的核心是一个深度学习模型,它可以预测蛋白质的结构和功能,并在此基础上进行蛋白质设计。团队还开发了一系列算法,用于优化蛋白质的序列、结构和功能,从而实现对蛋白质的精准设计。

除了在蛋白质工程领域的应用外,这项研究还展示了人工智能在生物科学中的巨大潜力。随着人工智能技术的不断发展,未来我们可能会看到更多类似的应用,这将极大地推动生命科学研究的进程,并为人类的健康和福祉带来新的机遇。
1条评分金币+8
兵马大元帅 金币 +8 辛苦了,感谢您无私奉献的精神! 05-27
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个