<传利用蛋白质折叠模型进行新蛋白生成的研究突破>


近日,伯克利人工智能研究所的一项最新研究引起了业界关注。这项名为“利用潜在扩散模型实现蛋白质序列与三维结构的同步生成”的研究,首次将蛋白质折叠模型的潜在空间应用于新蛋白的设计中,为药物开发和生命科学研究带来了新的可能。

随着2024年诺贝尔化学奖授予“深度学习在蛋白质结构预测中的杰出贡献”——AlphaFold2,人工智能在生物学中的角色被广泛认可。未来,AI在蛋白质设计和药物研发中的应用潜力正逐步显现。

这项新研究的核心在于开发一种多模态生成模型,名为“PLAID”。该模型能够同时生成蛋白质的一维氨基酸序列和三维结构,打破了传统只专注于结构或序列的限制。它通过学习蛋白质折叠模型的潜在空间,从已有的蛋白质序列数据库中进行采样,生成具有新功能的新蛋白。

与以往模型不同,PLAID能同时处理离散的序列信息和连续的全原子结构坐标,解决多模态共同生成的问题。这对于实际应用尤为重要,比如药物设计中,研究人员可以根据功能需求和使用对象,定制蛋白质的结构和序列。

另外,过去很多生成模型只生产蛋白质的骨架原子(主链),未能加入侧链原子,完整生成全原子结构需要提前知道蛋白质序列,这在实际中增加了难度。PLAID无需事先知道序列,只通过训练在序列数据库上学习到的知识,即可在推断时还原完整的三维结构。这一技术利用了预训练蛋白质折叠模型的潜在信息,增强了生成的多样性和实用性。

在训练过程中,模型只需大量的蛋白质序列数据,这比结构数据库要丰富得多,也大大降低了成本。通过学习蛋白质的潜在空间,模型能够在生成新蛋白质时,保持序列的多样性,同时确保折叠结构的合理性。

研究团队还提出了“压缩潜在空间”技术,通过对蛋白质序列与结构的联合表征进行压缩,使得模型在高维潜在空间中更高效地学习和生成蛋白。这个方法不仅提高了计算效率,还确保生成蛋白的多样性和结构的合理性。

未来,研究人员计划将此方法拓展到更复杂的多模态生成任务,如蛋白质与核酸或配体的复合结构预测。随着AI预测能力的不断提升,相信未来蛋白质、多种生物大分子系统的联合设计将成为可能,为生命科学和药物研发带来革命性的变革。

总之,这项研究不仅为蛋白质设计提供了新的工具,也展示了人工智能在生命科学中的巨大潜力。期待未来,相关科研人员和企业能够合作,将这一技术应用于实际的药物开发和疾病治疗中,造福广大公众。

[原始链接]

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注