近日,清华大学自动化系、北京信息科学与技术国家研究中心谢震、张学工课题组,与原微软科学智能研究院、北京中关村学院秦涛团队在一项最新研究中,提出了一种针对RNA序列的语言模型,ERNIE-RNA (基于碱基配对约束的增强型 RNA 语义表征方法)。 该模型增强了RNA序列结构信息的高维语义特征提取,在RNA二级结构预测、RNA-蛋白质结合位点预测、剪切位点预测等下游任务中表现优异。相关研究成果以“ERNIE-RNA:融合结构增强表示的 RNA 语言模型” (ERNIE-RNA: an RNA language model with structure-enhanced representations) 为题,于11月18日发表于《自然·通讯》(Nature Communications)期刊。
RNA 是生物体内常见的重要大分子,通常通过碱基互补配对折叠成特定的空间结构以发挥功能。它不仅作为遗传信息的载体,在生物进化中发挥了关键作用,同时也是众多复杂生命过程中的核心调控元件。随着高通量测序技术的迅速发展,研究人员开始尝试从海量 RNA 序列中挖掘高维、稠密的语义特征,以揭示其结构与功能机制,并陆续提出了一系列 RNA 语言模型。然而,这些方法多为直接迁移自然语言处理领域的技术,缺乏对 RNA 序列内在生物学特征的深度建模。少数工作引入了共进化信息或预先预测的二级结构数据以辅助模型构建,但这类方法往往存在信息噪声引入、泛化能力不足等问题。因此,如何设计一种简洁高效、能够充分体现 RNA 内在结构特征的建模方式,仍然是人工智能科学领域亟待解决的核心挑战。
针对这一问题,研究团队提出了一种融合RNA结构先验信息的语言模型建构方法,即通过引入RNA碱基互补配对的结构先验信息,将其编码到模型的自注意力矩阵中,使注意力机制能够显式地体现序列的空间结构意义,从而在语义特征的学习过程中更好地保留 RNA 的内在结构约束。在该机制下,第一层特征处理单元的注意力偏置项由根据碱基配对规则在一维序列上计算得到的位置对矩阵替代,而从第二层起,各层的偏置项则由前一层的注意力图动态更新,实现结构信息在层间的迭代传递。这一设计使模型在训练早期即注入结构先验,并在层级迭代中不断优化注意力模式,最终形成精准且具备较强泛化能力的 RNA 结构表示。
图1|ERNIE-RNA结构设计示意图。a , 预训练阶段,ERNIE-RNA 由 12 层 Transformer blocks组成,并通过自监督学习在来自 RNAcentral 的 2,040 万条非编码 RNA 序列上进行预训练。 b , 在微调阶段,ERNIE-RNA 输出的注意力图和高维稠密向量编码了丰富的 RNA 结构与语义特征,在涵盖结构预测与功能注释的多种下游任务中均取得了当前最佳性能。
基于 ERNIE-RNA 提取的高维稠密序列表示及注意力图等语义特征,研究人员在 RNA 二级结构预测任务中取得了当前的最佳性能,与多种传统热力学方法及深度学习方法相比表现出更优的泛化能力。此外,在 RNA 三维接触预测、RNA-蛋白质结合位点预测等一系列与结构和功能相关的下游任务中,ERNIE-RNA 同样展现出优秀的性能,验证了其所提取语义特征的高度通用性。该研究不仅为 RNA 结构与功能解析提供了有效工具,也为未来 RNA 生物学研究开辟了新的技术路径。值得强调的是,该研究提出的结构增强型注意力机制验证了在语言模型架构中融合领域特定先验知识的有效性,这一策略对于提升生物分子序列分析的表现具有普适价值,未来有望推广至蛋白质、DNA 以及更复杂的分子体系的预训练语言模型中,从而增强人工智能在生命科学领域的应用。
清华大学自动化系谢震副教授、张学工教授,原微软智能科学研究院、北京中关村学院秦涛教授为论文的通讯作者。清华大学自动化系硕士研究生尹伟杰、博士研究生张昭煜、博士研究生张硕,原微软智能科学研究院、北京中关村学院何亮研究员为论文的共同第一作者。清华大学自动化系江瑞教授、硕士生张芮扬,北京合生基因科技有限公司、北京同仁医院刘淦博士,合生北因(青岛)有限公司王景仪参与了该项目研究。
论文链接:
https://www.nature.com/articles/s41467-025-64972-0