2025年12月22日,清华大学自动化系李力教授团队联合中国科学院自动化研究所、格拉斯哥大学、剑桥大学、欧布达大学、南加州大学、澳门科技大学的研究团队,在《美国国家科学院院刊》(简称《PNAS》)发表论文SR-LLM: An Incremental Symbolic Regression Framework Driven by LLM-Based Retrieval-Augmented Generation。论文提出了一种融合大语言模型与深度强化学习的符号回归框架——SR-LLM,通过检索增强生成与语义推理技术,能够从复杂数据中自主生成简洁且可解释的数学模型。实验结果表明,SR-LLM在性能上显著优于现有方法,为机器自主科学发现开辟了新的路径。
神经网络因其「黑箱」本质,虽具备强大的函数逼近能力,却难以生成人类可理解的显式规律,以至于科学界曾质疑:AI能否像牛顿那样,从观测数据中自主发现如万有引力定律般简洁而普适的解析表达式?而符号回归能够从数据中自主发现科学定理和规律的解析表达式,是当前AI4Science研究的热点之一。
该文提出的SR-LLM能够自动从外部知识库中筛选和检索与当前任务相关的先验知识(领域专家模型、已验证过的优秀表达式),用LLM的语义理解能力,将这些知识转化为具有物理意义的符号组合,最后把这些符号组合作为"积木块",供强化学习去组装,获得可读、可验证、可推广的解析科学公式。因此,SR-LLM实现了人工智能领域符号主义(基于符号和逻辑推理的人工智能方法)与连接主义(强调从数据中学习规律,如利用神经网络模型实现智能)的结合。
在人类跟车行为建模这一尚无共识的开放问题中,SR-LLM不仅复现了人类专家提出的多种经典跟驰模型,还通过学习这些模型的核心知识并自由组合发挥,发掘了拟合性能更优、物理意义更清晰的新模型。这意味着SR-LLM能够真正“站在巨人的肩膀上”进行科学探索。也许下一次某个学科领域的重大科学突破,就诞生于这样一个”会思考、能表达、敢创新”的AI科学家之手。
《美国国家科学院院刊》是全球最具影响力的综合性科学期刊之一,由美国国家科学院于1914年创办,至今已有百余年历史。自动化系教授李力为论文的通讯作者之一,李力教授指导的硕士生郭泽林和博士生王思齐为论文的共同第一作者。
图1.论文提出的框架示意图,共分为采样、校准、评估、更新四大模块
论文链接:https://doi.org/10.1073/pnas.2516995122