科学研究

科学研究

视觉是人类感知和适应物理世界的重要方式。使计算机具备高级视觉感知与认知能力,是人工智能的主要研究问题之一。过去几十年间,计算机视觉研究取得了突破性进展,卷积神经网络、视觉Transformer等方法已在图像识别、目标检测、多模态理解等诸多任务上接近甚至超越人类专家水平。然而,深度神经网络驱动的计算机视觉模型在功耗、存储和响应时延等方面存在显著的效率瓶颈,难以广泛部署于机器人、移动设备或边缘终端等资源受限的场景。此外,大型视觉模型巨大的训练与推理开销也使算力瓶颈问题和环境可持续性问题变得尤为突出。

Fig.1 当前计算机视觉范式所面临的能效瓶颈

人类视觉系统为突破上述瓶颈提供了重要启示:在观察复杂环境时,人眼不会一次性处理全部视场内的信息,而是通过一系列注视动作主动地、选择性地采样关键区域,以小范围高分辨率的感知逐步拼接出对视觉输入中有用信息的认知。这种自适应感知机制能在庞杂的视觉输入中快速筛取要点,大幅降低冗余计算,使得人类高度复杂的视觉系统能够高效、快速运行。无论外界场景多么复杂,人类视觉系统的能耗主要取决于注视带宽与注视次数,而非全局像素量。早在2015年,深度学习三位主要奠基人LeCun, Bengio 和 Hinton教授便在其合著的《Nature》综述论文“Deep Learning”中指出,未来的AI视觉系统应具备类人的、任务驱动的主动观察能力。然而近十年以来,这一方向仍缺乏系统性研究。

Fig.2 人类视觉系统的主动自适应感知策略

2025年11月6日,清华大学自动化系宋士吉、黄高团队在《自然·机器智能》(Nature Machine Intelligence)上发表了论文Emulating human-like adaptive vision for efficient and flexible machine visual perception (模拟人类自适应视觉,实现高效灵活的机器视觉感知)。该研究提出了 AdaptiveNN 架构,通过借鉴人类“主动自适应视觉”机制,将视觉感知建模为由粗到精的最优序贯决策问题:逐步定位关键区域、累积多次注视信息,并在信息足够完成任务时主动终止感知过程。具体的,该研究通过结合表征学习与自奖励强化学习,建立了基于离散-连续混合优化问题的AdaptiveNN模型,并给出了高效的端到端求解方法。在涵盖9类视觉任务的实验中,AdaptiveNN 在保持精度的同时实现了最高28倍的推理效率提升,并且具有在线动态调整推理开销以适配算力约束的能力。此外,其基于注视路径的推理机制具有更好的人类可理解性,为研究者更好地理解视觉模型的行为提供了更多的线索。论文进一步验证了 AdaptiveNN 的感知行为在多项测试中与人类视觉系统相类似,为未来探索和理解人类视觉认知机制提供了新的视角和研究工具。

AdaptiveNN 主动感知架构简介

AdaptiveNN 将视觉感知建模为一个多步序贯决策过程,而非传统的“全图并行处理”。模型在一个视觉环境 (例如图像或视频帧)中,依次在若干感兴趣区域上进行“注视”,逐步积累信息形成内部视觉表征,并动态决定何时结束该过程。在每一步,Vision Agent 基于当前的内部视觉表征评估任务完成度,若信息不足,则通过策略网络选择下一次注视位置。每个选定的注视区域由表征提取网络提取深度特征,从而不断更新内部视觉表征用于后续决策。AdaptiveNN 的整体框架模拟了人类从全局到局部、从粗到细的视觉感知策略:模型先快速扫视建立低分辨率初始表征,再通过一系列精细注视捕获关键信息。当任务需求得到满足时,感知过程自适应地终止。借助这一机制,AdaptiveNN 能够在保证高精度的同时显著降低计算量,实现“看得清,也看得省”。它使神经网络具备了类人式的主动感知能力,突破了传统视觉模型的效率瓶颈。

AdaptiveNN 在设计上具有较强的兼容性和灵活性,适用于多种不同的深度神经网络基础架构(如卷积网络、Transformer等)和多种任务类型(如视觉识别、具身视觉感知、视觉-语言多模态联合建模等)。

Fig.x AdaptiveNN的网络架构和推理过程

理论创新:自激励强化学习驱动的主动感知行为学习

AdaptiveNN 的训练过程同时涉及连续变量(如从注视区域中提取特征)和离散变量(如决定下一次注视位置)的优化,传统反向传播算法难以直接处理这一混合优化问题。为此,研究团队在理论上提出了面向离散-连续混合优化问题的端到端求解方法,使 AdaptiveNN 能够高效地完成训练。具体而言,从期望优化目标出发,对整体损失函数进行分解,AdaptiveNN 的端到端优化过程可自然地分解为两项:第一项为表征学习目标(representation learning),对应于从注视区域中提取任务相关的特征;第二项为自激励强化学习目标(self-rewarding reinforcement learning),对应于优化注视位置的分布,驱使模型的主动注视行为实现最大化的任务收益。这一理论结果揭示了 AdaptiveNN 的内在学习规律:主动感知的优化本质上是表征学习与强化学习的统一

Fig.x 自激励强化学习驱动的端到端主动视觉感知行为学习

实验验证:类似人类视觉系统的高效视觉感知

研究团队在 9 类典型视觉任务上对 AdaptiveNN 进行了实测验证,AdaptiveNN 展现出了高效、灵活和透明的特点:

1)计算效率提升显著:相较于传统静态计算机视觉模型,AdaptiveNN 在使用相同主干网络的情况下,取得了至多一个数量级以上28 倍)的精度无损推理效率提升;

2)感知策略灵活性强:与传统模型相比,AdaptiveNN 具备按需动态感知的新能力,可在线动态调整其推理能耗以及感知策略,以适配不同算力约束与多样化的任务需求

3)可解释性的新维度:与传统模型相比,AdaptiveNN 在眼动行为的维度上展现出与理解人类视觉行为类似的可解释性新维度,其注视轨迹自动聚焦于判别性时空区域。当目标较小或远离摄像机时,模型会自适应地延长观察序列,主动调整注视步数以获得更精确的判断。

Fig.x ImageNet 大规模视觉识别任务上的定性和定量实验结果

研究团队进一步将 AdaptiveNN 应用于具身智能的基础模型(视觉-语言-行为模型,VLA)。结果表明,该框架在复杂操作场景中显著提升了具身基础模型的推理与感知效率,在保持任务成功率的同时将计算效率提升 4.4 - 5.9。这一成果为解决具身智能系统长期面临的效率瓶颈提供了新的思路与技术路径。

Fig.x ApdativeNN应用于VLA具身任务的实验结果

最后,研究工作发现 AdaptiveNN 在空间注视位置任务难度判断两个层面都展现出与人类视觉系统高度一致的自适应行为。在“视觉图灵测试”中,人类受试者几乎无法区分模型与真实人类的行为。因此,AdaptiveNN 不仅提供了一种通用的高效视觉模型,也对认知科学的研究具有启发意义,有望用于模拟和检验人类的注意力分配、感知学习以及复杂任务中的视觉决策机制,为认知科学提供新的视角和工具。

清华大学自动化系博士生王语霖、乐洋、乐阳为论文共同第一作者,宋士吉教授与黄高副教授为共同通讯作者,清华大学自动化系为该论文完成单位。该研究得到国家重点研发计划青年科学家项目、国家自然科学基金重大仪器研制项目、联合重点项目等的资助。

Wang, Y., Yue, Y., Yue, Y. et al. Emulating human-like adaptive vision for efficient and flexible machine visual perception. Nat Mach Intell (2025). https://doi.org/10.1038/s42256-025-01130-7

[arXiv]: https://arxiv.org/abs/2509.15333

[Code]: https://github.com/LeapLabTHU/AdaptiveNN