院系新闻

院系新闻

病理图像处理难度大。其图像分辨率高(百亿像素左右)、数据量大,处理耗时耗资源。细胞和组织形态复杂多变且有差异,准确识别分析难。图像质量还受样本制备、染色等因素影响,易有噪声、模糊等问题。此外,病理诊断需综合多因素,要求算法能整合分析信息,实现难度大。

清华大学自动化系生命基础模型实验室闾海荣副研究员、江瑞教授、张学工教授与中南大学湘雅医院胡忠良教授合作,提出了一种基于大区域兴趣和金字塔Transformer的精准病理诊断AI基础模型ROAM,用于胶质瘤的临床级诊断和分子标志物发现,并可拓展到其他类型肿瘤的病理诊断。文章发表于Nature Machine Intelligence《自然·机器智能》。

胶质瘤是最常见的原发性颅内肿瘤,诊断极具挑战性。ROAM能够从病理图像中有效提取丰富的多尺度信息,实现了对胶质瘤肿瘤检测、亚型分类、分级和分子特征预测等多种分类任务的准确诊断。在内部数据上,ROAM的诊断性能卓越,能够自动捕获与病理学家经验一致的关键形态特征,为胶质瘤提供准确、可靠和适应性强的临床级诊断。此外,ROAM还能推广到独立的外部数据,具有出色的泛化能力。通过可视化和解释诊断,ROAM能够帮助病理学家验证模型诊断基础的可靠性,并提取有价值的信息。同时,它还能促进辅助诊断,提高医疗水平。最重要的是,ROAM有助于发现分子和形态学生物标志物,为胶质瘤的诊断和治疗提供新的见解。

ROAM模型架构介绍

ROAM是一种弱监督计算病理学方法,该方法以多示例学习为基本框架,以大尺寸组织图像块为基本研究单元,并采用金字塔transformer来系统地学习每个组织图块的尺度内和尺度间的相关性特征,从而实现对全组织切片图像视觉表征的有效提取。如图1,ROAM首先对每张全切片图像进行组织分割并从中提取大尺寸的组织图像块(2048×2048)作为后续分析的基本单元。随后,ROAM利用多尺度示例特征学习模块组织图块的特征,分别使用尺度内自注意力模块(Intra-scale SA)和尺度间自注意力模块(inter-scale SA)学习组织图块中相同放大尺度下不同位置以及不同放大尺度下同一位置的局部区域之间的相关性特征,利用金字塔transformer架构逐步从高放大倍数到低放大倍数融合多尺度特征,得到组织图块的多尺度视觉表征。最后利用门控注意力机制学习每个组织图块(示例)的注意力权重并加权求和,得到整张切片的视觉表征。

图1:ROAM模型架构概览

ROAM实现了胶质瘤的精准诊断

研究人员在内部数据集和TCGA外部数据集上评估了ROAM的分类表现。ROAM优于包括CLAM、TransMIL、GTP、TEA-graph、H2MIL在内的五种已有方法,在内部数据集胶质瘤诊断相关的任务上均优于其他基线方法(图2a)。同时,ROAM也具有良好的泛化性,仅使用内部数据集进行训练并在外部TCGA数据集上测试,ROAM的总体表现仍然优于其他基线方法。此外,ROAM预测的可视化结果也表明该方法总结的诊断依据与临床诊断标准非常一致。

图2:胶质瘤诊断表现

ROAM显著推进了胶质瘤的临床辅助诊断

研究人员对ROAM进行了临床级的综合评估并研究了ROAM在胶质瘤辅助诊断中的表现。如图3,ROAM的临床胶质瘤诊断表现与高年资病理医生相当。此外,在ROAM提供的可视化依据的辅助作用下,3位中低年资的病理医生的诊断准确性有了显著的提升,这体现了ROAM的巨大临床应用价值。

图3:人机对抗表现

ROAM促进了胶质瘤分子形态标记物的发现

研究人员借助ROAM探究了与胶质瘤诊断相关的关键分子特征的形态学表现。研究人员关注到ROAM在预测异柠檬酸脱氢酶(IDH)突变的分子特征任务上表现优异,对ROAM在该任务中的预测结果进行了完整的可视化分析,并对ROAM关注的高注意力关键区域的组织形态特征进行分析和总结,发现在IDH突变的病理图像中普遍存在嗜酸性细胞增多、细胞质均匀和细胞核深染的现象。这一重要发现有利于医生在不借助分子检测的情况下作出初步的IDH状态的预测,对于胶质瘤临床诊断标准和优化和完善有显著的推进作用。

总结

ROAM方法通过大尺寸图像块和多尺度特征学习模块实现了全切片组织病理图像视觉表征的高效提取,为临床上胶质瘤的病理诊断提供了一种全面、通用、有效的解决方案,未来也可以推广到其他类型肿瘤的病理诊断。

该研究工作以《一种基于Transformer的弱监督计算病理方法及其在胶质瘤临床级诊断和分子标志物发现中的应用》(A transformer-based weakly supervised computational pathology method for clinical-grade diagnosis and molecular marker discovery of gliomas)为题发表于Nature Machine Intelligence《自然·机器智能》。清华大学闾海荣副研究员、张学工教授、中南大学湘雅医院胡忠良教授为通讯作者,清华大学江瑞教授、硕士生尹小旭,中国移动研究院杨鹏帅,湘雅医院程灵超为论文共同第一作者,胡隽、杨娇、王颖、傅晓丹、商利、李丽玲、蔺薇、周欢参与了本研究的数据采集及标注,陈福沨及福州数据技术研究院提供了在线软件平台的研发支持。

原文链接:https://www.nature.com/articles/s42256-024-00868-w

供稿:清华大学自动化系生命基础模型实验室