21世纪以来,随着测序、成像等技术的蓬勃发展,脑科学家能使用的数据越来越丰富,如脑成像数据、基因组数据等,这些数据对于认识大脑的运作方式、诊断和治疗神经系统疾病等都有非常重要的意义。作为一个前沿的交叉学科,脑数据科学行业内目前在数据整合、结果共享和数据分析技能训练等方面还没有一个统一或大家公认的策略。清华大学自动化系于国强教授、华盛顿大学医学院计算神经科学中心Edgar Y.Walker助理教授、普林斯顿大学普林斯顿神经科学研究所Manuel Schottdorf博士通过对大型国际脑科学项目近500名科研人员的调查,探究了脑科学领域中数据科学的实践与研究现状,分析了其成因,对脑数据科学领域的数据集成、共享和研究人员培训等三个方面提出了相应的政策和建议,该内容于北京时间2024年9月26日以《数据科学及其在大型神经科学合作中的未来》为题发表在杂志《Neuron》上。
A.脑数据科学实践与研究现状
现代脑科学研究常常依赖于庞大复杂的数据集。譬如,脑成像数据、基因组数据和大型电生理记录通常与复杂行为相结合,可以进一步理解大脑如何运作;在医学科学中,现代统计和人工智能模型可以通过识别大脑结构、活动或相关遗传标记中的模式,帮助诊断和治疗神经系统疾病。因此脑数据科学是现代脑科学不可或缺的一部分。于国强团队和合作者通过对大型国际脑科学项目近500名科研人员的匿名详细调查,发现了脑数据科学实践和研究中的一系列问题。数据科学家在大型脑科学项目的数据整合中扮演着重要的角色,但是他们对相似的数据分析独立地开发了类似的处理方法,这样很多工作都是冗余的。整体而言,现有的数据层面训练较为缺乏,超过半数人员未执行数据及代码标准。同时虽然一部分人会共享研究所用的数据,但是大多数研究者会选择只公布一小部分或不公布数据,并且没有统一的存储数据文件和代码审查管理的标准;实验研究人员对计算机编程方面的能力有所欠缺,但是大多数项目缺少相关基础培训。这些存在的问题提高了参与神经科学研究的门槛,降低了研究着对数据进行分析的效率,这对该领域的进步是不利的。
B.改进脑数据科学发展的措施与建议
针对调查中发现的问题,结合脑科学与数据科学融合发展的新趋势,于国强团队和合作者提出了促进脑数据科学发展的若干项有效措施和建议。数据整合方面,未来的神经科学家将不仅在自身专业领域具备深厚的知识储备,同时也应该在数据管理和分析方法领域具备基本素养。同时提出三条建议:一是新的资助计划可以吸引更多的数据科学专家进入神经科学领域,从而促进编程和数据分享的实践;二是可以提前邀请数据科学家参与到数据的收集环节;三是建立统一的一个或若干个脑数据科学研究中心,可以助力大型脑科学项目的整合和协调,同时该中心应当向整个国家的科研人员开放,提供服务。数据共享方面,可以通过以下政策来促进数据和代码的标准化:一是倡议使用已经存在的代码,避免重复开发,同时促进各方合作和交流;二是统一代码和数据的共同规范;三是建议科研资助机构或其他第三方组织对数据处理流程予以基本评估并颁发许可;四是倡导作者与使用者进行互动时及时发布相关代码和数据,减少误导结论的风险;五是建议在商业云生态系统之外,建立新的基础设施。研究人员培训方面,为了培养下一代科研人才,建议在资助机制中增加对计算机编程和数据管理培训的要求。通过开设相关课程和工具工作坊,加强对研究人员的技能培训,不仅能提升他们的数据分析能力,还能激励他们将数据科学的知识应用于神经科学研究中。同时,建立跨学科的培训项目,将数据科学家和神经科学家配对,通过实践中的知识共享,促进不同领域的合作与创新。
C.脑数据科学的未来
现代脑科学通常依赖于大规模和高复杂度的数据集,这些数据集从根本上加快了对神经系统的理解,并以前所未有的速度发展起来。数据科学与神经科学结合成为脑数据科学势在必行, 但是该领域目前仍存在缺乏代码和数据组织管理规范、数据科学基金不到位等发展瓶颈。该文对大型脑科学合作的调查揭示了脑数据科学前进中的挑战,并倡议建立共享社区,以及完善数据集和数据分析工具的基础设施、数据和代码使用规范等,这些结构性调整将以意想不到的方式改变神经科学发展的进程。该文呼吁大家行动起来,共同应对诸多挑战,为大型脑科学合作中数据科学的发展添砖加瓦。
———————————————————————————————————————————
清华大学自动化系长聘教授、清华-IDG/麦戈文脑科学研究院研究员于国强、美国普林斯顿神经科学研究所Manuel Schottdorf博士与美国华盛顿大学计算神经科学中心助理教授Edgar Y. Walker为本文共同通讯作者。
论文链接:https://www.cell.com/neuron/fulltext/S0896-6273(24)00641-X