近日,《自然-综述》系列期刊Nature Reviews Methods Primers发表题为“Piecewise Linear Neural Networks and Deep Learning”(分片线性神经网络与深度学习)综述论文(https://doi.org/10.1038/s43586-022-00125-7),系统地介绍了分片线性神经网络表示模型(包括浅层及深度网络)、优化算法、理论分析以及应用。该综述由清华大学自动化系、比利时荷语鲁汶大学电子系、上海交通大学自动化系以及之江实验室的研究人员共同完成。清华大学自动化系李力副教授,及王书宁教授指导的博士毕业生陶清华(现任比利时荷语鲁汶大学博士后)、黄晓霖(现任上海交通大学副教授)为论文的通讯作者,其中陶清华博士为论文第一作者,其他共同作者包括王书宁教授、比利时荷语鲁汶大学Johan A.K. Suykens教授及王书宁教授指导的博士毕业生袭向明(现任之江实验室助理研究员)。清华大学自动化系王书宁教授团队近二十年来在分片线性神经网络方向开展了系统的研究,取得了一些重要成果,显著推进了该领域的发展。目前,团队成员遍布于国内外的研究机构,继续从事分片线性神经网络及其相关科研工作,共同促进相关理论的发展和成果转化。
Nature Reviews Methods Primers于2021年1月创刊,致力于加强跨学科的协作,出版介绍和总结先进方法或技术的综述,旨在为广泛的不同职业阶段的跨学科研究者提供评估和应用技术的信息。
图1 论文信息概况
连续分片线性函数是一类对紧集上的任意连续函数具有全局逼近能力的非线性函数,其本质是利用有限数量的线性函数对复杂的非线性系统进行精确建模,即在保持局部线性特性的同时,使整体建模表现出非线性特性。分片线性神经网络(PieceWise Linear Neural Networks,PWLNN)是利用连续分片线性函数对非线性系统建模的主要方法之一,通过合理配置PWLNN的网络结构及神经元中的激活函数(如ReLU等分片线性映射函数),可以使得该网络具有分片线性特性,从而展开建模及优化,其中神经网络的各种模型构建方法、参数优化算法及各类成熟的计算平台可以实现灵活利用。在过去的几十年里,PWLNN已经从浅层架构发展到深层架构,并在不同领域取得了广泛的应用成果,包括电路分析、动态系统识别、数学规划等。近年来,深度PWLNN在大规模数据处理方面取得的巨大成功尤为瞩目。
为了将PWLNN更好地应用于数据科学,学者们长期以来一直围绕两个基本问题展开研究,即表示模型及其参数学习算法,其中前者旨在建立具备分片线性特性和充分的逼近能力的数学模型,后者则研究适应大规模数据的表示模型参数准确而快速的学习算法,从而使PWLNN能够准确描述给定数据或待研究系统对象的特性1977年,著名电路系统专家蔡少棠(Leon O. Chua)等在电路系统分析中首次成功提出了紧凑的PWLNN表示法,即典范表示模型。1993年,著名统计和机器学习专家Leo Breiman开创了另一类基于“铰链”的模型表示,即链接超平面模型,其与当今深度神经网络中最流行的激活函数之一,即线性整流单元(Rectified Linear Units, ReLU),极为类似,随后王书宁教授将其推广至具有全局表示能力的广义链接超平面模型。 随着典范表示模型和链接超平面模型的提出,PWLNN相关研究也得到快速发展,其中大部分工作围绕浅层网络结构和参数学习方法而展开。2010年,Nair和Hinton提出的ReLU大幅度提高了深度学习在各种基于数据驱动的任务中的效果,使得具有深层网络结构的PWLNN得到更加广泛的关注。
图2 PrimeView预览---模型部分概况
如图2所示,浅层的PWLNN主要包括有分片特性的基函数组合模型及格模型。浅层结构PWLNN的学习主要是通过增量式逐步添加神经元和优化参数来确定网络结构及参数,其本质是逐渐学到一个更宽的网络以增加其灵活性。深层的PWLNN主要通过在一般形式的深度神经网络中引入简单的分片线性函数作为激活单元实现,相对于网络宽度的增加,网络深度的增加能更高效的实现更为灵活的分片线性子区域划分,即更好的模型灵活性。深度PWLNN通常预先确定好网络结构,其网络参数则在基于梯度反向传播策略和随机梯度下降算法的的学习框架下进行优化。与其他非线性模型不同,分片线性函数具有一个重要性质,即其对定义域划分和子区域局部线性表达的可解释性。复杂的子区域划分和模型表达式可能阻碍分片线性函数的可解释能力和带来难易预测的行为特征。浅层的PWLNN的建模及学习算法通常会考虑其子区域中的局部线性特征,并旨在实现足够稀疏的模型结构,虽然其效率有待提升,但均充分考虑和结合了模型特有的几何特征,并保留一定的可解释能力。相比之下,现有的深层PWLNN通常忽略了这种性质。尽管各类任务中的数值结果证明了深层PWLNN的优越性能,但目前其学习过程直接沿用了一般深度网络的对应算法,即随机梯度下降算法,忽略了对分片线性特性的考虑及应用,因此未来仍有很多亟待解决的问题和提升空间。
通过此综述对PWLNN方法论的系统性回顾,从浅层网络和深层网络两个维度对表示模型、学习算法、理论研究及实际应用等方面内容的梳理,得以展现了浅层架构的PWLNN向当今广泛使用的深层架构的PWLNN的发展历程,并全面剖析了二者之间的关联关系,同时对现存问题和未来研究方向进行了深入讨论。不同背景的读者可以很容易地了解到从PWLNN的开创性工作到当今深度学习中最先进的PWLNN的发展路线。同时,通过重新思考早期的经典工作,可将其与最新研究工作相互结合,以促进对深度学习中PWLNN的更深入研究。
综述文章阅读链接https://rdcu.be/cPIGw
综述文章下载链接https://www.nature.com/articles/s43586-022-00125-7
arXiv版本下载链接 https://arxiv.org/abs/2206.09149
编辑同期配发了PrimeView进行推介 https://www.nature.com/articles/s43586-022-00137-3