近日,清华大学李力老师为第一作者、由中科院自动化所王飞跃教授与西安交通大学郑南宁院士联合指导发表于《自动化学报》的“平行学习-机器学习的一个新型理论框架”一文成功入选第五届中国科协优秀科技论文。
“优秀科技论文遴选计划”是中国科协为鼓励科技工作者多出科研精品和原创性研究成果、促进更多优秀成果在我国科技期刊首发、进而助推世界一流科技期刊建设而设的大型年度评选活动。
研究介绍
随着计算能力的提高和计算理论的创新,机器学习在过去30年中取得了长足的发展,与此同时,机器学习也面临越来越多的新问题。该研究将平行系统的思想扩展并引入到机器学习领域建立一种新型理论框架以更好地解决数据取舍、行动选择等传统机器学习理论不能很好解决的问题。
平行学习大致可以分为预测学习(Predictive Learning)、描述学习(Descriptive learning)、指示学习(Prescriptive Learning)三个互相耦合关联的阶段。框架示意图如下:
图1平行学习框架示意图
在数据处理阶段,平行学习首先从原始数据中选取特定的“小数据”,结合先验知识,使用预测学习产生大量新的数据。这些人工数据和特定的原始小数据一起构成解决问题所需要学习的“大数据”集合,通过描述学习的方式产生一个人工系统。
在行动学习阶段,平行学习沿用强化学习的思路,使用状态迁移来刻画系统的动态变化,通过指示学习的方式在人工系统中对行动空间进行探索。通过学习提取,得到“小知识”——应用于某些具体场景或任务的精准知识,并将其应用于平行控制和平行决策。而平行控制和平行决策将引导系统进行特定的数据采集,获得新的原始数据,并再次进行新的平行学习,使系统在数据和行动之间构成一个闭环。
以平行学习在自动泊车中的应用为例。首先通过获取真实系统中的泊车数据,结合计算实验与预测学习生成人工数据,形成泊车的“大数据”。使用这些数据,通过描述学习的方式构造人工系统,该系统是真实车辆的平行系统,接受控制序列作为输入,输出车辆的移动轨迹。在这一人工系统中,我们可以使用指示学习的方式探索可能的泊车方案,学习到的策略会控制真实车辆进行泊车,进而获得更多的数据。完整流程如下图所示:
图2平行学习在自动泊车中的应用
平行的核心思想是从小数据产生大数据,再从大数据提炼小规则即精准知识。平行学习是这一思想在机器学习领域中的具体实现。目前,平行学习已在虚拟场景生成、无人驾驶车辆的智能控制与测试、社会计算和情报处理等领域得到了较好的应用。