系统工程与电子技术 ›› 2025, Vol. 47 ›› Issue (3): 827-841.doi: 10.12305/j.issn.1001-506X.2025.03.15

• 系统工程 • 上一篇    

基于深度强化学习的带约束车辆路径分层优化研究

唐开强, 傅汇乔, 刘佳生, 邓归洲, 陈春林   

  1. 南京大学工程管理学院, 江苏 南京 210093
  • 收稿日期:2024-03-07 出版日期:2025-03-28 发布日期:2025-04-18
  • 通讯作者: 陈春林
  • 作者简介:唐开强 (1992—), 男, 助理研究员, 博士, 主要研究方向为组合优化、深度强化学习、智能无人系统
    傅汇乔 (1996—), 男, 博士研究生, 主要研究方向为组合优化、深度强化学习、智能无人系统
    刘佳生 (1994—), 男, 硕士, 主要研究方向为强化学习、人工智能
    邓归洲 (1998—), 男, 博士研究生, 主要研究方向为强化学习、智能无人系统
    陈春林 (1979—), 男, 教授, 博士, 博士研究生导师, 主要研究方向为强化学习、智能无人系统
  • 基金资助:
    国家自然科学基金(62073160)

Hierarchical optimization research of constrained vehicle routing based on deep reinforcement learning

Kaiqiang TANG, Huiqiao FU, Jiasheng LIU, Guizhou DENG, Chunlin CHEN   

  1. School of Engineering Management, Nanjing University, Nanjing 210093, China
  • Received:2024-03-07 Online:2025-03-28 Published:2025-04-18
  • Contact: Chunlin CHEN

摘要:

针对带容量约束的车辆路径问题(capacitated vehicle routing problem, CVRP), 提出一种利用层次结构对容量约束进行解耦的方法, 将复杂的CVRP拆分为约束规划和路径规划, 并分别进行深度强化学习(deep reinforcement learning, DRL)优化求解。首先, 上层基于注意力模型和采样机制对配送任务进行分配, 规划出满足容量约束的子回路集。其次, 下层采用预训练的无约束的注意力机制模型, 对子回路集进行路径规划。最后, 通过Reinforce算法反馈训练和迭代优化上层的网络参数。实验结果表明, 该方法对不同规模的CVRP和异构CVRP任务具有泛化性, 性能优于最先进的DRL方法; 并且与其他启发式方法相比, 在批量运算任务中, 求解速度提升10倍以上, 且保持具有竞争力的解。

关键词: 深度强化学习, 车辆路径问题, 注意力模型, 分层优化

Abstract:

For the capacitated vehicle routing problem (CVRP), a method is proposed to decouple the capacity constraints using a hierarchical structure, split the complex CVRP into constraint planning and path planning, and perform deep reinforcement learning (DRL) optimisation for solving the problem respectively. Firstly, the upper layer allocates the vehicle distribution tasks based on the attention model and sampling mechanism to plan the set of subpaths that satisfy the constraints. Secondly, the lower layer adopts the pre-trained unconstrained attention model to plan the paths for the set of subpaths. Finally, the network parameters of the upper layer are optimized through the feedback training and iteration of the Reinforce algorithm. Experimental results show that the method generalizes to CVRP and heterogeneous CVRP tasks of different sizes, outperforms the state-of-the-art DRL method. Moreover, compared with other heuristic methods, in batch computing tasks, the solution speed improved by more than 10 times, while maintaining competitive solutions.

Key words: deep reinforcement learning (DRL), vehicle routing problem (VRP), attention model, hiera-rchical optimization

中图分类号: