系统工程与电子技术 ›› 2023, Vol. 45 ›› Issue (6): 1702-1711.doi: 10.12305/j.issn.1001-506X.2023.06.14

• 系统工程 • 上一篇    

基于深度强化学习算法的无人机智能规避决策

吴冯国1, 陶伟2, 李辉1,3,*, 张建伟1,3, 郑成辰3   

  1. 1. 四川大学视觉合成图形图像技术国防重点学科实验室, 四川 成都 610065
    2. 中国舰船研究设计中心, 湖北 武汉 430064
    3. 四川大学计算机学院, 四川 成都 610065
  • 收稿日期:2022-04-02 出版日期:2023-05-25 发布日期:2023-06-01
  • 通讯作者: 李辉
  • 作者简介:吴冯国 (1994—), 男, 硕士研究生, 主要研究方向为深度强化学习、空战自主博弈
    陶伟 (1978—), 男, 高级工程师, 博士, 主要研究方向为舰船电子信息系统
    李辉 (1970—), 男, 教授, 博士, 主要研究方向为智能计算、战场仿真、虚拟现实
    张建伟 (1972—), 男, 研究员, 博士研究生导师, 博士, 主要研究方向为计算机图形图像、虚拟现实、机器视觉、空中交通管理、智能交通管理
    郑成辰 (1998—), 男, 硕士研究生, 主要研究方向为深度强化学习

UAV intelligent avoidance decisions based on deep reinforcement learning algorithm

Fengguo WU1, Wei TAO2, Hui LI1,3,*, Jianwei ZHANG1,3, Chengchen ZHENG3   

  1. 1. National Key Laboratory of Fundamental Science on Synthetic Vision, Sichuan University, Chengdu 610065, China
    2. China Ship Development and Design Center, Wuhan 430064, China
    3. School of Computer Science, Sichuan University, Chengdu 610065, China
  • Received:2022-04-02 Online:2023-05-25 Published:2023-06-01
  • Contact: Hui LI

摘要:

为提升无人机在复杂空战场景中的存活率, 基于公开无人机空战博弈仿真平台, 使用强化学习方法生成机动策略, 以深度双Q网络(double deep Q-network, DDQN)和深度确定性策略梯度(deep deterministic policy gradient, DDPG)算法为基础, 提出单元状态序列(unit state sequence, USS), 并采用门控循环单元(gated recurrent unit, GRU)融合USS中的态势特征, 增加复杂空战场景下的状态特征识别能力和算法收敛能力。实验结果表明, 智能体在面对采用标准比例导引算法的导弹攻击时, 取得了98%的规避导弹存活率, 使无人机在多发导弹同时攻击的复杂场景中, 也能够取得88%的存活率, 对比传统的简单机动模式, 无人机的存活率大幅提高。

关键词: 深度强化学习, 无人机, 单元状态序列, 门控循环单元

Abstract:

In order to improve the survival rate of unmanned aerial vehicles (UAVs) in complex air combat scenarios, based on the open UAVs air intelligence game simulation platform, a reinforcement learning method is used to generate maneuver strategies. Based on the deep double Q network (DDQN) and deep deterministic policy gradient (DDPG) algorithms, an unit state sequence (USS) is proposed in this paper, and the gated recurrent unit (GRU) is used to fuse the situation features in USS, with the propose to increase the ability of state features recognition and algorithm convergence in complex air combat scenarios. The experimental results show that when faced with missile attacks using standard proportional guidance algorithm, the agent achieves a survival rate of 98% for missiles evading, and in complex scenarios where multiple missiles attack simultaneously, it can also achieve a survival rate of 88%. Compared with the traditional simple maneuvering modes, the survival rate of UAVs is significantly improved.

Key words: deep reinforcement learning (DRL), unmanned aerial vehicles (UAVs), unit state sequence (USS), gated recurrent unit (GRU)

中图分类号: