系统工程与电子技术 ›› 2020, Vol. 42 ›› Issue (7): 1567-1574.doi: 10.3969/j.issn.1001-506X.2020.07.19

• 制导、导航与控制 • 上一篇    下一篇

基于深度强化学习的UAV航路自主引导机动控制决策算法

张堃1,2(), 李珂1(), 时昊天1(), 张振冲1(), 刘泽坤1()   

  1. 1. 西北工业大学电子信息学院, 陕西 西安 710072
    2. 光电控制技术重点实验室, 河南 洛阳 471000
  • 收稿日期:2019-11-20 出版日期:2020-06-30 发布日期:2020-06-30
  • 作者简介:张堃(1982-),男,副教授,硕士研究生导师,博士,主要研究方向为智能空战、航空综合控制。E-mail:kunzhang@nwpu.edu.cn|李珂(1996-),男,博士研究生,主要研究方向为智能空战决策、航空电子系统仿真。E-mail:keli_nwpu@mail.nwpu.edu.cn|时昊天(1996-),男,硕士研究生,主要研究方向为战场态势评估、意图识别。E-mail:htshi@mail.nwpu.edu.cn|张振冲(1997-),男,硕士研究生,主要研究方向为智能空战决策。E-mail:953904331@qq.com|刘泽坤(1997-),男,硕士研究生,主要研究方向为协同空战。E-mail:1913138644@qq.com
  • 基金资助:
    中国国家留学基金委项目(201806295012);光电控制技术重点实验室基金(6142504190105);西北工业大学硕士研究生创意创新种子基金(ZZ2019021);创新人才基金(2017KJXX-15);航空科学基金(20155153034)

Autonomous guidance maneuver control and decision-making algorithm

Kun ZHANG1,2(), Ke LI1(), Haotian SHI1(), Zhenchong ZHANG1(), Zekun LIU1()   

  1. 1. School of Electronics and Information, Northwestern Polytechnical University, Xi'an 710072, China
    2. Science and Technology on Electro-Optical Control Laboratory, Luoyang 471000, China
  • Received:2019-11-20 Online:2020-06-30 Published:2020-06-30
  • Supported by:
    中国国家留学基金委项目(201806295012);光电控制技术重点实验室基金(6142504190105);西北工业大学硕士研究生创意创新种子基金(ZZ2019021);创新人才基金(2017KJXX-15);航空科学基金(20155153034)

摘要:

针对无人机(unmanned aerial vehicle, UAV)航路终端约束情况下航路自主引导机动控制决策问题,采用Markov决策过程模型建立UAV自主飞行机动模型,基于深度确定性策略梯度提出UAV航路自主引导机动控制决策算法,拟合UAV航路自主引导机动控制决策函数与状态动作值函数,生成最优决策网络,开展仿真验证。仿真结果表明,该算法实现了UAV在任意位置/姿态的初始条件下,向航路目标点的自主飞行,可有效提高UAV机动控制的自主性。

关键词: 自主引导, 机动控制决策, Markov决策过程, 深度确定性策略梯度法, 深度强化学习

Abstract:

To solve a specific problem involved in autonomous guidance maneuver control of the unmanned aerial vehicle (UAV) route under terminal position constraints, the autonomous flight model of the UAV is described based on Markov decision processes and the simulation environment for the training algorithm is constructed. Meanwhile, an autonomous guidance maneuver control algorithm of UAV is proposed based on deep deterministic policy gradient (DDPG) and the guidance maneuvering control function and the state-action value function are fitted by the neural network. Finally, the simulation results show that the UAV using the proposed algorithm can fly to a fixed position in horizontal plane from any position and attitude. It is proved that the proposed algorithm can effectively improve the autonomy of the UAV.

Key words: autonomous guidance, maneuver control and decision-making, Markov decision process, deep deterministic policy gradient (DDPG) method, deep reinforcement learning

中图分类号: