Journal of Systems Engineering and Electronics ›› 2011, Vol. 33 ›› Issue (5): 1063-.doi: 10.3969/j.issn.1001-506X.2011.05.21
徐安,于雷,寇英信,徐保伟,李战武
XU An, YU Lei, KOU Ying-xin, XU Bao-wei, LI Zhan-wu
摘要:
基于近似动态规划(approximate dynamic programming, ADP)对空战飞行器隐蔽接敌决策问题进行研究。基于作战飞行器的战术使用原则,提出了隐蔽接敌过程中的优势区域与暴露区域;构建了基于马尔科夫决策过程(Markov decision process, MDP)的隐蔽接敌策略的强化学习方法;通过态势得分函数对非连续的即时收益函数进行修正,给出了基于ADP方法的策略学习与策略提取方法。分别针对对手在有无信息源支持情况下的不同机动对策进行了仿真验证。仿真结果表明,将ADP方法应用于隐蔽接敌策略的学习是可行的, 在不同态势下可获得较为有效的接敌策略。