摘要:
武器装备体系作战仿真研究隶属于复杂系统研究范畴,首次对基于Nash-Q的网络信息体系(network information system-of-systems,NISoS)对抗认知决策行为进行探索研究。Nash-Q算法与联合Qlearning算法具有类似的形式,其区别在于联合策略的计算,对于零和博弈体系作战模型,由于Nash-Q不需要其他Agent的历史信息即可通过Nash均衡的求解而获得混合策略,因此更易于实现也更加高效。建立了战役层次零和作战动态博弈模型,在不需要其他Agent的完全信息时,给出了Nash均衡的求解方法。此外,采用高斯径向基神经网络对Q表进行离散,使得算法具有更好的离散效果以及泛化能力。最后,通过NISoS作战仿真实验验证了算法的有效性以及相比基于Q-learning算法以及Rule-based决策算法具有更高的收益,并且在离线决策中表现优异。
闫雪飞, 李新明, 刘东, 王寿彪. 基于Nash-Q的网络信息体系对抗仿真技术[J]. 系统工程与电子技术, 2018, 40(1): 217-224.
YAN Xuefei, LI Xinming, LIU Dong, WANG Shoubiao. Confrontation simulation for network information system-of-systems based on Nash-Q[J]. Systems Engineering and Electronics, 2018, 40(1): 217-224.