系统工程与电子技术 ›› 2021, Vol. 43 ›› Issue (4): 991-1002.doi: 10.12305/j.issn.1001-506X.2021.04.16

• 系统工程 • 上一篇    下一篇

复杂任务下的多智能体协同进化算法

刘家义1,2(), 岳韶华1,2(), 王刚1,2(), 姚小强1,2(), 张杰1,2,*()   

  1. 1. 空军工程大学防空反导学院, 陕西 西安 710054
    2. 空军工程大学研究生院, 陕西 西安 710054
  • 收稿日期:2020-05-07 出版日期:2021-03-25 发布日期:2021-03-31
  • 通讯作者: 张杰 E-mail:sixandone1@163.com;zhouguoan@sina.cn;iamwg@163.com;yiceiul@163.com;afeu_zhangjie@163.com
  • 作者简介:刘家义 (1996-), 男, 硕士研究生, 主要研究方向为防空反导指挥控制系统、基于强化学习的智能决策。E-mail: sixandone1@163.com|岳韶华 (1968-), 女, 副教授, 硕士, 主要研究方向为指挥信息系统、智能指挥控制。E-mail: zhouguoan@sina.cn|王刚 (1975-), 男, 教授, 博士, 主要研究方向为机器学习、信息融合、指挥控制系统。E-mail: iamwg@163.com|姚小强 (1985-), 男, 副教授, 硕士, 主要研究方向为智能信息处理、模拟训练与仿真。E-mail: yiceiul@163.com|张杰 (1995-), 男, 硕士, 主要研究方向为基于深度学习的作战多智能体研究、战术级防空反导指挥控制系统。E-mail: afeu_zhangjie@163.com
  • 基金资助:
    国家自然科学基金青年科学基金(61703412);中国博士后科学基金(2016M602996);国家自然科学基金(61503407);国家自然科学基金(61806219);国家自然科学基金(61703426);国家自然科学基金(61876189)

Cooperative evolution algorithm of multi-agent system under complex tasks

Jiayi LIU1,2(), Shaohua YUE1,2(), Gang WANG1,2(), Xiaoqiang YAO1,2(), Jie ZHANG1,2,*()   

  1. 1. Air and Missile Defense College, Air Force Engineering University, Xi'an 710054, China
    2. Graduate School, Air Force Engineering University, Xi'an 710054, China
  • Received:2020-05-07 Online:2021-03-25 Published:2021-03-31
  • Contact: Jie ZHANG E-mail:sixandone1@163.com;zhouguoan@sina.cn;iamwg@163.com;yiceiul@163.com;afeu_zhangjie@163.com

摘要:

针对多智能体系统在处理复杂任务时存在的低效率、高冗积、多智能体系统内协同模型算法存在交互冲突、资源损耗过高等问题, 提出一种基于复杂任务的多智能体系统优化算法。在差分进化算法与局部优化算法的基础上对二者进行优化, 结合强化学习的训练框架, 构建训练网络, 通过对学习步长进行修订, 改变种群迭代优化准则, 使得种群在计算力充足的情况下可以实现全局收益最大化, 有效解决了指挥控制系统过程中的协同优化问题。

关键词: 多智能体系统, 协同算法, 指挥控制系统, 强化学习

Abstract:

In order to solve the problems of low efficiency, high redundancy, interaction conflict and high resource consumption of multi-agent system in dealing with complex tasks, this paper proposes an optimization algorithm of multi-agent system based on complex tasks. It is improved based on the differential evolution algorithm and the local optimization algorithm and combined with the training framework of reinforcement learning to construct the training network. By modifying the learning step and changing the iterative optimization criteria of the population, the population can maximize the global overall with the sufficient computing power, which effectively solves the collaborative optimization problem in the process of command and control system.

Key words: multi-agent system, cooperative algorithm, command and control system, reinforcement learning

中图分类号: