系统工程与电子技术 ›› 2020, Vol. 42 ›› Issue (9): 2091-2097.doi: 10.3969/j.issn.1001-506X.2020.09.27

• 通信与网络 • 上一篇    下一篇

基于深度强化学习的应急通信网络规划方法

殷昌盛(), 杨若鹏(), 朱巍(), 邹小飞()   

  1. 国防科技大学信息通信学院, 湖北 武汉 430010
  • 收稿日期:2019-12-31 出版日期:2020-08-26 发布日期:2020-08-26
  • 作者简介:殷昌盛(1989-),男,讲师,博士研究生,主要研究方向为机器学习与智能决策、无线通信网络。E-mail:yincs1989@163.com|杨若鹏(1973-),男,教授,博士,主要研究方向为机器学习与智能决策。E-mail:yrp_roc@126.com|朱巍(1980-),男,副教授,博士,主要研究方向为机器学习与智能决策。E-mail:zhuwei929@163.com|邹小飞(1982-),男,工程师,博士研究生,主要研究方向为机器学习与智能决策。E-mail:504200019@qq.com
  • 基金资助:
    国家社会科学基金(2019-SKJJ-C-083);国家武器装备科研项目(军装计[2017]1155号)

Emergency communication network planning method based on deep reinforcement learning

Changsheng YIN(), Ruopeng YANG(), Wei ZHU(), Xiaofei ZOU()   

  1. School of Information and Communication, National University of Defense Technology, Wuhan 430010, China
  • Received:2019-12-31 Online:2020-08-26 Published:2020-08-26

摘要:

针对应急通信网络规划传统算法对先验知识要求高、时效性不强等问题,提出一种基于深度强化学习的应急通信网络拓扑规划方法。研究了基于蒙特卡罗树搜索与自博弈相结合的网络规划样本数据生成方法,设计了基于残差网络的策略网和价值网,在此基础上使用Tensorflow库对模型进行构建和训练。仿真结果表明,提出的规划方法能够有效实现网络拓扑的智能规划,且具有较高的时效性和可行性。

关键词: 应急通信, 网络规划, 强化学习, 智能化

Abstract:

Focus on the problem of high demand on prior knowledge and weak timeliness of traditional algorithm for emergency communication network planning, a toplogy planning method for emergency communication network based on deep reinforcement learning is proposed. Developing a method of sample data generation using Monte Carlo tree search and self-game, the policy network and value network based on residual network is designed. On this basis, Tensorflow is used to build and train the model. Simulation results show that the proposed planning method can effctively realize the intelligent planning of network topology, and has high timeliness and feasibility.

Key words: emergency communication, network planning, reinforcement learning, intelligence

中图分类号: