深度强化学习在天基信息网络中的应用——现状与前景

图1 SIN中常用的DRL方法分类

Fig.1 Taxonomy of common DRL methods in SIN

2 研究现状

本节首先介绍了DRL方法应用于SIN的整体框架, 随后从各类资源的优化调度和网络组织两方面介绍了此领域的研究进展, 具体分为资源分配、跳波束、计算卸载与缓存、路由选择、卫星切换和接入选择。最后, 总结了现有研究工作, 并进一步归纳了SIN中DRL方法的设计思路。

2.1 整体框架

将DRL方法应用于解决SIN中的序列决策问题时, 通常将待解决的问题建模为马尔可夫决策过程(Markov decision process, MDP), 其重点包含6个元素: 智能体、环境、动作空间A、状态空间S、即时收益r和策略π, 如图 2所示。

图2

图2 基于DRL的SIN方法框架图

Fig.2 Framework of DRL-based SIN methods

DRL方法的学习过程可简要描述如下: 在时间t, 首先, 智能体根据状态空间S, 观察环境得到当前的状态特征s_t, 状态空间S应包含此问题相关的信息, 例如信道质量、卫星节点状态、用户设备位置与传输需求，以及所需服务质量(quality of service, QoS)等。随后，智能体从动作空间A中依据策略π将状态特征s_t映射为动作a_t, 得到资源分配、路由或切换问题的决策结果。最后, 环境状态s_t依据转移概率p转移至新状态s_t+1, 并将即时收益r_t反馈给智能体, 智能体利用经验{s_t, a_t, r_t, s_t+1}训练神经网络表征的策略π。

2.2 资源分配

资源受限是包括卫星网络在内的无线通信网络面临的关键挑战。优化频谱、功率等资源分配方案一直是SIN的研究热点。DRL应用于资源分配领域, 通常采用已分配资源、用户需求、信道质量等信息构成状态空间S, 将可能的资源分配方案作为动作空间A, 将吞吐量、能量利用率等优化目标作为即时收益r, 学习最优分配策略为π。

频谱资源是卫星网络中最宝贵的资源之一。按照复用体制, 频谱资源分配可分为时分复用中的时隙分配和频分复用中的信道分配。

时隙分配在已有研究中通常被建模为整数规划并转化为装包问题进行求解。文献[3]指出, 此类整数规划求解思路难以在复杂动态环境中调整决策并优化长期收益, 因此提出一种基于DQN的多目标时隙分配方法。以频谱效率、能量效率和用户业务满意度指数的加权作为即时收益r, 提高了系统的综合性能。但此方法仅能为用户分配单个时隙, 而难以进行多时隙聚合分配。

针对频分复用体制中的信道分配问题, 文献[4]采用已经分配的信道与其对应地理位置为状态s, 将各个信道作为动作空间A, 并通过求解Q网络得到最优策略π。文献[4]指出, 迭代的元启发式资源分配算法^[5]因计算复杂度高而难以保证实时性, 且忽略了在线信道分配问题的序列性, 因此提出了基于DQN的多波束地球静止轨道(geostationary orbit, GEO)卫星信道在线分配方法。在此基础上, 文献[6]提出了低轨道(low earth orbit, LEO)卫星物联网场景下的信道资源分配方法。首先, 提出了一种基于滑动块的感知方法, 以应对LEO星座的移动性; 其次, 针对LEO卫星能量受限问题, 提出了考虑能量利用率的信道分配方法, 采用与文献[4]类似的状态表示方法和网络结构, 利用能量利用率改进DQN的即时收益r, 将能耗降低了65%以上。但此方法并未考虑LEO卫星切换对用户信道分配方案的影响。

不同于文献[4, 6]主要研究用户的信道分配问题, 文献[7]关注各波束带宽分配问题, 考虑到多波束GEO卫星的各个波束传输需求不均衡且存在动态变化的问题, 提出了一种基于MARL的带宽分配算法。将每个波束视为一个智能体, 感知本波束的传输需求，并将其作为状态s, 并通过各智能体间的协作学习到各波束协同频谱分配策略π。仿真实验表明, 此方法能使波束数据传输能力更符合动态流量需求, 且时间复杂度更低。

星上功率资源受限于卫星太阳能电池板的容量, 因此如何高效利用有限功率是SIN中的关键问题。基于DRL的功率分配方法往往通过感知链路状态、干扰情况、用户流量需求, 为各波束和用户确定恰当的发送功率。文献[8]利用DDPG方法感知各个波束缓冲区内的数据量, 并将其作为状态s, 将发送功率作为动作a, 在满足用户需求的条件下有效降低了功耗。然而, 此方法的DRL动作空间与波束个数成正比, 因此为保障DRL收敛, 较适合于小规模波束的卫星场景。文献[9]比较了基于遗传算法、模拟退火、粒子群、粒子群-遗传混合方法和DRL的GEO卫星动态功率分配方法在时间收敛性、连续可操作性、可扩展性和鲁棒性等方面的性能。

为解决卫星的链路配置问题, 通常将用户流量需求和信道环境作为状态空间S, 将需配置的传输链路的通信参数, 包括调制方案、编码速率、带宽等, 作为动作空间A。传统方法通常基于经验规则或建模优化得到固定配置, 难以应对动态变化的复杂SIN环境。针对此问题, 文献[10]提出基于集成DQN的多目标链路资源配置认知模块, 将最大化吞吐量、最小化误码率和功耗、保持带宽稳定等多个优化目标对应的指标加权作为即时收益r, 优化链路资源参数配置策略π, 并进一步将此认知模块部署于实际GEO卫星进行测试, 实测结果表明其有效提高了GEO卫星系统在不同天气状态下的传输性能。

综上所述, 基于DRL的资源分配方法可感知动态信道环境、可用资源和用户流量需求, 并收集这些信息作为状态空间, 利用空分复用降低同频干扰, 有效提高了频谱和功率资源利用率。

2.3 跳波束技术

对时分复用体制的多波束卫星, 跳波束机制使其能够根据空间分布不均匀的流量需求, 在某一时间片点亮部分活跃波束, 提供数据传输服务, 如图 3所示。跳波束技术的关键是根据时变的流量动态调整, 点亮波束集合。采用传统方法求解跳波束问题多采用优化或元启发式方法, 存在以下两点不足: 一是其解空间随波束数量的增加急剧增加, 易陷入局部最优; 二是一旦流量分布发生变化, 需重新建模并迭代求解, 时效性差。

图3

图3 卫星跳波束效果图

Fig.3 Effect of satellite beam hopping

卫星运行过程中的跳波束决策是典型的动态环境中的序列决策问题, 适合采用DRL求解。通常采用流量需求、信道质量作为决策依据的状态s, 将各个波束是否点亮作为动作a。

文献[11]利用DQN方法进行波束跳变决策, 根据各波束缓冲区队列长度和链路质量决定每一波束是否点亮。文献[12]考虑到实时服务需要降低时延, 而非实时服务需要提高传输速率, 在文献[11]的基础上改进了即时收益r。并针对由动作空间大而导致的维度灾难问题, 提出基于双环学习的多行动决策方法。相比最大化最小速率和遗传算法, 基于DRL的跳波束策略使平均传输时延分别降低了42.12%和21.4%。

综上所述, 智能波束调度方法的优势在于可根据动态时变的业务需求和信道质量进行决策, 使波束点亮方案所提供的传输速率与流量需求更趋一致。其面临的主要问题在于随着波束数量的增加, 决策动作空间A成倍增加, 对此文献[12]提供了一种解决思路, 但此问题尚未解决。

2.4 计算卸载与缓存

随着计算任务在业务中占比的日益增加, 计算卸载已成为地面网络的研究热点。随着星上处理能力的日趋提高, 卫星不仅可以作为计算卸载的中继传输节点, 也可部署边缘计算服务器提供计算能力^[13]。基于DRL的计算卸载问题通常将任务的所有备选计算位置作为动作空间A, 以任务处理时延(包括通信时延和计算时延)为即时收益r, 用于优化决策策略π。通常组成状态空间A的信息包括: 任务的计算量、数据通信量、信道质量和各网络节点的通信与计算能力。

文献[14]将空天地一体化的物联网场景中的任务卸载问题建模为受限的MDP, 利用风险敏感的DQN，以当前无人机位置和任务队列作为状态s, 在能量受限条件下, 决定此计算任务的处理位置。动作空间A包括在无人机本地处理、卸载到基站或是卫星处理。利用同等能耗, 将平均时延降低了35%。针对卫星辅助车对车场景下的计算卸载、计算和通信资源分配问题, 文献[15]将其分解为两个子问题: 一是固定卸载决策下的计算与通信资源分配, 采用拉格朗日乘子法求解; 二是确定资源分配条件下的任务卸载, 建模为MDP后采用DRL决定卸载位置, 从而有效降低了平均时延。

缓存策略影响计算卸载效果, 因此常对两个问题进行联合优化, 文献[16-17]关注计算卸载与缓存的联合决策问题。文献[16]提出了一种基于DRL的通信、缓存和计算资源联合分配方法。仿真结果表明, 在不同的用户卫星夹角、内容大小、通信与缓存费用条件下, 所提方法均能达到更优性能。文献[17]采用DRL中的异步优势动作评论家(asynchronous advantage actor-critic, A3C)算法, 通过观察用户与各卫星相对位置、GEO数据中继卫星状态、通信链路质量、缓存状态和各边缘服务器的可用计算能力等信息作为状态s, 将接入的LEO卫星、任务卸载的服务器、是否通过GEO卫星中继以及当前请求内容是否被缓存这4个问题的联合决策作为动作a。此方案能有效提高单位资源的收益。

综上所述, 基于DRL的计算卸载方法能有效感知任务的计算量、数据通信量、信道质量和各节点的通信与计算能力, 通过对各任务进行优化调度, 降低平均处理时延。对环境信息的收集越充分, DRL方法的性能越好。但对信息的收集意味着通信、时延代价, 现有研究尚缺乏对此代价的讨论, 而仅关注算法性能的提升。此外, 现有的智能计算卸载研究大多采用集中式控制方式, 难以应用于大规模SIN。

2.5 路由选择

SIN的路由问题主要研究从发送端的接入卫星到接收端的接入卫星之间的传输路径选择, 其过程如图 4所示。高效的卫星路由算法应当对动态的网络拓扑、链路质量、卫星状态和流量分布具备感知和自适应调整能力。

图4

图4 卫星路由问题示意图

Fig.4 Demonstration of satellite routing

传统路由方法存在以下两点不足: 一方面, 随着星座规模的增加, 优化问题的解空间急剧增加, 且多个目标使优化问题更加复杂; 另一方面, 传统方法对时变流量的处理分为割裂的两步: 流量预测与后续的路由算法, 由于预测本身存在误差, 分段式框架易导致误差累积放大^[18]。

在基于DRL的路由方法中, 智能体通过观察包含链路质量的状态空间S, 将下一跳备选传输节点作为动作空间A, 可以学习到能自适应感知链路状态并动态调整的路由策略π。文献[20-21]主要利用DRL感知动态变化的链路带宽、丢包率、拥塞情况等信息和时变的不均匀业务流量。文献[19]提出了一种基于Double DQN的LEO卫星网络路由算法, 在每个卫星节点智能体感知两跳邻居范围内的链路状态, 并决定下一跳路由。更进一步, 文献[20]利用长短期记忆(long short-term memory, LSTM)网络对流量和链路质量的时序预测能力, 提出了一种基于DDPG的软件定义空天地一体化网络路由算法。仿真结果表明, 对比传统方法, 其能达到更低网络时延和更高的吞吐量。

文献[22-23]则将卫星节点的运行状况加入状态空间S, 具体包括能量状况和受干扰情况。针对巨型星座不考虑卫星电池状态的路由策略会集中消耗某些卫星能量因而导致其电池寿命过早耗尽的问题, 文献[21]提出了一种基于DRL的能耗均匀路由算法。智能体感知由各节点能量状况、当前剩余时延等信息构成的状态s, 并将下一跳路由作为动作a。仿真结果表明, 所提算法能将端到端时延限制在所需范围内, 并有效延长了卫星寿命。文献[22]则利用DRL感知各卫星节点的受干扰情况, 提出了一种大规模异构卫星网络中的智能抗干扰的路由算法。智能体通过学习历史信息构成的状态s, 感知受到干扰的卫星节点, 从而获取可选的路由路径集合。仿真结果表明, 相比传统抗干扰路由算法, 所提算法的路由代价更低, 收敛速度更快。

综上所述, 基于DRL的智能路由方法通常将每个数据包作为智能体, 利用动态变化的链路质量、流量、卫星节点状态等信息构成状态空间S, 利用历史数据学习规律, 并能根据环境的反馈进行策略调整, 从而优化端到端时延, 避开干扰和拥塞。然而现有方法未考虑冷启动问题, 即DRL在尚未收敛的探索阶段路由决策能力差, 导致在方法部署初期, 用户经常面临由路由失败造成的数据丢包。

2.6 卫星切换

非静止轨道卫星的动态性导致卫星与用户产生相对运动, 因此当卫星无法继续为用户服务时, 需在覆盖此用户的可选卫星集合中选择卫星并进行切换。图 5为切换问题示意图, 当LEO卫星1由于运动无法再为用户1服务, 用户1需决定切换至LEO卫星2或LEO卫星3。

图5

图5 卫星切换问题示意图

Fig.5 Demonstration of satellite handover

在已有传统方法中, 卫星切换主要依据以下3个指标: 最大服务时长^[23]、最大仰角和最多可用信道资源, 分别影响切换次数、服务质量和网络负载。传统切换方法通常采用综合加权进行决策, 各指标的权值来自专家对其重要性的判断。这种决策方法一方面缺乏客观性, 大规模异构SIN的复杂性令专家难以归纳最优权重; 另一方面, 这种决策方法对指标的偏好在多样动态的卫星业务场景中会发生变化, 专家归纳的固定规则难以在各时刻始终保持最优效果。

针对上述问题, 文献[24]提出了一种用户体验质量(quality of experience, QoE)驱动的智能切换机制。首先, 针对用户终端高速运动和业务分布不均衡问题, 将剩余服务时间、可用信道资源和端到端时延作为切换因子, 建立模型对其进行估计, 并进一步构成状态空间S。随后, 利用DRL感知切换因子, 进行切换决策, 并将用户体验指标作为即时收益r, 优化切换策略π。文献[25]针对集中式切换控制造成的信令开销问题, 提出了基于MARL的分布式切换方法。基于各可选卫星的剩余服务时间和负载情况构成的状态S, 采用分布式Q学习学习切换策略π, 并将是否发生切换和卫星是否超载作为即时收益r, 用于优化策略π。这种机制避免了乒乓切换, 大幅降低了平均切换次数和用户阻塞率。

综上所述, 基于DRL的智能切换方法通常将各个卫星的剩余服务时间、仰角和剩余资源作为环境信息, 构成状态空间S, 将所有可选卫星的位置记为动作空间A, 并根据需优化的目标设计即时收益r。作为动作空间有以下两方面优势, 一方面通过优化长期收益, 避免了乒乓切换, 降低了整个通信时长内的切换次数; 另一方面, 不依赖专家对指标的定义与加权权重, 而是直接通过环境反馈的实际结果优化切换策略。但已有的研究大多集中于单层LEO卫星网络中的同层横向切换, 而尚缺乏对空天地一体化多层网络中横向和纵向并存的切换问题的研究。

2.7 接入选择

在未来SIN中, 用户接入网包含多层卫星节点、无人机和地面基站等, 因此终端需在异构的网络接入节点间进行接入选择, 以优化传输效率, 其与切换问题的差异见表 1所示。

表1 接入选择与卫星切换问题的区别

Table 1 Difference between network selection and handover

问题	时机	目标
卫星切换	当前卫星无法继续服务	保持连续服务
接入选择	每一时刻	优化网络效能

随着网络规模的扩大, 网络结构的日趋复杂, 接入选择问题也愈加复杂。与切换方法类似, 传统接入选择方法往往基于某时刻的信号强度、链路质量等指标的组合加权, 而难以优化动态网络的长期性能。基于DRL的接入选择方法^[27]通过感知动态变化的环境信息进行序列决策。

针对空天地一体化网络接入基站选择问题, 文献[26]指出，传统基于信号强度的方法会导致负载不均衡和频繁切换, 因此提出一种基于DQN的智能接入选择方法, 将每个用户节点作为智能体, 感知各基站信号强度和用户数量, 并参考上一时刻连接基站和数据传输速率, 将上述信息构成状态S, 优化接入基站选择策略π, 有效提高了吞吐量并减少了网络切换次数。在无人机辅助中继的低轨卫星通信场景中, 由于网络拓扑动态变化、卫星数量繁多, 文献[27]利用DRL, 将无人机接入选择和飞行轨迹调整决策共同作为动作空间A, 有效提高了系统的端到端数据传输速率和频谱利用率。

基于DRL组网的接入选择算法通常采用卫星、无人机、地面基站等异构接入点的状态、业务需求和信道质量作为状态空间S, 将可选接入网络作为动作空间A, 数据传输效果作为即时收益r, 以优化网络接入策略π。其未来研究可改进以下问题: ①进一步研究大规模节点接入选择面临的高维决策空间问题; ②考虑用户运动性和用户业务需求。

2.8 小结

本节归纳了上述基于DRL的SIN方法。在SIN中利用DRL方法, 研究者需要进行以下判别：

(1) 判断此问题是否适合利用DRL方法求解;

(2) 设计DRL方法的3个核心元素: 行动空间A、状态空间S和即时收益r。

尽管DRL在无线通信领域的应用已有一定研究成果^[29], 但其在SIN领域中的应用尚处于起步阶段。针对现有工作中应用DRL的研究方向, 本节试图根据其实用性的高低进行列表排序, 如表 2所示。对实用性的讨论主要根据DRL方法在训练阶段和实际使用阶段的计算换取策略的优化效果, 因此需要考察在SIN实际问题中是否能够满足DRL对计算能力的需求。同时也需要考虑算法实时性能是否能满足应用需要, 综合考虑应用DRL方法是否能给此领域带来收益。

表2 SIN中应用DRL可行研究方向的实用性分析

Table 2 Feasibility analysis for SIN's research direction with DRL available

研究方向	计算能力	实时性要求	算法效果	综合收益	进展
资源分配	有限, 星上计算	较低, 可根据算法速度设定动态调整资源的时隙	较好, 可大幅提高资源利用率	较高, 资源紧缺是SIN面临的重要问题	NASA已进行星上验证^[30]
跳波束	有限, 星上计算	较低, 可根据算法速度设定跳波束时隙	基于MADRL的方法效果较好, DRL方法面临维度灾难	较高, 解决了流量空间分布不均匀对资源的浪费	理论研究
接入网络选择	终端分布式决策, 不需星上计算	较低, 可根据算法速度设定接入调整频率	较好, 但需要收集多层异构网络的信息	较高, 优化了空天地一体化网络中的接入决策	理论研究
拥塞控制^[31]	终端分布式决策, 不需星上计算	较低, 可根据算法速度设定窗口调整频率	较好, 问题简单直接, 且决策空间有限	较高, 但需要考虑网络设备更换的代价	理论研究
计算卸载	较高, 终端分布式决策, 不需星上计算	高, 但对卫星无要求, 对终端能力和算法时效性有要求	有待提高, 其与通信过程的资源分配问题耦合, 考虑因素多, 决策维度高, DRL训练难度大	目前有限, 但在计算任务日益增加、边缘能力日益增强的未来场景^[32]中较有前景	理论研究
卫星切换	终端分布式决策, 不需星上计算	较低, LEO卫星过顶时间为分钟级, DRL算法使用阶段的决策时间为毫秒级	有待提高, 现有方法没能与资源分配结合, 因此效果有待优化	现阶段收益有限, 对未来超大规模星座^[33]有意义	理论研究
路由选择	有限, 星上计算	高, 数据包转发对时效性要求高	在拥塞或者受干扰的网络中性能优于其他方法	较低, 路由决策无法牺牲时间代价	理论研究
接入协议优化^[34]	终端分布式决策, 不需星上计算	高, 数据包流量大	MARL效果较好, 而DRL在节点规模增大时, 收敛效果变差	较低, 每个发送数据包需要承受DRL决策的时间代价	理论研究
缓存	有限, 星上计算	高, 内容访问请求流量大	有待提高, 内容数量多, 缓存决策动作空间大	较低, 卫星缓存资源有限, 优化缓存策略取得的收益有限	理论研究

随后, 本节总结了SIN中基于DRL的解决方案的设计思路(见图 6)。图 6概括了SIN领域的DRL方法常见的状态空间S、即时收益r和动作空间A所考虑的因素。研究者需要首先分析SIN领域具体问题的相关影响因素、优化目标和决策任务, 随后分别对应设计DRL方法的状态空间S、即时收益r和动作空间A, 即可初步形成解决此问题的DRL思路。表 3总结了本文介绍的现有研究, 归纳概括了其应用场景、针对问题、优化目标与采用的DRL方法。

图6

图6 基于DRL的SIN方法设计示意图

Fig.6 Design demonstration of DRL-based SIN methods

表3 基于DRL的SIN现有研究总结

Table 3 A summary of existing research related to DRL in SIN

领域	文献	场景	针对问题	优化目标	DRL方法
资源分配	[3]	多波束GEO卫星网络	用户时隙分配	用户满意度、能量和频谱利用率	DQN
	[4]	多波束GEO卫星网络	用户信道分配	呼通率	DQN
	[6]	LEO卫星物联网	用户信道分配	能量利用率	DQN
	[7]	多波束GEO卫星网络	波束带宽分配	公平性、流量满足程度	MARL
	[8]	多波束GEO卫星网络	波束功率分配	功率消耗、流量满足程度	DDPG
	[10]	GEO卫星网络	配置链路参数	吞吐量、误码率、功耗、带宽稳定	DQN
跳波束	[11]	多波束GEO卫星	波束点亮方案	传输时延	DQN
跳波束	[12]	多波束GEO卫星	波束点亮方案	实时服务时延, 非实时服务吞吐量, 公平性	双环DQN
计算卸载与缓存	[14]	空天地一体化网络	任务卸载位置决策	平均处理时延	DQN
	[15]	GEO卫星辅助车联网	任务卸载、计算和通信资源联合分配	时延	优化、DQN
	[16]	天地一体化网络	通信、缓存和计算资源联合分配	通信、缓存和计算开销	DQN
	[17]	多层卫星网络	缓存策略、计算卸载、接入选择联合决策	缓存和计算开销	A3C
路由选择	[19]	LEO卫星星座	下一跳路由选择	跳数、丢包率、拥塞避免	Double DQN
	[20]	天地一体化网络	下一跳路由选择	时延、丢包率、吞吐量	DDPG
	[21]	LEO卫星星座	下一跳路由选择	时延、卫星电池能量寿命	DQN
	[22]	LEO卫星星座	抗干扰路径集合计算	集合中链路不受干扰	近似策略优化
卫星切换	[24]	LEO卫星星座	切换选择	QoE	DQN
卫星切换	[25]	LEO卫星星座	切换选择	切换次数	MARL
接入选择	[26]	空天地一体化网络	接入选择	吞吐量	DQN
接入选择	[27]	空天地一体化网络	接入选择与航迹调整	吞吐量	DQN

3 基于DRL的星地网络中继选择算法

对于星地网络中继节点选择的已有研究, 大多集中于信号强度、地理空间距离、信道质量、负载等因素, 将中继节点选择问题建模为针对传输速率、系统吞吐量、中断概率、能量利用率等指标的优化问题, 并利用优化、博弈论等方法进行求解。通过分析已有研究工作, 可以发现已有的星地网络中继选择算法面临的挑战主要包括以下几点^[34]:

(1) 大多数研究基于全局的信道状态信息已知并且在较长一段时间内稳定的假设。但在实际系统中, 星地之间的通信信道一方面受天气(降雨、降雪)、开放空间干扰等因素影响较大, 呈现动态变化的特点, 另一方面, 大规模节点定期汇报、反馈其到卫星和各个中继节点间的信道质量信息所需的通信开销较大。同时，由于卫星通信链路较长, 反馈的信道质量信息容易由于时延而过期。因此, 在全网络中定期进行信道质量信息的汇总、广播, 使每个设备都在明确全局实时、准确的信道增益的前提下进行中继节点的选择, 这一思路在星地中继网络场景中难以实现。

(2) 如何高效协调大规模终端的中继节点选择。由于卫星覆盖范围广, 其接入的设备具有海量性和异构性, 因此针对单个节点或者少量节点的中继选择算法难以协调成百上千的终端的中继选择控制。

针对问题(1), 本章提出一种基于DRL的算法——多智能体深度强化学习的分布式中继选择(distributed deep reinforcement learning, D-DRL)算法, 将终端视为智能体, 将上一时刻各个终端是否满足需求作为环境信息, 构成状态空间S, 将所有可接入的中继节点作为动作空间A, 将满足QoS需求的传输速率作为即时收益r, 优化分布式的中继选择策略π。

针对问题(2), D-DRL算法忽略了智能体决策之间的相互影响。但随着终端规模的增加, 此算法中其他智能体的动作会导致环境不稳定, 从而造成智能体收敛效率下降。因此, 本章进一步采用平均场理论的MADRL方法, 解决大规模终端中继选择问题。

最后, 本章通过仿真实验讨论了两种方法对网络性能的提升效果、时间效率，以及训练与部署开销。

3.1 系统模型与问题建立

在本章中, 一个卫星物联网系统包含一个提供卫星互联网服务的LEO卫星系统, N个用户终端节点组成的用户集合U={U₁, …, U_n, …, U_N}, 以及M个中继节点组成的中继集合R={R₁, …, R_m…, R_M}。本章针对下行信道, 且中继节点采用放大发送机制。

将卫星、中继节点、用户之间的通信链路分别表示为$\left\lceil L_{S, n}, L_{S, m}, L_{m, n}\right\rceil$, 同理, $\left\lceil d_{S, n}, d_{S, m}, d_{m, n}\right\rceil$和$\left\lceil g_{S, n}, g_{S, m}, g_{m, n}\right\rceil$分别表示链路的距离和信道增益。

令矩阵$\boldsymbol{W}=\left\lceil w_{m, n}\right\rceil$表示用户的中继选择矩阵。其中, w_{m, n}∈{0, 1}, 若w_{m, n}=1, 表示用户U_n选择接入中继节点R_m, 反之则表示用户U_n不接入中继节点R_m。一个用户只能接入一个中继节点, 而一个中继节点可以服务多个用户。

根据中继传输模式, 将卫星到地面终端的通信过程分为2个时隙。卫星将信号x^S(t)发送给地面中继节点R_m和用户节点U_n, 则地面节点处接收到的信号可以表示为

(1) $y_{S, L}(t)=\sqrt{P_s} g_{S, L}^t x_S(t)+n_L(t)$

式中：L∈{1, …, N, …, N+M}; P_s表示卫星发射功率; g_{S, L}^t为t时刻地面接收设备与卫星之间链路的信道增益; n_L(t)表示第L个地面接收设备处的加性高斯白噪声。中继节点R_m处和用户节点U_n处接收到的信号的信噪比可以表示为

(2) $\mathrm{SNR}_{S, L}^t=\frac{P_s\left|g_{S, L}^t\right|^2}{\sigma_L^2}$

在第2个时隙中, 中继节点R_m将第1个时隙接收到的卫星信号放大并发送给用户节点U_n, 放大因子为

(3) $\alpha=\sqrt{\frac{P_{R_m}}{P_s P L_{S, L}^2+\sigma_L^2}}$

那么终端U_n处接收到的来自中继节点R_m的信号可以表示为

(4) $\begin{gathered}y_{R_m, U_n}(t)=g_{m, n}^t \alpha y_{S, L}(t)+n_{U_n}= \\\alpha g_{m, n}^t\left(\sqrt{P_s} g_{S, m}^t x_S(t)+n_{R_m}(t)\right)+n_{U_n}\end{gathered}$

t时刻, 终端U_n处接收到的从中继节点R_m放大转发的卫星信号信噪比可以表示为

(5) $\begin{aligned}& \mathrm{SNR}_{S, m, n}^t=\frac{\alpha^2 P_S\left|g_{m, n}^t\right|^2\left|g_{S, m}^t\right|^2}{\alpha^2\left|g_{m, n}^t\right|^2 \sigma_{R_m^2}^2+\sigma_{U_n}^2}= \\& \frac{\mathrm{SNR}_{S, m}^t \mathrm{SNR}_{m, n}^t}{\mathrm{SNR}_{S, m}^t+\mathrm{SNR}_{m, n}^t+1} \\&\end{aligned}$

式中: SNR_S,m^t代表t时刻中继节点R_m处卫星信号的信噪比; SNR_S,m^t代表仅仅考虑从中继节点R_m发送信号给用户节点U_n时, U_n处的信噪比。

根据香农公式, 卫星信号经过放大转发机制的中继节点R_m放大转发传输给用户节点U_n可以实现的传输速率上限可表示为

(6) $R_{S, m, n}^t=\frac{1}{2} B_{S, m, n}^t \log _2\left(1+\mathrm{SNR}_{S, m, n}^t\right)$

式中：B_S,m,n^t为载波带宽。用户U_n的传输速率可以表示为

(7) $R_{U_n}^t=\sum\limits_{i=1}^M w_{m, n}^t R_{S, m, n}^t$

系统中的每一个用户都通过选择合适的中继节点使自己在满足最低QoS需求的前提下, 获得更大的传输速率。因此每个用户需要满足其最低的QoS需求, 即:

(8) $R_{U_n}^t=\sum\limits_{m=1}^M w_{m, n}^t R_{S, m, n}^t \geqslant D_{U_n}$

系统吞吐量为

(9) $\mathrm{SC}=\sum\limits_{m=1}^M \sum\limits_{n=1}^N w_{m, n}^t R_{S, m, n}^t$

本文所研究的中继节点选择问题可以建模为如下优化问题:

$\begin{aligned}& \max _W \sum\limits_{t=1}^T \sum\limits_{m=1}^M \sum\limits_{n=1}^N w_{m, n}^t R_{S, m, n}^t \\& \text { s. t. }\left\{\begin{array}{l}\sum\limits_{m=1}^M w_{m, n}^t \leqslant 1, \forall U_n \in U \\\sum\limits_{n=1}^N w_{m, n}^t P_{R_m} \leqslant P_{\max }, \forall R_m \in R \\\sum\limits_{m=1}^M w_{m, n}^t R R_{S, m, n}^t \geqslant D_{U_n}\end{array}\right.\end{aligned}$

其中, 第1项约束表示任何一个用户都只能接入一个中继节点; 第2项约束中P_max表示中继节点最高可用功率, 表示任何中继节点消耗的功率不能超过其最高功率限制; 第3项约束表示用户的传输速率需要达到其最低QoS要求。

3.2 MDP

在星地网络中继选择场景中, 下一时刻系统的状态只与当前系统状态和各个终端节点的中继选择决策有关, 与之前所有时刻的状态都没有关系, 符合MDP的定义。将每个终端视为一个智能体, 其关键因素, 包括动作空间A_i, 状态空间S_i和即时收益R_i, 定义如下。

3.2.1 动作空间

每个终端可以在系统中存在的M个中继节点中选择一个进行接入, 因此动作空间(即可选的动作集合)为

(10) $A_i=\{1, 2, \cdots, M\}$

t时刻的节点i的中继选择动作a_i^t∈A_i。

3.2.2 状态空间

每个卫星物联网用户的状态向量包含其观察到的与中继节点选择决策相关的环境信息。在本章中, 用户节点i在t时刻用来进行中继选择决策的环境信息可以表示为:

(11) $S_i^t=\left\{\mathbf{h a}_i^{t-1}, \mathbf{Q} \mathbf{s}^{t-1}\right\}$

式中: ha_i^t－1为t－1时刻所选择的中继节点; Qs^t－1为t－1时刻各个用户节点QoS需求满足情况。

(1) t－1时刻所选择的中继节点。

$\mathbf{h a}_i^{t-1}=\left[\mathrm{ha}_{i, 1}^{t-1}, \cdots, \mathrm{ha}_{i, m}^{t-1}, \cdots, \mathrm{ha}_{i, M}^{t-1}\right]$为上一时刻动作a_i^t－1的独热形式, 即:

(12) $\mathrm{ha}_{i, m}^{t-1}=\left\{\begin{array}{l}0, m \neq a_i^{t-1} \\1, m=a_i^{t-1}\end{array}\right.$

(2) t－1时刻各终端QoS需求满足情况

为了降低通信代价, 仅仅用一个01变量Qs_i表示上一时刻节点i传输速率是否满足QoS需求的情况:

(13) $Q s_i^t=\left\{\begin{array}{l}0, R_i^t <D_{U_n} \\1, R_i^t \geqslant D_{U_n}\end{array}\right.$

各个用户通过反向链路传输t－1时刻QoS需求是否被满足的信息Qs_i^t到卫星, 卫星随后将所有智能体的t－1时刻QoS满足情况的状态信息汇总, 得到$\mathbf{Q} \mathbf{s}^{t-1}=\left\lceil\mathrm{Q} \mathrm{s}_1^{t-1}\right.$$\left.\mathrm{Qs}_2^{t-1}, \cdots, \mathrm{Q} \mathrm{s}_N^{t-1}\right\rceil$, 并分发给各个用户, 从而以较低代价实现各个用户之间的信息交互。每个用户将全局用户节点t－1时刻的状态信息Qs^t－1作为自身中继选择的状态信息的一部分, 从而实现各个节点的协作。

3.2.3 即时收益

对第i个智能体, 其即时收益可以定义为

(14) $r_i^t=\left\{\begin{array}{l}R_{S-R_m-U_n}^t, R_i^t \geqslant D_{U_n} \\0, R_i^t <D_{U_n}\end{array}\right.$

D_{U_n}为节点满足QoS需求的最低数据传输速率, 如果QoS需求无法被满足, 即时收益为0。

3.3 基于简单MADRL机制的中继选择算法D-DRL

采用一种简单直接的MADRL方法, 即每个智能体采用独立的DQN算法^[35], 将其他智能体视为环境的一部分。智能体利用环境交互反馈得到的即时收益, 通过下式迭代更新表征Q值的神经网络参数。

(15) $L_i(\theta)=E_{s_i, a_i, r_i, s_i^{\prime}}\left[\left(y_i^{\mathrm{DQN}}-Q_i\left(s_i, a_i ; \theta\right)\right)^2\right]$

式中: $y_i^{\mathrm{DQN}}=r_i\left(s_i, a_i\right)+\gamma \max _{a'_i \in A_i} Q_i\left(s_i^{\prime}, a_i^{\prime}; \theta^{-}\right)$。

3.4 基于Mean Field的大规模中继选择算法

在基于独立学习的MADRL方法中, 每个智能体的环境不仅仅由其自身动作决定, 也受其他智能体动作影响, 因此环境的不稳定会造成学习效果的降低。

针对此问题, 本文提出一种基于平均场的多智能体深度强化学习(mean-field multi-agent deep reinforcement learning, MF-MADRL)算法, 其核心思想是将大规模智能体间的相互作用转化为某个智能体与邻居之间的平均作用, 从而仅使用双边交互将Q值函数进行分解, 即:

(16) $Q_i(s, a)=\frac{1}{N_i} \sum\limits_{k \in N(i)} Q_i\left(s, a_i, a_k\right)$

其中, N(i)为智能体i的邻居。分解后, 大幅降低了联合动作a的维度, 并且保持了物联网终端的两两交互。

由于在中继选择与功率控制的联合决策问题中, 各个用户是同构的, 且动作a为独热编码, 因此定义${\bar a}$_i为同群组中其他用户的平均动作:

(17) $\bar{a}_i=\frac{1}{N i} \sum\limits_{k \in N(i)} a_k$

根据文献[36], 各个智能体两两相互作用的Q值函数Q_i(s, a)可以进一步简化为

(18) $Q_i(s, a)=\frac{1}{Ni} \sum\limits_{ k \in N(i)} Q_i\left(s, a_i, a_k\right) \approx Q_i\left(s, a_i, \bar{a}_i\right)$

即对于每个智能体i, 其与其他每个智能体的相互作用可以近似化简为i与一个虚拟智能体的相互作用, 虚拟智能体代表了所有邻居智能体的平均作用。

参照DQN^[35]算法, 用神经网络表征的状态值函数Q_i(s, a_i, ${\bar a}$_i)的更新公式可以表示为

(19) $L_i(\theta)=E_{s_i, a_i, r_i, s_i^{\prime}}\left[\left(y_i-Q_{\phi_i}\left(s, \alpha_i, \bar{\alpha}_i\right)\right)^2\right]$

式中: y_i是目标平均场Q值函数的值, $y_i=r_i+\gamma v_{\phi^i}^{\mathrm{MF}}\left(s^{\prime}\right)$; $v_{\phi^i}^{\mathrm{MF}}\left(s^{\prime}\right)$为

(20) $V_{\phi_{-}^i}^{\mathrm{MF}}\left(s^{\prime}\right)=\sum\limits_{a_i} \pi_i^t\left(a_i \mid s, \bar{a}_i\right) E_{\bar{a}_i\left(a_{-i} \sim \pi_{-i, t}\right)}\left[Q_i^t\left(s^{\prime}, a_i, \bar{a}_i\right)\right]$

3.5 基于迁移学习的部署方案

由于DRL方法在训练阶段需要大量训练数据对策略进行迭代, 因此需要付出计算能力和训练时间作为代价。通常采用的方法是在虚拟环境中训练模型, 将训练好的模型部署到真实场景中。这种机制有助于避免真实场景中智能体由于探索造成的长时间低质量决策, 但也面临训练环境与真实环境数据分布不一致的问题。

为解决此问题, 本章提出了一种简洁的基于迁移学习的部署方案, 利用少量真实环境中的迭代训练, 将模型从虚拟环境的源域高效迁移到真实场景的目标域。其具体机制如算法1所示。

算法1 MF-MADRL算法的部署机制
1. 在服务器中基于历史数据构建仿真场景, 包括状态空间包含的信息;
2. 在虚拟场景中训练Q值网络参数θ, 至收敛;
3. For终端节点U₁, U₂, …, U_N:
复制参数θ, 初始化自身Q值网络;
将前2层神经元参数固定, 只调整后2层神经元参数, 至网络收敛得到参数θ′_n。

此部署方法基于微调机制, 一方面固定前2层神经元参数, 降低真实环境中收敛所需的训练步数, 一方面通过训练后2层神经元使智能体从仿真环境的源域有效迁移至真实环境的目标域, 以适应真实环境的数据分布。

3.6 仿真结果

仿真环境中, 两种能力不同的中继节点分别为4个和9个, 节点随机分布, 且发送功率分别为35 dbm和30 dbm。卫星轨道高度为780 km, 发射功率为50 dbm。地面终端不均匀地分布在仿真环境中, 其QoS需求随机分布在[80 kbps, 100 kbps]范围内。为进一步比较基于DRL的方法对网络性能的优化效果, 并且分析其时效性, 本节在节点数量为30和120的情况下分别利用遗传(genetic algorithm, GA)算法和最大接收功率(maximum received power, MRP)方法与本章所提出的两种基于MADRL的方法(D-DRL和MF-MADRL)进行对比。

首先在终端数量为120的场景下进行仿真, 分析所提的两种基于MADRL的方法的收敛性。如图 7所示, 基于最简单MADRL机制的D-DRL方法收敛效果较差, 在500回合后, 每个回合达到满足各个终端传输需求的迭代步数均为180次左右, 而MF-MADRL则可以在60回合后有效降低每回合所需要的训练次数。依据100回合后的模型, 每次遇到环境发生变化, 只需迭代训练30次左右, 就可以满足所有终端的传输需求。

图7

图7 两种DRL方法满足所有终端速率要求所需的训练步数

Fig.7 Number of iterations needed by two DRL methods for satisfying terminal's requirements

表 4对比了两种传统方法和两种基于MADRL的方法在不同节点规模情况下的吞吐量和运算效率。

表4 各方法性能和可行性对比

Table 4 Comparison of performance and feasibility of each method

方法	吞吐量/Mbps		运算时间/min
方法	N=30	N=120	N=30	N=120
GA	19.8	—	375.3	—
MRP	16.3	36.8	—	—
D-DRL	18.4	40.5	11.41	55.67
MF-MADRL	20.1	46.7	4.15	8.27

通过观察表 4可以发现, GA方法较适合终端数量较少的场景, 而在大规模终端场景中, 其难以求解。基于DRL的中继选择算法D-DRL和MF-MADRL能有效优化网络性能, 在大规模终端场景下, 相比MRP机制, 能将系统吞吐量分别提高10.05%和26.90%。而MF-MADRL算法对系统性能的提升明显优于D-DRL算法, 其原因主要在于考虑到了终端之间的相互作用, 因而协同效果更好。

进一步对方法的可用性进行分析, 主要包括时间效率和计算开销。表 4中的运算时间分析表明, 基于MADRL的两种方法D-DRL和MF-MADRL采用终端分布式决策, 因此其时间效率不因终端数量的增加而降低。两种方法的运算时间为算法从开始训练到收敛所需所有迭代步数的整体训练时间, 两者的整体训练时间都显著低于GA方法。在大规模场景下, 平均场机制将MADRL算法的训练所需时间降低了85.14%, 有效提高了算法的收敛效率。主要原因在于D-DRL方法没能考虑到智能体之间的交互, 而是将其他智能体视为环境的一部分, 因此其他智能体的决策会造成环境的不稳定, 影响DRL方法收敛。

为降低部署过程中的计算开销, 第3.5节提出了基于迁移学习的部署机制。本节对其效果进行了仿真评估, 如图 8所示, 各个智能体若从头开始训练, 需要至少400步迭代才能初步收敛, 但当环境变化时, 采用所提部署机制, 仅需要200步训练就能实现在新环境中的收敛, 从而将部署到新环境所需的计算资源和时间开销降低至50%。

图8

图8 迁移机制MF-MADRL算法收敛效果的提升

Fig.8 Improvement of convergence efficiency by transfer mechanism MF-MADRL algorithm

4 应用局限性与面临的挑战

尽管DRL作为一种智能方法在SIN中展现了广阔的应用前景, 但其特点决定其不可能适用于所有SIN领域内的问题。本节主要讨论DRL在SIN中的应用局限性与面临的挑战。

从方法本身的特点出发, DRL方法只能解决MDP问题, 即有马尔可夫性的序列决策问题, 可以通过图 7判断SIN中的其他领域是否可以尝试DRL方法, 并通过表 2分析使用DRL方法的代价, 以及是否可以在实际系统中带来足够的收益。

如图 9所示, 首先非决策类问题无法用DRL方法优化, 例如信道估计^[37]、性能分析^[38]、异常数据流检测^[39]和天线设计^[40]问题。其次, 不需要多次决策的问题无法建模为MDP, 无法利用DRL进行序列决策, 例如卫星地球站选址、卫星天线设计等问题，这类问题只能决策一次。且DRL方法的优势在于对序列决策问题能有效优化长期收益, 因而不适合只进行一次决策的问题。再次, 对于没有明确指标反馈以判断策略优劣的问题, 例如网络运行状态评估问题, DRL无法解决。最后, 需要对环境是否变化进行判断, 对于静态问题, DRL方法难以表现出超过优化等方法的优势。

图9

图9 DRL步骤是否可在SIN中应用的判断流程

Fig.9 Flowchart to decide whether DRL procedure can be applied in SIN research fields

除上述DRL方法根本无法应用的领域, DRL方法还面临计算资源、数据一致性和维度灾难等挑战, 本章将其进行整理归纳。

4.1 星上计算与能量资源有限

虽然DRL方法在一定程度上对SIN领域的相关决策问题进行了优化, 但其代价是训练和使用深度神经网络过程中的计算开销, 与随之带来的能量开销。

与地面基站不同, 受太空辐射和电池容量的制约, 星上计算能力和能量资源宝贵，这制约了DRL方法在星上的广泛部署使用。

4.2 DRL方法在应用于高维动作空间时收敛不稳定

高维动作空间的DRL方法收敛不稳定问题给其在SIN领域的应用带来了挑战。SIN问题中往往存在相互耦合的多个需要决策的问题, 例如多维资源的联合分配、任务卸载与网络接入选择的联合决策等, 其决策空间往往比人工智能领域的通用强化学习所需处理的更大。基于DRL的SIN方法现有研究直接将通用DRL方法引入而并未针对此高维动作空间问题进行改进, 导致方法难以稳定收敛。

4.3 仿真数据与真实数据的差异

现有方法通常在仿真环境中对DRL方法进行训练, 通过仿真环境产生的数据训练神经网络。相比真实太空环境, 仿真环境中模拟数据的生成通常基于简化模型。作为一种数据驱动的方法, DRL方法主要依靠对环境状态的观察进行决策。因此, 真实环境与仿真环境中数据分布的差异往往会导致在仿真环境中训练收敛的DRL方法在实际部署中出现效果退化。仿真环境与实际环境之间的差异是DRL在SIN中进一步应用所面临的挑战。

4.4 需要基于经验设计DRL机制

虽然DRL方法作为一种数据驱动的方法, 不需要基于专家经验对环境进行精确建模, 但DRL方法的状态特征、即时收益、神经网络结构和训练参数往往需要人工选择设计, 且不同机制直接影响DRL方法对网络状态的感知效果和方法收敛能力, 进而影响DRL方法的优化效果。因此, 对状态特征的选取、对即时收益和神经网络结构的设计和对训练参数的选择还需较有经验的研究人员完成。在大规模SIN中, 节点数量的增加使上述工作量急剧增加, 给DRL方法的大范围应用带来挑战。

4.5 复杂优化目标和约束需要精细处理

SIN往往面临多个互相冲突的复杂优化目标或约束, 例如时延、吞吐量、可靠性、功率利用率、频谱利用率和业务QoS需求等。现有基于DRL的SIN方法往往采用直接加权方法处理多个优化目标, 采用对即时收益的惩罚处理约束, 过于简单直接, 影响了DRL方法的优化效果。复杂的优化目标和约束是SIN中问题的核心难点, 也是进一步提高DRL方法效果面临的挑战。

4.6 状态信息数据缺失、过期

SIN长时延和动态连接的特点给DRL方法的状态数据收集带来挑战。与地面通信系统相比, 天基网络中频繁的切换和动态的拓扑导致智能体通过回传链路、额外通信等方式得到的环境信息或反馈信息, 可能存在丢包、由超时导致的信息丢失现象; 同时链路时延较长导致收集到的信息也面临过期问题。DRL方法依赖收集到的数据感知环境状态, 因此缺失、过期和不准确的状态信息数据会使DRL方法难以有效决策。

4.7 集中式与分布式控制

在未来大规模异构系统中, DRL方法的控制机制选择是一大挑战。集中式的DRL方法能有效收敛, 不易陷入局部最优, 且更能保证资源分配和路由等策略在整个系统中的优化效果。但在大规模异构系统中, 集中式控制需付出通信和时延代价, 且可拓展性差。与之相比, 分布式DRL算法的优势在于可以使边缘设备具备本地智能决策能力, 时效性更好, 且不增加核心网通信负担; 节点新增或节点离开系统并不需要更新算法, 可拓展性强。其缺点在于智能体仅能观察到部分环境信息, 因而容易陷入次优解, 且收敛过程不够稳定。因此, DRL方法在未来大规模SIN中的应用面临在集中式和分布式控制之间进行选择或找到平衡的挑战。

5 DRL领域前沿研究进展

不同于凸优化、博弈论等较为成熟的方法, DRL类方法属于人工智能的新兴研究领域, 其在经典方法的基础上还在不断发展完善。本章简要介绍了DRL方法的前沿进展^[41-42], 有助于研究者有效利用其解决SIN中面临的挑战。

由于较多中、英文综述已介绍了DRL方法和其近期进展, 本章将重点集中于前沿DRL方法在SIN中的应用思路。

5.1 逆强化学习与模仿学习

现有的经典DRL方法往往采用人工设定的即时收益。然而, 一旦奖励功能设计不当, 就会对DRL的效果产生巨大影响。逆强化学习^[43]从观察到的专家示例中学习适当的奖励函数。此方法适用于存在可以模仿的历史决策记录的应用问题。

在SIN中, 利用模仿学习是实现领域历史记录利用的可行途径。在SIN领域中, 存在珍贵有效的领域知识, 例如经过时间检验效果较好的决策轨迹。仅仅采用数据驱动的DRL方法无法利用这部分领域知识, 而是花费大量计算资源和时间从大规模样本中学习策略。借助模仿学习，可以利用历史决策记录指导智能体的学习。

此外, 现有经典的DRL方法难以解决网络运维管理中的大部分问题，例如故障判断与解决, 原因不仅在于其中蕴含大量运维领域的专家知识, 也在于其即时收益很难由人工设定。采用模仿学习来应对此难题是一种值得尝试的思路。

5.2 迁移学习

学习效率低是强化学习面临的一大难题, 往往需要数万个训练样本才能有效收敛。针对这一问题, 迁移强化学习^[44]提出根据先前的任务获取有用的知识, 来解决新的任务, 从而使智能体在一个新的目标域环境中, 仅利用源域的学习成果, 使用少量可用数据快速学习到最优策略。

迁移强化学习能降低智能体面对新环境的训练效率。将其应用于SIN中, 有助于解决仿真环境和真实环境之间数据分布差异的问题, 在大规模节点的分布式决策机制中, 可以在仿真环境中训练一个基础神经网络, 将基础神经网络分发给各个节点(卫星或者终端)后, 利用迁移学习使基础神经网络高效适应需部署的本地环境。

5.3 元强化学习

元强化学习^[45]是迁移强化学习的一类, 其目标在于通过学习如何高效学习策略这一元知识, 而在面对新任务或新环境时, 具有较强泛化能力, 能利用少量样本快速学习。

与迁移强化学习类似, 元强化能有效解决DRL方法在SIN中应用面临的仿真环境与真实环境的差异问题。其更进一步的优势在于, 若有多个任务都采用DRL方法进行决策, 例如终端需要进行接入选择、任务卸载、信道选择和发送功率控制, 可以通过元强化学习抽取这些相似任务背后的共同模式, 即归纳偏置终端面临的类似任务, 例如LEO卫星在进行切换决策时, 可以重用这一归纳偏置, 而不需从头学习。

5.4 分层强化学习

分层强化学习^[46]的核心思路是将复杂问题抽象为不同层级, 从而将复杂问题分解为子问题，分别进行解决, 适合解决大规模复杂问题。高级别智能体主要关注高层目标是否达成, 而低级别智能体则更关注精细的决策问题。

此方法已经被应用于无线通信领域, 文献[47]利用分层强化学习将中继选择和功率分配分解为两个分层优化目标, 并在不同的层次上进行训练, 避免了由联合决策造成的高维动作空间导致的DRL方法难以收敛的问题。

在SIN中, 也面临相互耦合的决策变量导致的高维动作空间问题。例如LEO卫星在切换时同时面临切换卫星选择与信道选择问题, 现有方法往往将其视为两个独立问题分布求解, 但割裂两个问题是次优解决方案, 其实质是分层决策问题, 可以采用此思路将联合决策分解为多步, 通过分层强化学习应对各个层次决策的收益稀疏问题。

5.5 MARL

对比DRL方法, MARL由于考虑了智能体之间的合作或竞争作用, 对于分布式控制系统具有重要意义。目前此领域的研究热点集中于信息通信机制、信度分配和与博弈理论的结合。

MARL方法已被应用于包括SIN在内的无线通信领域中。针对大规模异构且通信时延长的SIN集中式控制导致的通信代价高、难以实时控制的问题, 在进一步研究中, 需要关注分布式的MARL方法与博弈论和联邦学习的结合。研究智能体之间的通信、协作和竞争机制, 使智能体独立观察本地环境信息并进行决策, 避免由传输环境信息导致的带宽消耗, 提高决策时效性。同时, 由于信息感知在网络边缘进行, 不回传至运营商数据中心, 可实现一定程度的用户隐私保护。

更进一步, 可深入研究分布式与集中式强化学习结合的控制框架, 利用集中式强化学习控制核心网, 利用分布式的MARL控制边缘接入网络。

6 未来研究方向

6.1 针对复杂优化问题改进DRL方法

经典的DRL方法大多适用于相对简单直接的计算机领域问题, 将其应用于SIN实际问题中, 面临高维决策空间、复杂约束和互相矛盾的多个优化目标等难点, 需要在DRL方法的改进上进行研究, 使其适应SIN实际问题。文献[14]采用风险敏感的DRL方法处理时延约束, 对改进约束处理方式进行了初步探索, 但此问题还有待深入研究。

针对多决策变量的SIN问题中, 由DRL动作空间过大导致的难以收敛的问题, 一种可行的研究思路是采用层次强化学习方法, 将SIN中的多个决策问题按照领域知识进行逻辑分层, 通过分层强化机制降低动作空间维度, 提高收敛效果。

针对多个互相矛盾的优化目标, 在未来动态的SIN中, 不同应用、不同网络环境, 对目标偏好是动态可变的, 因此需要同时学习动态偏好和适应这一动态偏好的多目标DRL策略^[48], 针对此领域有待进一步研究。

6.2 实际部署中的DRL迁移与更新

现有基于DRL的SIN方法往往关注对各指标优化效果的提升, 而未考虑方法实际部署中面临的问题。实际部署问题可归纳如下: ①星上稀缺的计算资源与DRL方法训练代价之间的矛盾; ②训练环境与实际部署环境之间的数据分布差异; ③在大规模节点中分别训练独立模型, 所消耗的计算资源较多; ④面对由卫星较长生命周期内的环境变化导致的模型过时, 需考虑如何对模型进行更新。

上述在实际部署中面临的问题需要进一步进行研究。其可行思路是结合迁移学习、在线学习等机制, 付出较少的迭代时间和计算代价, 使在地面仿真环境训练的DRL模型迅速适应星上部署环境、各个节点面临的不同环境和变化后的环境, 从而实现DRL中策略网络参数根据环境变化的自适应调整与更新, 进一步降低运维人员手动从头训练或手动调整DRL方法的工作量, 同时节约了计算资源。

基于迁移学习的思路将地面仿真环境中的数据视为源域, 将真实数据视为目标域。基于源域和目标域的相似性, 在仿真环境中训练收敛的神经网络参数对需要解决的问题已经有了较好的认识和决策能力, 因此部署上星之后, 通过少量训练步数的迁移, 即可以有效解决具有不同数据分布的真实场景决策问题。

6.3 结合其他机器学习方法应对数据问题

针对DRL方法在SIN中面临的环境信息数据缺失、数据噪音和数据分布偏差挑战, 结合其他机器学习方法对环境数据进行预处理, 值得深入研究。针对数据缺失问题, 可以采用矩阵补全对缺失的信道质量数据进行补全, 或利用循环神经网络^[49]等方法对缺失的时序数据进行估计; 针对数据噪声问题, 可以利用主成分分析等数据投影方法在降维的同时对数据进行降噪; 针对仿真数据与真实数据存在的分布偏差, 针对系统部署运行前真实数据积累量过少的问题, 可以采用对抗生成网络^[50]降低仿真数据与真实数据分布之间的偏差, 生成与真实数据同分布的仿真数据, 辅助DRL的训练。

6.4 SIN时空规律挖掘

SIN的拓扑动态变化, 并在连续时间片内构成规律的时空动态图, 因此SIN问题中的网络流量、节点状态和剩余资源等要素往往具有时空规律, 这些规律和知识蕴含在SIN数据中。现有方法大多对每个时间片内的问题进行割裂分析, 而忽略了问题的时序特性和空间规律。如何挖掘并利用SIN中的时空规律进行决策, 是将DRL方法应用于SIN时值得深入研究的方向。

对具有动态图关系的各卫星和用户节点深入挖掘时空规律的可行研究思路之一是图神经网络^[51]及其重要分支——时间图神经网络。

6.5 SIN多维任务协同

未来SIN的发展方向是通信、导航、遥感一体化的服务系统, 从而实现一星多用、多星组网, 通过系统集成提高资源利用率和服务效率^[52]。上述一体化天基信息港的核心在于对通信、导航和遥感任务进行协同资源分配、任务调度。包含大规模异构节点与多种任务的复杂系统难以准确建模, 因此传统方法难以求解。而DRL方法依靠其学习能力可以规避精确建模问题, 是解决多任务协同问题的可行思路之一。

6.6 DRL的自动化调参

未来大规模SIN中需对多个节点、多个任务训练DRL模型, 随着整个系统规模的增加, 需要训练的DRL模型数量成倍甚至成指数倍增长。因此, DRL的自动调参技术对其在实际应用中降低运维人员手动调参的工作量具有重要意义。在深度学习领域, 针对自动调参方面的研究已较为成熟并得以实际应用, 而DRL的自动调参技术处于初始阶段, 有待进一步研究。

6.7 更加关注方法的可用性讨论

由于DRL在SIN中的应用研究尚处于起步阶段, 大多数研究更关注DRL方法对系统性能的优化, 而没能充分权衡可用性与方法性能。

可用性一方面指星上资源能否满足方法对计算能力和能量资源的需求, 另一方面体现在方法带来的额外通信量开销。

针对星上资源受限问题, 有以下几种可能的解决思路: ①直接在方法设计时考虑相对浅层的神经网络结构，研究神经网络算法如何在嵌入式平台上提高计算效率^[53]; ②利用深度学习领域中的知识蒸馏^[54]、网络结构剪枝^[55]或网络参数量化等方法, 降低DRL中深度神经网络的计算量, 因而节省能量消耗; ③将迁移学习结合仿真环境训练机制, 降低模型部署过程中所需要的训练开销; ④更加关注分布式的MARL, 将切换、资源分配、计算卸载、网络接入等决策问题从卫星集中式控制框架转换为用户自组织智能化决策框架, DRL方法部署在运算能力较强的地面终端, 做出决策后, 卫星只需要简单地判断是否可以对其服务即可。

针对额外通信开销问题, 由于DRL方法基于对环境的观察进行决策, 因此对周围通信信息的收集往往有助于提升决策效果, 但收集信息(例如信道质量信息)往往带来了额外的开销, 因此在设计DRL状态空间时需要考虑额外通信开销和性能提升之间的权衡。目前仅有少数工作考虑到了此通信代价问题。

7 结论

新兴的DRL方法是应对未来SIN大规模、异构和动态难点的可行思路之一, 其在SIN领域的应用方兴未艾, 有广阔研究前景。尚未有工作对DRL方法在SIN领域的应用进行充分总结与深入讨论。为填补此研究空白, 本文对DRL方法在SIN中的优势、应用思路、研究现状和挑战进行了全面综述, 内容如下:

(1) 对DRL方法在SIN资源分配、跳波束、计算卸载与缓存、路由、卫星切换和接入选择领域的现有研究进行了深入分析与总结, 有助于读者了解如何设计应用于SIN领域的DRL方法, 并进一步找到现有研究的改进思路。

(2) 以星地网络中继选择问题为例, 提出了两种基于DRL的算法, 通过基于平均场的DRL方法解决了卫星网络问题中特有的大规模节点问题。仿真实验结果表明, 结合实际问题特点利用改进的DRL方法有助于进一步提升性能, 且基于微调的模型迁移机制能有效提高星上部署阶段的训练效率, 方法具有可行性。

(3) 基于研究现状, 总结了DRL方法的局限性和其在SIN领域面临的关键挑战。

(4) 分析了DRL领域的前沿热点与其对SIN应用难点的解决思路, 并在此基础上, 进一步讨论了DRL方法在SIN应用领域未来可能的研究方向。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

LIU

J J

, SHI

Y P

, FADLULLAH

Z M

, et al.

Space-air-ground integrated network: a survey

[J]. IEEE Communications Surveys & Tutorials, 2018, 20 (4): 2714- 2741.

[2]

ARULKUMARAN

, DEISENROTH

M P

, BRUNDAGE

, et al.

A brief survey of deep reinforcement learning

[J]. IEEE Signal Processing Magazine, 2017, 34 (6): 26- 38.

DOI:10.1109/MSP.2017.2743240 [本文引用: 1]

[3]

张沛, 刘帅军, 马治国, 等.

基于深度增强学习和多目标优化改进的卫星资源分配算法

[J]. 通信学报, 2020, 41 (6): 51- 60.

ZHANG

, LIU

S J

, MA

Z G

, et al.

Improved satellite resource allocation algorithm based on DRL and MOP

[J]. Journal on Communications, 2020, 41 (6): 51- 60.

DOI:10.3969/j.issn.1001-506X.2018.11.13 [本文引用: 1]

[4]

LIU

S J

, HU

, WANG

W D

Deep reinforcement learning based dynamic channel allocation algorithm in multibeam satellite systems

[J]. IEEE Access, 2018, 6, 15733- 15742.

DOI:10.1109/ACCESS.2018.2809581 [本文引用: 5]

[5]

刘建业, 王华, 周晚萌.

基于GA-SA的低轨星座传感器资源调度算法

[J]. 系统工程与电子技术, 2018, 40 (11): 2476- 2481.

LIU

J Y

, WANG

, ZHOU

W M

LEO constellation sensor resources scheduling algorithm based on genetic and simulated annealing

[J]. Systems Engineering and Electronics, 2018, 40 (11): 2476- 2481.

DOI:10.3969/j.issn.1001-506X.2018.11.13 [本文引用: 1]

[6]

ZHAO

B K

, LIU

J H

, WEI

Z L

, et al.

A deep reinforcement learning based approach for energy-efficient channel allocation in satellite Internet of things

[J]. IEEE Access, 2020, 8, 62197- 62206.

DOI:10.1109/ACCESS.2020.2983437 [本文引用: 3]

[7]

, LIAO

X L

, LIU

Z J

, et al.

Multi-agent deep reinforcement learning-based flexible satellite payload for mobile terminals

[J]. IEEE Trans.on Vehicular Technology, 2020, 69 (9): 9849- 9865.

DOI:10.1109/TVT.2020.3002983 [本文引用: 2]

[8]

LUIS J J G, GUERSTER M, DEL PORTILLO I, et al. Deep reinforcement learning for continuous power allocation in flexible high throughput satellites[C]//Proc. of the 2nd IEEE Cognitive Communications for Aerospace Applications Workshop, 2019.

[9]

LUIS J J G, PACHLER N, GUERSTER M, et al. Artificial intelligence algorithms for power allocation in high throughput sate- llites: a comparison[C]//Proc. of the IEEE Aerospace Conference, 2020.

[10]

FERREIRA

P V R

, PAFFENROTH

, WYGLINSKI

A M

, et al.

Multi-objective reinforcement learning for cognitive sate-llite communications using deep neural network ensembles

[J]. IEEE Journal on Selected Areas in Communications, 2018, 36 (5): 1030- 1041.

DOI:10.1109/JSAC.2018.2832820 [本文引用: 2]

[11]

, LIU

S J

, WANG

Y P

, et al.

Deep reinforcement learning-based beam Hopping algorithm in multibeam satellite systems

[J]. IET Communications, 2019, 13 (16): 2485- 2491.

DOI:10.1049/iet-com.2018.5774 [本文引用: 3]

[12]

, ZHANG

Y C

, LIAO

X L

, et al.

Dynamic beam hopping method based on multi-objective deep reinforcement learning for next generation satellite broadband systems

[J]. IEEE Trans.on Broadcasting, 2020, 66 (3): 630- 646.

DOI:10.1109/TBC.2019.2960940 [本文引用: 3]

[13]

TANG

Q Q

, FEI

Z S

, LI

, et al.

Computation offloading in LEO satellite networks with hybrid cloud and edge computing

[J]. IEEE Internet of Things Journal, 2021, 8 (11): 9164- 9176.

DOI:10.1109/JIOT.2021.3056569 [本文引用: 1]

[14]

ZHOU

C H

, WU

, HE

H L

, et al.

Deep reinforcement learning for delay-oriented IoT task scheduling in space-air-ground integrated network

[J]. IEEE Trans.on Wireless Communications, 2020, 20 (2): 911- 925.

[15]

CUI

G F

, LONG

Y T

, XU

L X

, et al.

Joint offloading and resource allocation for satellite assisted vehicle-to-vehicle communication

[J]. IEEE Systems Journal, 2020, 15 (3): 3958- 3969.

[16]

QIU

, YAO

H P

, YU

F R

, et al.

Deep Q-learning aided networking, caching, and computing resources allocation in software-defined satellite-terrestrial networks

[J]. IEEE Trans.on Vehicular Technology, 2019, 68 (6): 5871- 5883.

DOI:10.1109/TVT.2019.2907682 [本文引用: 3]

[17]

MENG

X L

, WU

L D

, YU

S B

Research on resource allocation method of space information networks based on deep reinforcement learning

[J]. Remote Sensing, 2019, 11 (4): 448.

DOI:10.3390/rs11040448 [本文引用: 3]

[18]

朱立东, 张勇, 贾高一.

卫星互联网路由技术现状及展望

[J]. 通信学报, 2021, 42 (8): 33- 42.

ZHU

L D

, ZHANG

, JIA

G Y

Current status and future prospects of routing technologies for satellite Internet

[J]. Journal on Communications, 2021, 42 (8): 33- 42.

[19]

WANG

, WANG

H W

, WANG

W D

A two-hops state-aware routing strategy based on deep reinforcement learning for LEO satellite networks

[J]. Electronics, 2019, 8 (9): 920.

DOI:10.3390/electronics8090920 [本文引用: 2]

[20]

TU Z, ZHOU H C, LI K, et al. A routing optimization method for software-defined SGIN based on deep reinforcement learning[C]//Proc. of the IEEE Global Communications Conference Workshops, 2019.

[21]

LIU

J H

, ZHAO

B K

, XIN

, et al.

DRL-ER: an intelligent energy-aware routing protocol with guaranteed delay bounds in satellite mega-constellations

[J]. IEEE Trans.on Network Science and Engineering, 2020, 8 (4): 2872- 2884.

[22]

HAN

, HUO

L Y

, TONG

X H

, et al.

Spatial anti-jamming scheme for internet of satellites based on the deep reinforcement learning and stackelberg game

[J]. IEEE Trans.on Vehi-cular Technology, 2020, 69 (5): 5331- 5342.

DOI:10.1109/TVT.2020.2982672 [本文引用: 3]

[23]

杨斌, 何锋, 靳瑾, 等.

LEO卫星通信系统覆盖时间和切换次数分析

[J]. 电子与信息学报, 2014, 36 (4): 804- 809.

YANG

, HE

, JIN

, et al.

Analysis of coverage time and handoff number on LEO satellite communication systems

[J]. Journal of Electronics & Information Technology, 2014, 36 (4): 804- 809.

[24]

H H

, LI

D S

, LIU

M L

, et al.

QoE-driven intelligent hand- over for user-centric mobile satellite networks

[J]. IEEE Trans.on Vehicular Technology, 2020, 69 (9): 10127- 10139.

DOI:10.1109/TVT.2020.3000908 [本文引用: 2]

[25]

HE S X, WANG T Y, WANG S W. Load-aware satellite handover strategy based on multi-agent reinforcement learning[C]//Proc. of the IEEE Global Communications Conference, 2020.

[26]

CAO

, LIEN

S Y

, LIANG

Y C

Deep reinforcement learning for multi-user access control in non-terrestrial networks

[J]. IEEE Trans.on Communications, 2020, 69 (3): 1605- 1619.

[27]

LEE J H, PARK J, BENNIS M, et al. Integrating LEO sate-llite and UAV relaying via reinforcement learning for non-terrestrial networks[C]//Proc. of the IEEE Global Communications Conference, 2020.

[28]

LI X N, ZHANG H J, LI W, et al. Multi-agent DRL for user association and power control in terrestrial-satellite network[C]//Proc. of the IEEE Global Communications Conference, 2021.

[29]

FERIANI

, HOSSAIN

Single and multi-agent deep reinforcement learning for AI-enabled wireless networks: a tutorial

[J]. IEEE Communications Surveys & Tutorials, 2021, 23 (2): 1226- 1252.

[30]

FERREIRA

P V R

, PAFFENROTH

, WYGLINSKI

A M

, et al.

Reinforcement learning for satellite communications: From LEO to deep space operations

[J]. IEEE Communications Magazine, 2019, 57 (5): 70- 75.

[31]

MAI T, YAO H P, JING Y Q, et al. Self-learning congestion control of MPTCP in satellites communications[C]//Proc. of the 15th International Wireless Communications & Mobile Computing Conference, 2019: 775-780.

[32]

XIE

R C

, TANG

Q Q

, WANG

Q N

, et al.

Satellite-terrestrial integrated edge computing networks: architecture, challenges, and open issues

[J]. IEEE Network, 2020, 34 (3): 224- 231.

[33]

HASSAN

N U L

, HUANG

C W

, YUEN

, et al.

Dense small satellite networks for modern terrestrial communication systems: benefits, infrastructure, and technologies

[J]. IEEE Wireless Communications, 2020, 27 (5): 96- 103.

[34]

ZHAO

, REN

G L

, DONG

X D

, et al.

Distributed Q-learning based joint relay selection and access control scheme for IoT-oriented satellite terrestrial relay networks

[J]. IEEE Communications Letters, 2021, 25 (6): 1901- 1905.

[35]

MNIH

, KAVUKCUOGLU

, SILVER

, et al.

Human-level control through deep reinforcement learning

[J]. Nature, 2015, 518 (7540): 529- 533.

[36]

YANG Y D, LUO R, LI M N, et al. Mean field multi-agent reinforcement learning[C]//Proc. of the 35th International Conference on Machine Learning, 2018: 5571-5580.

[37]

ARTI

M K

Channel estimation and detection in satellite communication systems

[J]. IEEE Trans.on Vehicular Technology, 2016, 65 (12): 10173- 10179.

[38]

BANKEY

, UPADHYAY

P K

, DA COSTA

D B

, et al.

Performance analysis of multi-antenna multiuser hybrid satellite-terrestrial relay systems for mobile services delivery

[J]. IEEE Access, 2018, 6, 24729- 24745.

[39]

PACHECO

, EXPOSITO

, GINESTE

A framework to classify heterogeneous Internet traffic with machine learning and deep learning techniques for satellite communications

[J]. Computer Networks, 2020, 173, 107213.

[40]

RAO

S K

Advanced antenna technologies for satellite communications payloads

[J]. IEEE Trans.on Antennas and Propagation, 2015, 63 (4): 1205- 1217.

[41]

万里鹏, 兰旭光, 张翰博, 等.

深度强化学习理论及其应用综述

[J]. 模式识别与人工能, 2019, 32 (1): 67- 81.

WAN

L P

, LAN

X G

, ZHANG

H B

, et al.

A review of deep reinforcement learning theory and application

[J]. Pattern Re-cognition and Artificial Intelligence, 2019, 32 (1): 67- 81.

[42]

ARULKUMARAN

, DEISENROTH

M P

, BRUNDAGE

, et al.

Deep reinforcement learning: a brief survey

[J]. IEEE Signal Processing Magazine, 2017, 34 (6): 26- 38.

[43]

NG A Y, RUSSELL S J. Algorithms for inverse reinforcement learning[C]//Proc. of the 17th International Conference on Machine Learning, 2000: 663-670.

[44]

ZHU Z D, LIN K X, ZHOU J Y. Transfer learning in deep reinforcement learning: a survey[EB/OL]. [2021-08-23]. https://arxiv.org/abs/2009.07888.

[45]

谭晓阳, 张哲.

元强化学习综述

[J]. 南京航空航天大学学报, 2021, 53 (5): 653- 663.

TAN

X Y

, ZHANG

Review on meta reinforcement learning

[J]. Journal of Nanjing University of Aeromautics and Astronautics, 2021, 53 (5): 653- 663.

[46]

周文吉, 俞扬.

分层强化学习综述

[J]. 智能系统学报, 2017, 12 (5): 590- 594.

ZHOU

W J

, YU

Summarize of hierarchical reinforcement learning

[J]. CAAI Transactions on Intelligent Systems, 2017, 12 (5): 590- 594.

[47]

GENG

Y Z

, LIU

E W

, WANG

, et al.

Hierarchical reinforcement learning for relay selection and power optimization in two-hop cooperative relay network

[J]. IEEE Trans.on Communications, 2021, 70 (1): 171- 184.

[48]

YANG R, SUN X, NARASIMHAN K. A generalized algorithm for multi-objective reinforcement learning and policy ada-ptation[C]//Proc. of the Conference and Workshop on Neural Information Processing Systems, 2019.

[49]

HOCHREITER

, SCHMIDHUBER

Long short-term memory

[J]. Neural Computation, 1997, 9 (8): 1735- 1780.

[50]

GOODFELLOW

, POUGET-ABADIE

, MIRZA

, et al.

Generative adversarial nets

[J]. Advances in Neural Information Processing Systems, 2014, 27, 1- 9.

[51]

YAN S, XIONG Y, LIN D. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proc. of the 32ed Association for the Advance of Artificial Intelligence, 2018.

[52]

NURVITADHI E, SIM J, SHEFFIELD D, et al. Accelerating recurrent neural networks in analytics servers: Comparison of FPGA, CPU, GPU, and ASIC[C]// Proc. of the IEEE 26th International Conference on Field Programmable Logic and App- lications, 2016.

[53]

李德仁, 沈欣, 李迪龙, 等.

论军民融合的卫星通信、遥感、导航一体天基信息实时服务系统

[J]. 武汉大学学报(信息科学版), 2017, 42 (11): 1501- 1505.

D R

, SHEN

, LI

D L

, et al.

On civil-military integrated space-based real-time information service system

[J]. Geomatics and Information Science of Wuhan University, 2017, 42 (11): 1501- 1505.

[54]

HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network[EB/OL]. [2021-08-23]. https://arxiv.org/abs/1503.02531.

[55]

LIU Z, LI J, SHEN Z, et al. Learning efficient convolutional networks through network slimming[C]//Proc. of the IEEE International Conference on Computer Vision, 2017: 2736-2744.