有人/无人机协同是目前无人机空战发展的趋势, 智能决策是实现有人机与无人机协同打击的关键。高动态战场环境、非对称作战任务和异构多源协同体系, 导致无人机自主能力和实时性较差, 策略训练困难, 是有人/无人机协同打击研究的难点。基于有人/无人机协同的忠诚僚机方案, 设计典型的有人/无人机协同打击样式, 提出一种基于改进多智能体双延迟深度确定性(multi-agent twin delayed deep deterministic, MATD3)策略梯度算法的强化学习方法。首先, 设计基于MATD3策略梯度算法、课程学习(curriculum learning, CL)的协同机动决策训练框架和基于迁移学习的预训练(pre-train, PT)策略, 解决有人/无人机协同打击策略训练困难的问题。其次, 建立面向有人/无人机协同机动的多机协同奖励函数和状态空间。最后, 结合设计的搭载六自由度仿真模型的数字仿真推演平台, 验证训练得到的打击策略具有高效的打击和生存能力, 能够指导未来有人/无人机协同打击作战的实际应用。