系统工程与电子技术 ›› 2021, Vol. 43 ›› Issue (9): 2605-2611.doi: 10.12305/j.issn.1001-506X.2021.09.29

• 制导、导航与控制 • 上一篇    下一篇

基于Policy Gradient的机械臂运动跟踪

韩霖骁*, 胡剑波, 宋仕元, 王应洋, 贺子厚, 张鹏   

  1. 空军工程大学装备管理与无人机工程学院, 陕西 西安 710051
  • 收稿日期:2020-10-30 出版日期:2021-08-20 发布日期:2021-08-26
  • 通讯作者: 韩霖骁
  • 作者简介:韩霖骁(1997—), 男, 硕士研究生, 主要研究方向为智能控制与无人作战|胡剑波(1965—), 男, 教授, 博士, 主要研究方向为滑模控制、智能控制与无人作战|宋仕元(1996—), 男, 硕士研究生, 主要研究方向为智能控制与无人作战|王应洋(1990—), 男, 讲师,博士, 主要研究方向为智能控制与无人作战|贺子厚(1995—), 男, 博士研究生, 主要研究方向为智能控制与无人作战|张鹏(1979—), 男, 副教授, 博士, 主要研究方向为智能控制与无人作战
  • 基金资助:
    工业控制技术国家重点实验室开放课题(ICT20063)

Parameter tuning of manipulator motion tracking controller based on Policy Gradient

Linxiao HAN*, Jianbo HU, Shiyuan SONG, Yingyang WANG, Zihou HE, Peng ZHANG   

  1. Equipment Management and Unmanned Aerial Vehicle Engineering College, Airforce and Engineering University, Xi'an 710051, China
  • Received:2020-10-30 Online:2021-08-20 Published:2021-08-26
  • Contact: Linxiao HAN

摘要:

针对机械臂运动跟踪控制器的参数自整定问题, 设计了一种基于强化学习Policy Gradient法的参数整定器。首先, 介绍了机械臂的一种混合动力学模型, 根据该系统模型进行了比例-微分(proportional-derivative, PD)控制器设计和李雅普诺夫稳定性证明, 并由此给出了参数矩阵的范围。其次, 设计了基于Policy Gradient的参数整定器, 通过引入积分器的方法对其进行改进, 使其控制下的参数行为连续化以进一步提高PD控制器的控制效果。最后, 以二阶机械臂系统为例进行了仿真验证。实验数据证明了该参数整定器的有效性和可行性, 并能有效提升系统的动态性能。

关键词: 机械臂, 运动跟踪, Policy Gradient, 参数整定, 比例-微分控制

Abstract:

Aiming at the parameter self-tuning problem of the manipulator motion tracking controller, a parameter tuning device based on reinforcement learning Policy Gradient method is designed. Firstly, a hybrid dynamic model of manipulator is introduced. According to the system model, the design of proportional-derivative (PD) controller and the stability of Lyapunov are carried out, and the range of parameter matrix is given. Secondly, the parameter tuning device based on Policy Gradient is designed. The integrator is introduced to improve the parameter tuning of gradient, so as to further improve the control effect of PD controller. Finally, a second-order manipulator system is taken as an example to verify the effectiveness and feasibility of the parameter tuning device, which effectively improves the dynamic performance of the proposed system.

Key words: manipulator, motion tracking, Policy Gradient, parameter tuning, proportional-derivative (PD) control

中图分类号: