摘要:
针对强化学习中探索和利用之间的平衡控制问题,提出了一种基于信息熵的强化学习算法。该算法利用信息熵的概念,定义了一种新的状态重要性测度,度量了状态与目标之间的关联程度,据此设计了一种探索机制,用于自适应调节学习过程中探索和利用之间的平衡;通过设置可变测度阈值的方法,对状态空间进行自主删减,最终生成合适的、规模较小的状态空间,从而大大节约了计算资源,提高了学习速度。仿真结果表明,所提算法具有较好的学习性能。
赵昀, 陈庆伟, 胡维礼. 一种基于信息熵的强化学习算法[J]. Journal of Systems Engineering and Electronics, 2010, 32(5): 1043-1046.
ZHAO Yun, CHEN Qing-wei, HU Wei-li. Reinforcement learning algorithm based on information entropy[J]. Journal of Systems Engineering and Electronics, 2010, 32(5): 1043-1046.