连续空间增量最近邻时域差分学习

时间:2021-01-14 14:15:42
【文件属性】:
文件名称:连续空间增量最近邻时域差分学习
文件大小:346KB
文件格式:PDF
更新时间:2021-01-14 14:15:42
时域差分学习 值函数逼近 策略逼近 局部加权学习

针对连续空间强化学习问题, 提出一种基于局部加权学习的增量最近邻时域差分(TD) 学习框架. 通过增量方式在线选取部分已观测状态构建实例词典, 采用新观测状态的范围最近邻实例逼近其值函数与策略, 并结合TD 算法对词典中各实例的值函数和资格迹迭代更新. 就框架各主要组成部分给出多种设计方案, 并对其收敛性进行理论分析. 对24 种方案组合进行仿真验证的实验结果表明, SNDN组合具有较好的学习性能和计算效率.


网友评论