chap-深度强化学习1

时间:2022-08-04 13:38:52
【文件属性】:

文件名称:chap-深度强化学习1

文件大小:407KB

文件格式:PDF

更新时间:2022-08-04 13:38:52

k12 交互

引入一个折扣率来降低远期回报的权重。折扣回报(discounted return)定义为其中γ ∈ [0, 1]是折扣率。当γ 接近于0时,智能体更在意短期回报


网友评论