如何清空matlab的代码-understand-ddpg:DDPG学习心得

时间:2024-06-10 14:30:07
【文件属性】:

文件名称:如何清空matlab的代码-understand-ddpg:DDPG学习心得

文件大小:85KB

文件格式:ZIP

更新时间:2024-06-10 14:30:07

系统开源

如何清空matlab的代码 Deep deterministic policy gradients (DDPG) 本文记录学习DDPG算法细节中遇到的若干问题。 Click to open TOC DDPG的主要特征 DDPG的优点以及特点, 在若干blog, 如以及中已经详述, 在此不再赘述细节。其主要的tricks在于: Memory replay, 与 DQN中想法完全一致; Actor-critic 框架, 其中critic负责value iteration, 而actor负责policy iteration; Soft update, agent同时维持四个networks, 其中actor与critic各两个, 分别有一个为target network, 其更新方式为soft update, 即每一步仅采用相对小的权重采用相应训练中的network更新;如此的目的在于尽可能保障训练能够收敛; Exploration via random process, typically OU process, 为actor采取的action基础上增加一定的随机扰动, 以保障一定的探索完


【文件预览】:
understand-ddpg-master
----README.md(18KB)
----svgs()
--------0282476793e007d5156951e5ff849455.svg(3KB)
--------7d6a2c66f545a6c62083d2fde4b9e0c4.svg(6KB)
--------81852ef4773d9d099f1d3d8f050f94be.svg(11KB)
--------860f204cdc4fa1b2dbac659d2dcdce80.svg(9KB)
--------26ad9dc8bd51632217d0c815b5c4124a.svg(5KB)
--------dd0dc2f0717517525692db606c6486c2.svg(4KB)
--------d7248c1f0f336fe71cbbb8c617f209f0.svg(14KB)
--------1344693ce39172e41a81a58f01206500.svg(32KB)
--------bc217028c85a62d902d01277dc262b2c.svg(10KB)
--------7d0a6d940697dae205dc15bbc4ab2327.svg(6KB)
--------6c5e82ee00aa7d6fd454a05a30c6f62f.svg(40KB)
--------2b442e3e088d1b744730822d18e7aa21.svg(4KB)
--------714dc01e9b55ff58dd88718e29d73451.svg(17KB)
--------80fa18eaec0f663dbde98266f359dc3f.svg(4KB)
--------746190ceedc2b75dfb6364690c86f2da.svg(6KB)
--------8cda31ed38c6d59d14ebefa440099572.svg(2KB)
--------da5b8906860f644386fcc66c2c83ee03.svg(4KB)
--------1afcdb0f704394b16fe85fb40c45ca7a.svg(3KB)
--------02e7597581801b2a16be4bd34fc34766.svg(3KB)
--------230dc7e0c8a660c9b21c17b7515a5cd5.svg(4KB)
----READOTHER.md(14KB)

网友评论