fairseq-apollo:使用Apollo优化器的FairSeq回购

时间:2021-02-28 09:48:21
【文件属性】:
文件名称:fairseq-apollo:使用Apollo优化器的FairSeq回购
文件大小:3.17MB
文件格式:ZIP
更新时间:2021-02-28 09:48:21
Python Fairseq-Apollo Fairseq与Apollo优化器一起使用。 该文件夹基于。 WMT-14 En-De的实验结果 方法 测试BLEU 新元 26.59(0.07) 亚当 27.84(0.12) 拉丹 28.15(0.15) 阿达·贝利夫(AdaBelief) 28.14(0.11) 阿波罗 28.34(0.10) 我们使用基于Transformer的模型。 下表列出了一些关键的超参数。 我们还提供培训用于实验的更多细节。 基于WMT-14 En-De的变压器 方法 r 体重下降 解耦的重量衰减 每股收益 lr排程器 热身更新 init_lr 渐变夹 新元 0.1 1e-6 错误的 不适用 里程碑 1000 1e-4 1.0 亚当 0.0005 1e-4 真的 1e-8 反平方 4000 1e-7 1.0 拉丹 0.0005 1e-

网友评论