pytorch-distributed:pytorch 分布式训练的快速入门和基准测试

时间:2021-08-04 22:56:29
【文件属性】:
文件名称:pytorch-distributed:pytorch 分布式训练的快速入门和基准测试
文件大小:33KB
文件格式:ZIP
更新时间:2021-08-04 22:56:29
Python Distribution is all you need Take-Away 笔者使用 PyTorch 编写了不同加速库在 ImageNet 上的使用示例(单机多卡),需要的同学可以当作 quickstart 将需要的部分 copy 到自己的项目中(Github 请点击下面链接): 简单方便的 nn.DataParallel 使用 torch.distributed 加速并行训练 使用 torch.multiprocessing 取代启动器 使用 apex 再加速 horovod 的优雅实现 GPU 集群上的分布式 补充:分布式 这里,笔者记录了使用 4 块 Tesla V100-PICE 在 ImageNet 进行了运行时间的测试,测试结果发现 Apex 的加速效果最好,但与 Horovod/Distributed 差别不大,平时可以直接使用内置的 Distributed。D
【文件预览】:
pytorch-distributed-master
----.gitignore(378B)
----README.md(28KB)
----apex_distributed.py(15KB)
----distributed.py(12KB)
----LICENSE(1KB)
----multiprocessing_distributed.py(12KB)
----distributed_slurm_main.py(12KB)
----requirements.txt(61B)
----statistics.sh(764B)
----start.sh(468B)
----horovod_distributed.py(13KB)
----dataparallel.py(11KB)

网友评论