【文件属性】:
文件名称:pytorch-distributed:pytorch 分布式训练的快速入门和基准测试
文件大小:33KB
文件格式:ZIP
更新时间:2021-08-04 22:56:29
Python
Distribution is all you need
Take-Away
笔者使用 PyTorch 编写了不同加速库在 ImageNet 上的使用示例(单机多卡),需要的同学可以当作 quickstart 将需要的部分 copy 到自己的项目中(Github 请点击下面链接):
简单方便的 nn.DataParallel
使用 torch.distributed 加速并行训练
使用 torch.multiprocessing 取代启动器
使用 apex 再加速
horovod 的优雅实现
GPU 集群上的分布式
补充:分布式
这里,笔者记录了使用 4 块 Tesla V100-PICE 在 ImageNet 进行了运行时间的测试,测试结果发现 Apex 的加速效果最好,但与 Horovod/Distributed 差别不大,平时可以直接使用内置的 Distributed。D
【文件预览】:
pytorch-distributed-master
----.gitignore(378B)
----README.md(28KB)
----apex_distributed.py(15KB)
----distributed.py(12KB)
----LICENSE(1KB)
----multiprocessing_distributed.py(12KB)
----distributed_slurm_main.py(12KB)
----requirements.txt(61B)
----statistics.sh(764B)
----start.sh(468B)
----horovod_distributed.py(13KB)
----dataparallel.py(11KB)