ring-all-reduce

2025-07-17 约 523 字预计阅读 2 分钟次阅读

All-reduced=all-gather+reduce-scatter

All-gather

核心功能：将每个节点的部分数据汇总到所有节点，最终所有节点拥有完整数据副本。
适用场景：模型并行中的参数同步、全局统计信息聚合。

核心功能：先对多节点数据进行规约（如求和），再将结果分散到各节点，使每个节点仅保留部分规约结果。
适用场景：ZeRO显存优化、梯度分片更新。

假设模型参数大小为 \(\theta\)，GPU 个数为 N，则每一个梯度块大小为 \(\frac{\theta}{N}\)

对于单卡而言： - Reduce-Scatter 阶段通讯量：\((N-1) \frac{\theta}{N}\) - All-Reduce 阶段通讯量：\((N-1) \frac{\theta}{N}\)

单卡通讯量为 \(2(N-1) \frac{\theta}{N}\)，所有卡的通讯量为 \(2(N-1) \theta\)