Data Parallel 因为要并行的数据之间没有依赖关系,所以是一种比较简单的并行方式。在 LLM 时代,似乎 DP 谈得少了,可能也是因为 DP 的难度并不大,而且 LLM 的 batch size 并没有办法给到很大。 MapReduce BSP