DP

Data Parallel 因为要并行的数据之间没有依赖关系，所以是一种比较简单的并行方式。在 LLM 时代，似乎 DP 谈得少了，可能也是因为 DP 的难度并不大，而且 LLM 的 batch size 并没有办法给到很大。

Roam