CUDA Graph
CUDA Graph 是 NVIDIA 推出的用于优化 GPU 任务执行的技术。它允许开发者将一系列 CUDA 操作(如内存拷贝、核函数启动等)预先录制为一个计算图(Graph),之后可以重复高效地执行整个图,减少 CPU 与 GPU 之间的交互开销,尤其适用于需要重复执行相同操作序列的场景(如深度学习推理)。
传统方式中,每次调用 CUDA 操作需通过 CPU 提交指令,而 CUDA Graph 将多个操作合并为一个图,只需一次提交。它节省的是 CPU-GPU 同步开销和 Kernel 启动延迟