精通 GPU 编程：初学者使用 CUDA 驱动生成式 AI 应用的指南

Rifx.Online
Generative AI , GPU Programming , Machine Learning
08 Mar, 2025

理解用于生成式 AI 的 GPU 编程

照片来自 Christian Wiediger，来自 Unsplash

生成式 AI 正在快速发展。所有估计和预测都与我们如今所见相去甚远。

新的一天，新的 LLM

如果你关注了上周的 DeepSeek 的开源周，你观察到的一个有趣的模式是，该团队高度关注基础设施和底层编程，而不仅仅是使用一些新数据训练新的 LLM。

我也认为，在未来，GPU 编程可能是一个热门话题。

因此，让我们使用 CUDA 学习 GPU 编程

这篇文章将作为介绍性部分，我们将讨论一些基础知识。

希望你已经知道什么是 GPU

什么是 GPU？

GPU（图形处理单元） 是一种专门的处理器，旨在处理 图形渲染和并行计算任务， 例如游戏、视频编辑和机器学习中使用的那些。由于其大量更小、更简单的核心，它经过优化，可以同时执行许多操作。

相比之下，CPU（中央处理单元） 是一种通用处理器，可以处理计算机的大部分任务，例如运行程序、管理系统资源和执行计算。CPU 通常具有更少、更强大的核心，这些核心经过优化，可以执行需要复杂、顺序处理的任务。

什么是核心？

GPU 核心：一个更小、更简单的处理单元，专为并行执行而设计，可在许多核心上同时处理任务。非常适合可以分解为许多更小、相同操作的任务（例如，图形渲染）。

CPU 核心：一个更强大、更复杂的单元，针对顺序任务和通用处理进行了优化。CPU 通常具有更少的核心，但能够处理更复杂和多样化的计算。

现在你知道什么是 GPU 了，

什么是 GPU 编程？

GPU 编程是指编写软件的过程，该软件利用 图形处理单元 (GPU) 的强大功能来执行计算密集型任务。就像我们有基于 CPU 的编程语言（例如 Python、Java）一样，我们也有基于 GPU 的编程框架

GPU 编程与普通编程（如 Python 或 Java）有何不同？

并行性：

GPU 编程：它本质上旨在利用并行性。GPU 拥有数千个小核心，可以同时对多个数据执行相同的指令（SIMD — 单指令，多数据）。
普通编程（Python/Java）：通常在 CPU 上运行。CPU 的核心更少 (4–64)，传统程序按顺序运行，一次执行一条指令（尽管可以通过多线程实现并行性，但它不如 GPU 那样高效或本质上为并行性而设计）。

普通编程比 GPU 编程慢得多

内存架构：

GPU 编程：在 GPU 编程中，你需要显式地管理内存。GPU 有不同类型的内存（全局、共享、常量），这些内存针对不同的用例进行了优化。
普通编程（Python/Java）：内存管理通常是自动处理的，尤其是在 Python 或 Java 等高级语言中。开发人员不需要担心数据如何存储在 CPU 寄存器中。

在 GPU 编程中，内存处理是手动的

执行模型：

GPU 编程：涉及编写同时在数千个线程上运行的代码。这些线程被分组到块中，然后进一步分组到网格中。一个块中的线程可以通过共享内存共享数据，但不同块中的线程无法轻松通信。
普通编程（Python/Java）：通常，程序在一个线程上运行（如果使用多线程，则在几个线程上运行），并且执行模型是顺序的。

并行性是 GPU 编程的核心

语言和框架：

GPU 编程：通常涉及使用专门的编程语言或库，这些语言或库允许与 GPU 硬件进行交互。这些的例子有：

CUDA (Compute Unified Device Architecture)：NVIDIA 创建的并行计算平台和 API 模型，用于 GPU 上的通用计算。

OpenCL (Open Computing Language)：一种跨 CPU、GPU 和其他处理器的并行编程开放标准。

TensorFlow/PyTorch：支持 GPU 加速的机器学习框架。

普通编程（Python/Java）：Python 或 Java 等传统编程语言旨在在 CPU 上运行。它们没有内置的对在 GPU 上运行代码的支持，尽管 NumPy（使用 CuPy 等库）或 TensorFlow/PyTorch（用于机器学习）等框架允许 GPU 加速。

那么，我为什么要学习 GPU 编程？

生成式 AI 已经存在。任何 LLM 最需要的一件事就是 GPU 和大量的 GPU。

你需要学习如何有效地使用 GPU

学习 GPU 编程对于使用 生成式 AI (GenAI) 至关重要，因为这涉及训练和运行大型 AI 模型所需的巨大计算量。原因如下：

速度和效率：训练生成式 AI 模型，如 LLM 或生成式图像模型，需要大量的并行计算。GPU 具有数千个核心，可以同时对许多数据点执行相同的操作，这使得它们比 CPU 快得多。这可以将训练时间从数周缩短到几天甚至几小时。
可扩展性：随着 GenAI 模型变得越来越大和越来越复杂，对并行性的需求也随之增加。 GPU 旨在处理大规模数据处理，允许你扩展模型并有效地处理大型数据集。
优化的模型推理：一旦训练了 GenAI 模型，运行推理（进行预测）就需要大量的计算。 GPU 能够实现更快的模型推理，这对于会话式 AI、图像生成或推荐系统等实时应用程序至关重要。
成本效益：在 CPU 上训练 GenAI 模型可能非常昂贵且耗时。 GPU，尤其是在云环境中，通过大大减少训练和推理所需的时间，提供了一种更具成本效益的解决方案。

所以，我希望我能够充分激励你开始使用 GPU 编程。但是

GPU 编程基本概念

我们将从了解 GPU 编程的一些基本单元开始

1. Kernel:

Kernel 是在 GPU 上运行的函数。它是一个用 CUDA C/C++ 或 OpenCL 等语言编写的GPU 特定函数，并在多个线程中并行执行。每个线程独立运行 kernel，这使得 GPU 能够同时对许多数据元素执行并行计算。

**示例：**矩阵乘法运算可以被写成一个 kernel，以便并行处理结果矩阵的每个元素。

2. Threads:

Thread 是 GPU 编程中最小的执行单元。每个线程独立执行一个 kernel，处理一小部分数据。线程是轻量级的，可以并行执行，使 GPU 能够同时执行大量操作。

3. Blocks:

线程被分组到 blocks 中。一个 block 是一组线程的集合，它们可以通过在共享内存中共享数据和同步它们的执行来相互协作。
每个 block 独立运行，并且可以在 GPU 的不同部分上进行调度。Blocks 允许 GPU 有效地管理和组织并行任务。

4. Grids:

一个 grid 是一组 blocks 的集合。Grids 将 blocks 组织成二维或三维结构，允许 GPU 并行管理大型数据集。

5. Threads Per Block:

每个 block 中的线程数量是一个重要的设计选择。例如，CUDA 允许您定义每个 block 应该有多少个线程。一个 block 最多可以包含 1024 个线程，并且这个数字通常是根据问题和 GPU 的架构来选择的。

6. Shared Memory:

Shared memory 是一种特殊类型的内存，由 block 内的所有线程共享。它比 global memory 快得多，可以用于存储 block 中的线程需要频繁访问的临时数据。
高效使用 shared memory 对于性能至关重要，因为它允许同一 block 中的线程比使用 global memory 更有效地协作和共享数据。

7. Global Memory:

Global memory 是 GPU 上最大和最通用的内存形式。所有线程、blocks 和 grids 都可以访问它，但与 shared memory 相比，它具有更高的延迟和更低的带宽。
在 GPU 编程中，尽可能减少 global memory 的访问量以避免性能瓶颈非常重要。

8. CUDA Threads Hierarchy:

在 CUDA 编程中，线程按以下结构进行分层组织：

Grid：顶层容器，由多个 blocks 组成。

Block：一组执行相同 kernel 的线程。

Thread：最小的执行单元，独立处理一块数据。

9. Synchronization:

Synchronization 是确保线程以协调方式执行的过程。在一个 block 中，线程可以使用 barriers 进行同步，以确保所有线程在继续之前都到达相同的执行点。但是，不同 blocks 中的线程之间的同步并不简单，通常需要其他机制，如原子操作。

10. Memory Hierarchy:

Global Memory：在所有 blocks 和线程之间共享，但具有更高的延迟和更低的带宽。

Shared Memory：在一个 block 内共享，并提供更快的访问速度。

Local Memory：每个线程私有，但也存储在 global memory 中。

Constant and Texture Memory：用于常量值或只读数据的特殊形式的内存，可以有效地缓存。

11. Warps:

一个 warp 是 CUDA 中一组 32 个线程（或其他架构特定的大小），它们在 GPU 上以 SIMD（单指令，多数据）方式一起执行。一个 warp 是 GPU 调度程序处理的最小执行单元。高效的 GPU 性能通常取决于您的代码映射到 warp 执行的程度。

12. Compute Capability:

Compute capability 指的是特定 GPU 架构的特性和规范。不同版本的 NVIDIA GPU（如 Kepler、Volta、Ampere）具有不同的 compute capabilities，这会影响某些硬件功能的可用性，如 warp size、内存配置和 CUDA 指令。

总结，

GPU 编程对于使用生成式 AI 和计算密集型任务至关重要。在这篇文章中，我们涵盖了基础知识，从理解 GPU 到并行性和内存管理等关键概念。随着 AI 模型的增长，掌握 GPU 编程——特别是使用 CUDA——变得至关重要。请继续关注下一篇文章，我们将深入研究 CUDA 编程并探索实用技术！