NVIDIA CUDA GPU Installation
在环境满足如下条件前提下
- GPU驱动 >= 535
- CUDA >= 12.3
- CUDNN >= 9.5
- Python >= 3.10
- Linux X86_64
可通过如下5种方式进行安装
1. 预编译Docker安装(推荐)
注意: 预编译镜像支持 80/86/89/90 架构的GPU硬件 (如 A800/H800/L20/L40/4090) 且仅支持 Python 3.10。
# CUDA 12.6
docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-cuda-12.6:2.5.0
# CUDA 12.9
docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-cuda-12.9:2.5.0
2. 预编译Pip安装
首先安装 paddlepaddle-gpu,详细安装方式参考 PaddlePaddle安装
# Install stable release
# CUDA 12.6
python -m pip install paddlepaddle-gpu==3.3.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
# CUDA 12.9
python -m pip install paddlepaddle-gpu==3.3.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu129/
# Install latest Nightly build
# CUDA 12.6
python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
# CUDA 12.9
python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu129/
再安装 fastdeploy,注意不要通过pypi源安装,需要通过如下方式安装(目前支持80/86/89/90四个架构GPU)
注意: 稳定版本的FastDeploy搭配稳定版本的PaddlePaddle; 而Nightly Build的FastDeploy则对应Nightly Build的PaddlePaddle。其中 --extra-index-url 仅用于安装 fastdeploy-gpu 所需的依赖包,fastdeploy-gpu 本身必须从 -i 指定的 Paddle 源安装。
# 安装稳定版本FastDeploy
# CUDA 12.6
python -m pip install fastdeploy-gpu==2.5.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
# CUDA 12.9
python -m pip install fastdeploy-gpu==2.5.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu129/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
# 安装Nightly Build版本FastDeploy
# CUDA 12.6
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
# CUDA 12.9
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu129/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
3. 镜像自行构建
注意
dockerfiles/Dockerfile.gpu默认编译产物仅支持 SM 80/86/89/90 架构,基于 CUDA 12.6 环境构建,且仅支持 Python 3.10,如若需要支持其它架构,需自行修改Dockerfile中的bash build.sh 1 python false [80,90],建议不超过2个架构。
git clone https://github.com/PaddlePaddle/FastDeploy
cd FastDeploy
docker build -f dockerfiles/Dockerfile.gpu -t fastdeploy:gpu .
4. Wheel包源码编译
首先安装 paddlepaddle-gpu,详细安装方式参考 PaddlePaddle安装
python -m pip install paddlepaddle-gpu==3.3.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
接着克隆源代码,编译安装
git clone https://github.com/PaddlePaddle/FastDeploy
cd FastDeploy
# 第1个参数: 表示是否要构建wheel包,1表示打包,0表示只编译
# 第2个参数: Python解释器路径
# 第3个参数: 是否编译CPU推理算子
# 第4个参数: 编译的GPU架构
bash build.sh 1 python false [80,90]
编译后的产物在FastDeploy/dist目录下。
5. 算子预编译 Wheel 包
FastDeploy 提供了 GPU 算子预编译版 Wheel 包,可在无需完整源码编译的情况下快速构建。该方式当前仅支持 SM80/90 架构(A100/H100等) CUDA 12.6 和 Python 3.10 环境。
默认情况下,
build.sh会从源码编译;若希望使用预编译包,可使用FD_USE_PRECOMPILED参数; 若预编译包下载失败或与环境不匹配,系统会自动回退至4. wheel 包源码编译模式。
首先安装 paddlepaddle-gpu,详细安装方式参考 PaddlePaddle安装
python -m pip install paddlepaddle-gpu==3.3.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
接着克隆源代码,拉取 whl 包并安装
git clone https://github.com/PaddlePaddle/FastDeploy
cd FastDeploy
# 第1个参数: 是否打包成 wheel (1 表示打包)
# 第2个参数: Python 解释器路径
# 第3个参数: 是否编译 CPU 推理算子 (false 表示仅 GPU)
# 第4个参数: GPU 架构 (当前仅支持 80/90)
# 第5个参数: 是否使用预编译算子 (1 表示启用预编译)
# 第6个参数(可选): 指定预编译算子的 commitID(默认使用当前的 commitID)
# 使用预编译 whl 包加速构建
bash build.sh 1 python false [90] 1
# 从指定 commitID 获取对应预编译算子
bash build.sh 1 python false [90] 1 d693d4be1448d414097882386fdc24c8bec2a63a
下载的 whl 包在 FastDeploy/pre_wheel目录下。
构建完成后,算子相关的产物位于 FastDeploy/fastdeploy/model_executor/ops/gpu 目录下。
说明: - 该模式会优先下载预编译的 GPU 算子 whl 包,减少编译时间; - 目前仅支持 GPU, SM80/90 架构, CUDA 12.6, Python3.10; - 若希望自定义架构或修改算子逻辑,请使用 源码编译方式(第4节)。 - 您可以在 FastDeploy CI 构建状态页面查看对应 commit 的预编译 whl 是否已构建成功。
环境检查
在安装 FastDeploy 后,通过如下 Python 代码检查环境的可用性
import paddle
from paddle.jit.marker import unified
# 检查GPU卡的可用性
paddle.utils.run_check()
如上代码执行成功,则认为环境可用。