跳转至

支持模型列表

FastDeploy目前支持模型列表如下,在FastDeploy部署时,指定 model参数为如下表格中的模型名,即可自动下载模型权重(均支持断点续传),支持如下3种下载源,

使用自动下载时,默认从AIStudio下载,用户可以通过配置环境变量 FD_MODEL_SOURCE修改默认下载来源,可取值"AISTUDIO","MODELSCOPE"或"HUGGINGFACE";默认下载路径为 ~/(即用户主目录),用户可以通过配置环境变量 FD_MODEL_CACHE修改默认下载的路径,例如

export FD_MODEL_SOURCE=AISTUDIO # "AISTUDIO", "MODELSCOPE" or "HUGGINGFACE"
export FD_MODEL_CACHE=/ssd1/download_models

说明:带星号的模型可直接使用 HuggingFace Torch 权重,支持 FP8/WINT8/WINT4 动态量化BF16 精度 推理,推理时需启用 --load-choices "default_v1"

以baidu/ERNIE-4.5-21B-A3B-PT为例启动命令如下

python -m fastdeploy.entrypoints.openai.api_server \
       --model baidu/ERNIE-4.5-0.3B-PT \
       --port 8180 \
       --metrics-port 8181 \
       --engine-worker-queue-port 8182 \
       --max-model-len 32768 \
       --max-num-seqs 32 \
       --load-choices "default_v1"

纯文本模型列表

模型 DataType 模型案例
⭐ERNIE BF16\WINT4\WINT8\W4A8C8\WINT2\FP8 baidu/ERNIE-4.5-VL-424B-A47B-Paddle;
baidu/ERNIE-4.5-300B-A47B-Paddle
快速部署最佳实践;
baidu/ERNIE-4.5-300B-A47B-2Bits-Paddle;
baidu/ERNIE-4.5-300B-A47B-W4A8C8-TP4-Paddle;
baidu/ERNIE-4.5-300B-A47B-FP8-Paddle;
baidu/ERNIE-4.5-300B-A47B-Base-Paddle;
baidu/ERNIE-4.5-21B-A3B-Paddle;
baidu/ERNIE-4.5-21B-A3B-Base-Paddle;
baidu/ERNIE-4.5-21B-A3B-Thinking;
baidu/ERNIE-4.5-0.3B-Paddle
快速部署最佳实践;
baidu/ERNIE-4.5-0.3B-Base-Paddle, etc.
⭐QWEN3-MOE BF16/WINT4/WINT8/FP8 Qwen/Qwen3-235B-A22B;
Qwen/Qwen3-30B-A3B, etc.
⭐QWEN3 BF16/WINT8/FP8 Qwen/qwen3-32B;
Qwen/qwen3-14B;
Qwen/qwen3-8B;
Qwen/qwen3-4B;
Qwen/qwen3-1.7B;
Qwen/qwen3-0.6B, etc.
⭐QWEN2.5 BF16/WINT8/FP8 Qwen/qwen2.5-72B;
Qwen/qwen2.5-32B;
Qwen/qwen2.5-14B;
Qwen/qwen2.5-7B;
Qwen/qwen2.5-3B;
Qwen/qwen2.5-1.5B;
Qwen/qwen2.5-0.5B, etc.
⭐QWEN2 BF16/WINT8/FP8 Qwen/Qwen/qwen2-72B;
Qwen/Qwen/qwen2-7B;
Qwen/qwen2-1.5B;
Qwen/qwen2-0.5B;
Qwen/QwQ-32, etc.
⭐DEEPSEEK BF16/WINT4 unsloth/DeepSeek-V3.1-BF16;
unsloth/DeepSeek-V3-0324-BF16;
unsloth/DeepSeek-R1-BF16, etc.

多模态语言模型列表

根据模型不同,支持多种模态(文本、图像等)组合:

模型 DataType 模型案例
ERNIE-VL BF16/WINT4/WINT8 baidu/ERNIE-4.5-VL-424B-A47B-Paddle
快速部署最佳实践 ;
baidu/ERNIE-4.5-VL-28B-A3B-Paddle
快速部署最佳实践 ;
QWEN-VL BF16/WINT4/FP8 Qwen/Qwen2.5-VL-72B-Instruct;
Qwen/Qwen2.5-VL-32B-Instruct;
Qwen/Qwen2.5-VL-7B-Instruct;
Qwen/Qwen2.5-VL-3B-Instruct

更多模型同步支持中,你可以通过Github Issues向我们提交新模型的支持需求。