支持模型列表

FastDeploy目前支持模型列表如下，在FastDeploy部署时，指定 model参数为如下表格中的模型名，即可自动下载模型权重（均支持断点续传），支持如下3种下载源，

使用自动下载时，默认从AIStudio下载，用户可以通过配置环境变量 FD_MODEL_SOURCE修改默认下载来源，可取值"AISTUDIO"，"MODELSCOPE"或"HUGGINGFACE"；默认下载路径为 ~/(即用户主目录)，用户可以通过配置环境变量 FD_MODEL_CACHE修改默认下载的路径，例如

export FD_MODEL_SOURCE=AISTUDIO # "AISTUDIO", "MODELSCOPE" or "HUGGINGFACE"
export FD_MODEL_CACHE=/ssd1/download_models

以baidu/ERNIE-4.5-21B-A3B-PT为例启动命令如下

python -m fastdeploy.entrypoints.openai.api_server \
       --model baidu/ERNIE-4.5-0.3B-PT \
       --port 8180 \
       --metrics-port 8181 \
       --engine-worker-queue-port 8182 \
       --max-model-len 32768 \
       --max-num-seqs 32

纯文本模型列表

模型	DataType	模型案例
⭐ERNIE	BF16\WINT4\WINT8\W4A8C8\WINT2\FP8	baidu/ERNIE-4.5-VL-424B-A47B-Paddle; baidu/ERNIE-4.5-300B-A47B-Paddle 快速部署最佳实践; baidu/ERNIE-4.5-300B-A47B-2Bits-Paddle; baidu/ERNIE-4.5-300B-A47B-W4A8C8-TP4-Paddle; baidu/ERNIE-4.5-300B-A47B-FP8-Paddle; baidu/ERNIE-4.5-300B-A47B-Base-Paddle; baidu/ERNIE-4.5-21B-A3B-Paddle; baidu/ERNIE-4.5-21B-A3B-Base-Paddle; baidu/ERNIE-4.5-21B-A3B-Thinking; baidu/ERNIE-4.5-VL-28B-A3B-Thinking; baidu/ERNIE-4.5-0.3B-Paddle 快速部署最佳实践; baidu/ERNIE-4.5-0.3B-Base-Paddle, etc.
⭐QWEN3-MOE	BF16/WINT4/WINT8/FP8	Qwen/Qwen3-235B-A22B; Qwen/Qwen3-30B-A3B, etc.
⭐QWEN3	BF16/WINT8/FP8	Qwen/qwen3-32B; Qwen/qwen3-14B; Qwen/qwen3-8B; Qwen/qwen3-4B; Qwen/qwen3-1.7B; Qwen/qwen3-0.6B, etc.
⭐QWEN2.5	BF16/WINT8/FP8	Qwen/qwen2.5-72B; Qwen/qwen2.5-32B; Qwen/qwen2.5-14B; Qwen/qwen2.5-7B; Qwen/qwen2.5-3B; Qwen/qwen2.5-1.5B; Qwen/qwen2.5-0.5B, etc.
⭐QWEN2	BF16/WINT8/FP8	Qwen/Qwen/qwen2-72B; Qwen/Qwen/qwen2-7B; Qwen/qwen2-1.5B; Qwen/qwen2-0.5B; Qwen/QwQ-32, etc.
⭐DEEPSEEK	BF16/WINT4	unsloth/DeepSeek-V3.1-BF16; unsloth/DeepSeek-V3-0324-BF16; unsloth/DeepSeek-R1-BF16, etc.
⭐GPT-OSS	BF16/WINT8	unsloth/gpt-oss-20b-BF16, etc.
⭐GLM-4.5/4.6	BF16/wfp8afp8	zai-org/GLM-4.5-Air; zai-org/GLM-4.6 最佳实践 etc.

多模态语言模型列表

根据模型不同，支持多种模态(文本、图像等)组合：

模型	DataType	模型案例
ERNIE-VL	BF16/WINT4/WINT8	baidu/ERNIE-4.5-VL-424B-A47B-Paddle 快速部署最佳实践 ; baidu/ERNIE-4.5-VL-28B-A3B-Paddle 快速部署最佳实践 ; baidu/ERNIE-4.5-VL-28B-A3B-Thinking 快速部署最佳实践 ;
PaddleOCR-VL	BF16/WINT4/WINT8	PaddlePaddle/PaddleOCR-VL 最佳实践 ;
QWEN-VL	BF16/WINT4/FP8	Qwen/Qwen2.5-VL-72B-Instruct; Qwen/Qwen2.5-VL-32B-Instruct; Qwen/Qwen2.5-VL-7B-Instruct; Qwen/Qwen2.5-VL-3B-Instruct

更多模型同步支持中，你可以通过Github Issues向我们提交新模型的支持需求。