支持模型列表
FastDeploy目前支持模型列表如下,在FastDeploy部署时,指定 model
参数为如下表格中的模型名,即可自动下载模型权重(均支持断点续传),支持如下3种下载源,
使用自动下载时,默认从AIStudio下载,用户可以通过配置环境变量 FD_MODEL_SOURCE
修改默认下载来源,可取值"AISTUDIO","MODELSCOPE"或"HUGGINGFACE";默认下载路径为 ~/
(即用户主目录),用户可以通过配置环境变量 FD_MODEL_CACHE
修改默认下载的路径,例如
export FD_MODEL_SOURCE=AISTUDIO # "AISTUDIO", "MODELSCOPE" or "HUGGINGFACE"
export FD_MODEL_CACHE=/ssd1/download_models
⭐ 说明:带星号的模型可直接使用 HuggingFace Torch 权重,支持 FP8/WINT8/WINT4 动态量化 和 BF16 精度 推理,推理时需启用
--load-choices "default_v1"
。以baidu/ERNIE-4.5-21B-A3B-PT为例启动命令如下
python -m fastdeploy.entrypoints.openai.api_server \
--model baidu/ERNIE-4.5-0.3B-PT \
--port 8180 \
--metrics-port 8181 \
--engine-worker-queue-port 8182 \
--max-model-len 32768 \
--max-num-seqs 32 \
--load-choices "default_v1"
纯文本模型列表
模型 | DataType | 模型案例 |
---|---|---|
⭐ERNIE | BF16\WINT4\WINT8\W4A8C8\WINT2\FP8 | baidu/ERNIE-4.5-VL-424B-A47B-Paddle; baidu/ERNIE-4.5-300B-A47B-Paddle 快速部署 最佳实践; baidu/ERNIE-4.5-300B-A47B-2Bits-Paddle; baidu/ERNIE-4.5-300B-A47B-W4A8C8-TP4-Paddle; baidu/ERNIE-4.5-300B-A47B-FP8-Paddle; baidu/ERNIE-4.5-300B-A47B-Base-Paddle; baidu/ERNIE-4.5-21B-A3B-Paddle; baidu/ERNIE-4.5-21B-A3B-Base-Paddle; baidu/ERNIE-4.5-21B-A3B-Thinking; baidu/ERNIE-4.5-0.3B-Paddle 快速部署 最佳实践; baidu/ERNIE-4.5-0.3B-Base-Paddle, etc. |
⭐QWEN3-MOE | BF16/WINT4/WINT8/FP8 | Qwen/Qwen3-235B-A22B; Qwen/Qwen3-30B-A3B, etc. |
⭐QWEN3 | BF16/WINT8/FP8 | Qwen/qwen3-32B; Qwen/qwen3-14B; Qwen/qwen3-8B; Qwen/qwen3-4B; Qwen/qwen3-1.7B; Qwen/qwen3-0.6B, etc. |
⭐QWEN2.5 | BF16/WINT8/FP8 | Qwen/qwen2.5-72B; Qwen/qwen2.5-32B; Qwen/qwen2.5-14B; Qwen/qwen2.5-7B; Qwen/qwen2.5-3B; Qwen/qwen2.5-1.5B; Qwen/qwen2.5-0.5B, etc. |
⭐QWEN2 | BF16/WINT8/FP8 | Qwen/Qwen/qwen2-72B; Qwen/Qwen/qwen2-7B; Qwen/qwen2-1.5B; Qwen/qwen2-0.5B; Qwen/QwQ-32, etc. |
⭐DEEPSEEK | BF16/WINT4 | unsloth/DeepSeek-V3.1-BF16; unsloth/DeepSeek-V3-0324-BF16; unsloth/DeepSeek-R1-BF16, etc. |
多模态语言模型列表
根据模型不同,支持多种模态(文本、图像等)组合:
模型 | DataType | 模型案例 |
---|---|---|
ERNIE-VL | BF16/WINT4/WINT8 | baidu/ERNIE-4.5-VL-424B-A47B-Paddle 快速部署 最佳实践 ; baidu/ERNIE-4.5-VL-28B-A3B-Paddle 快速部署 最佳实践 ; |
QWEN-VL | BF16/WINT4/FP8 | Qwen/Qwen2.5-VL-72B-Instruct; Qwen/Qwen2.5-VL-32B-Instruct; Qwen/Qwen2.5-VL-7B-Instruct; Qwen/Qwen2.5-VL-3B-Instruct |
更多模型同步支持中,你可以通过Github Issues向我们提交新模型的支持需求。