FastDeploy

FastDeploy 是基于飞桨（PaddlePaddle）的大语言模型（LLM）与视觉语言模型（VLM）推理部署工具包，提供开箱即用的生产级部署方案，核心技术特性包括：

支持模型

Model	Data Type	PD Disaggregation	Chunked Prefill	Prefix Caching	MTP	CUDA Graph	Maximum Context Length
ERNIE-4.5-300B-A47B	BF16\WINT4\WINT8\W4A8C8\WINT2\FP8	✅	✅	✅	✅	✅	128K
ERNIE-4.5-300B-A47B-Base	BF16/WINT4/WINT8	✅	✅	✅	⛔	✅	128K
ERNIE-4.5-VL-424B-A47B	BF16/WINT4/WINT8	🚧	✅	🚧	⛔	🚧	128K
ERNIE-4.5-VL-28B-A3B	BF16/WINT4/WINT8	⛔	✅	🚧	⛔	🚧	128K
ERNIE-4.5-21B-A3B	BF16/WINT4/WINT8/FP8	⛔	✅	✅	✅	✅	128K
ERNIE-4.5-21B-A3B-Thinking	BF16/WINT4/WINT8/FP8	⛔	✅	✅	✅	✅	128K
ERNIE-4.5-21B-A3B-Base	BF16/WINT4/WINT8/FP8	⛔	✅	✅	⛔	✅	128K
ERNIE-4.5-0.3B	BF16/WINT8/FP8	⛔	✅	✅	⛔	✅	128K
QWEN3-MOE	BF16/WINT4/WINT8/FP8	⛔	✅	✅	🚧	✅	128K
QWEN3	BF16/WINT8/FP8	⛔	✅	✅	🚧	✅	128K
QWEN-VL	BF16/WINT8/FP8	⛔	✅	✅	🚧	⛔	128K
QWEN2	BF16/WINT8/FP8	⛔	✅	✅	🚧	✅	128K
DEEPSEEK-V3	BF16/WINT4	⛔	✅	🚧	🚧	✅	128K
DEEPSEEK-R1	BF16/WINT4	⛔	✅	🚧	🚧	✅	128K

✅ 已支持 🚧 适配中 ⛔ 暂无计划

模型	英伟达GPU	昆仑芯P800	昇腾910B	海光K100-AI	天数天垓150	沐曦曦云C550	燧原S60/L600
ERNIE4.5-VL-424B-A47B	✅	🚧	🚧	⛔	⛔	⛔	⛔
ERNIE4.5-300B-A47B	✅	✅	🚧	✅	✅	✅	✅
ERNIE4.5-VL-28B-A3B	✅	🚧	🚧	⛔	🚧	🚧	⛔
ERNIE4.5-21B-A3B	✅	✅	🚧	✅	✅	✅	✅
ERNIE4.5-0.3B	✅	✅	🚧	✅	✅	✅	✅

✅ 已支持 🚧 适配中 ⛔ 暂无计划

本项目文档基于mkdocs支持编译可视化查看，参考如下命令进行编译预览，

pip install requirements.txt

cd FastDeploy
mkdocs build

mkdocs serve

根据提示打开相应地址即可。