跳转至

tokenizer

说明

Tokenizer 子命令提供文本与 token 序列之间的编码与解码功能,并可查看或导出模型的词表信息。支持文本模型与多模态模型。

用法

fastdeploy tokenizer --model MODEL (--encode TEXT | --decode TOKENS | --vocab-size | --info)

参数

参数 说明 默认值
--model, -m 模型路径或名称 None
--encode, -e 将文本编码为 token 列表 None
--decode, -d 将 token 列表解码为文本 None
--vocab-size, -vs 查看词表大小 None
--info, -i 查看 tokenizer 详细信息(特殊符号、ID、最大长度等) None
--vocab-export FILE, -ve FILE 导出词表到文件 None

示例

# 1. 编码文本为 tokens
# 将输入文本转换为模型可识别的 token 序列
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --encode "Hello, world!"

# 2. 解码 tokens 为文本
# 将 token 序列转换回可读文本
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --decode "[1, 2, 3]"

# 3. 查看词表大小
# 输出模型 tokenizer 的总词表数量
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --vocab-size

# 4. 查看 tokenizer 详细信息
# 包括特殊符号、ID 映射、最大长度等信息
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --info

# 5. 导出词表到文件
# 将 tokenizer 的词表保存到本地文件
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --vocab-export ./vocab.txt

# 6. 支持多模模型
# 对多模态模型进行解码
fastdeploy tokenizer --model baidu/EB-VL-Lite-d --decode "[5300, 96382]"

# 7. 多功能组合使用
# 可以同时进行编码、解码、查看词表、导出词表等操作
fastdeploy tokenizer \
    -m baidu/ERNIE-4.5-0.3B-PT \
    -e "你好哇" \
    -d "[5300, 96382]" \
    -i \
    -vs \
    -ve vocab.json