分词器的三要素决定论：算法、参数与领域数据（篇二）

#2025/12/28 #ai

如果说上一节是“分词器实战横评”，那么这一节就是“分词器的配置文件说明书”

决定一个分词器最终行为（是怎么切分的），主要取决于三大配置属性。你可以把这看作是你初始化一个分词器对象时，影响其内部逻辑的三个核心变量：

1. 分词算法 (The Algorithm)

这是分词器的“内核引擎”。

这是分词器的“静态配置”。设计模型时必须预先设定好：

词表大小 (Vocabulary Size)：
- 定义：
  - 你的字典里能存多少个独立的 Token？
- 现状：
  - 以前常用 3万或 5万（如 BERT），
  - 现在流行更大的，比如 10万（如 GPT-4）。
  - 词表越大，能覆盖的词越全，切分出的序列就越短。
特殊词元 (Special Tokens)：
- 定义：
  - 也就是保留字或控制符。
- 常见：
  - <s>（开始）、[PAD]（填充）、[MASK]（掩码）、[UNK]（未知）。
- 定制：
  - 如果你要做特定任务，可以往里加自定义的控制符。
  - 比如
    - Galactica 模型加了 <work> 标签来专门标记推理步骤
    - Llama 2 加了 <|user|> 来标记对话角色。
大小写策略 (Casing)：
- 决定是全转小写（uncased），还是保留大写（cased）。
- 这决定了 Apple 和 apple 是同一个 ID 还是两个不同的 ID。

这是分词器的“学习环境”。这点最容易被忽视，但对工程师选型至关重要。

当你选择或训练一个分词器时，实际上是在定义：