Embedding 不是分词器(Tokenizer),但它们经常配合使用。
1. 分词器(Tokenizer)和 Embedding 的区别
概念 | 作用 | 示例 |
---|---|---|
分词器(Tokenizer) | 把文本拆成 单词、子词或字符 | "今天的天气很好" → ["今天", "的", "天气", "很好"] |
Embedding(嵌入模型) | 把文本转换成向量,让计算机能理解 | ["今天", "的", "天气", "很好"] → [[0.1, 0.2, ...], [0.3, 0.4, ...], ...] |
2. 关系:分词器是 Embedding 的前处理步骤
Embedding 需要输入数字化的数据,但文本是字符串,计算机无法直接处理。
所以,分词器先把文本拆开,变成单词或子词,然后 Embedding 把它们转换成向量。
示例:BERT 模型
- 原始文本:
"今天的天气很好"
- 分词器(Tokenizer)拆分:
["今天", "的", "天气", "很", "好"]
- 转换为 ID(词典索引):
[1023, 15, 785, 230, 99]
- Embedding 转换为向量:
[[0.12, 0.98, -0.5, ...], [0.3, 0.1, 0.8, ...], ...]
3. 真实案例:Transformer(BERT / GPT)工作流程
步骤 1:分词器 (Tokenizer)
句子 → 词汇 ID步骤 2:Embedding
词汇 ID → 词向量(高维空间表示)步骤 3:Transformer 计算
输入到 Transformer 模型(BERT、GPT),进行深度学习计算
4. 结论
- 分词器(Tokenizer) = 处理文本,拆成单词或子词
- Embedding = 把单词转换成向量,让计算机能理解
- 分词器 + Embedding 结合,才能让 AI 理解语言