Embedding和分词器

半兽人 发表于: 2025-03-25   最后更新时间: 2025-03-25 19:14:33  
{{totalSubscript}} 订阅, 26 游览

Embedding 不是分词器(Tokenizer),但它们经常配合使用。

1. 分词器(Tokenizer)和 Embedding 的区别

概念 作用 示例
分词器(Tokenizer) 把文本拆成 单词、子词或字符 "今天的天气很好"["今天", "的", "天气", "很好"]
Embedding(嵌入模型) 文本转换成向量,让计算机能理解 ["今天", "的", "天气", "很好"][[0.1, 0.2, ...], [0.3, 0.4, ...], ...]

2. 关系:分词器是 Embedding 的前处理步骤

Embedding 需要输入数字化的数据,但文本是字符串,计算机无法直接处理。
所以,分词器先把文本拆开,变成单词或子词,然后 Embedding 把它们转换成向量。

示例:BERT 模型

  1. 原始文本
    "今天的天气很好"
    
  2. 分词器(Tokenizer)拆分
    ["今天", "的", "天气", "很", "好"]
    
  3. 转换为 ID(词典索引):
    [1023, 15, 785, 230, 99]
    
  4. Embedding 转换为向量
    [[0.12, 0.98, -0.5, ...], [0.3, 0.1, 0.8, ...], ...]
    

3. 真实案例:Transformer(BERT / GPT)工作流程

  • 步骤 1:分词器 (Tokenizer)
    句子 → 词汇 ID

  • 步骤 2:Embedding
    词汇 ID → 词向量(高维空间表示)

  • 步骤 3:Transformer 计算
    输入到 Transformer 模型(BERT、GPT),进行深度学习计算


4. 结论

  • 分词器(Tokenizer) = 处理文本,拆成单词或子词
  • Embedding = 把单词转换成向量,让计算机能理解
  • 分词器 + Embedding 结合,才能让 AI 理解语言
更新于 2025-03-25
在线,2小时前登录

查看LLM更多相关的文章或提一个关于LLM的问题,也可以与我们一起分享文章