Thy's Roam

❯

Tokenizer

Sep 08, 20251 min read

Tokenizer（分词器）的作用是将文本拆分成模型可处理的单元（Token）。拆解的结果被称为“词表”，如下所示：

n:100, e:101, w:102, er:103

可以看到基本上编码没有任何规律，就是单纯的递增的自然数。是经过 embedding 过程在有了意义。

Graph View

Backlinks

LLM

Created by Thysrael © 2026

GitHub
Email