Tokenizer(分词器)的作用是将文本拆分成模型可处理的单元(Token)。拆解的结果被称为“词表”,如下所示:

n:100, e:101, w:102, er:103

可以看到基本上编码没有任何规律,就是单纯的递增的自然数。是经过 embedding 过程在有了意义。