编辑:好困 桃子【新智元导读】全球智能手机迈入AI决战期!在此节点,一个全新自进化AI系统——MagicOS 10破局而出,会思考、会协作,真正懂你所...
2025-10-21 0
原文 | How LLMs See the World
编译 | 段小草 + Gemini 2.5 Pro
对于 LLM 来说,Token 是模型处理文本的基本单位。当你在 ChatGPT 中输入「Hello world!」时,它看到的不是两个单词和一个标点符号,而是可能四个独立的 Token:['Hello', ' world', '!', '\n']。
Token 主宰着 LLM 的世界。你向模型发送 Token,按 Token 支付费用,模型读取、理解和操作的都是 Token。
Token 是 LLM 处理文本的基本单位。
不过,Token 并不总是等同于单词。根据所使用的分词方法,一个 Token 可以代表:
例如,句子「I love machine learning!」可能会被分词为 ["I", "love", "machine", "learning", "!"],或者根据分词方法的不同,也可能被分词为 ["I", " love", " machine", " learn", "ing", "!"]。
分词之所以非常重要,有以下几个原因:
文本被分词后,还有一个步骤将这些符号化的 Token 转换为神经网络能够实际处理的东西:数值表示。词汇表中的每个 Token 都被分配一个唯一的整数 ID(称为 Token ID)。例如:
「Hello」→ Token ID 15496
「 world」→ Token ID 995
然后,这些 Token ID 通过一个嵌入层 (embedding layer) 被转换成高维数值向量,称为嵌入 (embeddings)。每个 Token ID 映射到一个由实数组成的密集向量(通常是 512、1024 或更多维度)。例如,Token「Hello」可能会变成一个像 [0.23, -0.45, 0.78, ...] 这样的向量。
这种数值转换是必要的,因为神经网络只能对数字执行数学运算,而不能对文本符号进行运算。嵌入向量捕捉了 Token 之间的语义关系,相似的 Token 在这个高维空间中具有相似的向量表示。这就是模型「理解」 「king」和「queen」相关,或者「run」和「running」共享意义的方式。
BPE 是现代 LLM 中使用最广泛的分词方法之一,被 GPT-2、GPT-3 和 GPT-4 等模型所采用。
工作原理:
BPE 创建了一个灵活的子词词汇表,能够高效地表示常用词,同时也能分解稀有词。这有助于模型处理拼写错误、复合词和未知术语,而无需诉诸于一个「未知 Token」。
一个关键的变体是 byte-level BPE,它直接处理 UTF-8 字节而不是 Unicode 字符。这确保了任何可能的字符都能被表示(即使是那些在训练期间未见过的字符),从而避免了「未知 Token」问题。
WordPiece 由 Google 推出,用于 BERT、DistilBERT 和 Electra 等模型。
工作原理:
例如,在 WordPiece 中,「unhappy」可能会被分词为 ["un", "##happy"]。
SentencePiece 是 Google 开发的一种分词器,它直接对原始文本进行操作,无需特定语言的预分词。它被用于 T5、XLNet 和 ALBERT 等模型。
工作原理:
例如,短语「Hello world」可能会被分词为 ["▁Hello", "▁world"],其中 ▁ 表示一个单词边界。
Unigram 通常与 SentencePiece 一起使用,它采用一种概率性的方法,而不是基于合并的方法。
工作原理:
与通过合并来构建词汇表的 BPE 或 WordPiece 不同,Unigram 的工作方式更像雕刻,从一个大的整体开始,然后进行修剪。这使得它能保留更广泛的分词选项,并在推理时具有更大的灵活性。
LLM 有一个有限的「上下文窗口 (context window)」,这是它们一次可以处理的最大 Token 数量。这个限制直接影响:
像 GPT-2 这样的早期模型被限制在约 1,024 个 Token。GPT-3 将其增加到 2,048。如今,前沿模型的限制达到了 100 万以上,例如 Gemini 2.5 Pro。
理解 Token 计数对于以下方面很重要:
对于英文文本,一个粗略的估算(这会有变化!):
分词可能导致一些意想不到的行为:
大语言模型中的许多挑战和怪癖并非源于模型本身,而是源于文本的分词方式。以下是分词如何影响不同性能领域:
大语言模型常常在看似简单的数值比较上失败,比如「3.11 和 3.9 哪个更大?」。分词为了解数字在底层是如何被处理的提供了线索。
让我们看看这两个数字:3.11 和 3.9。当被分词时,它们被分解成独立的组件。为简单起见,假设「3.11」被分成诸如「3」、「.」和「11」之类的 Token,而「3.9」则被分成「3」、「.」和「9」。对于语言模型来说,这些不是数值,而是符号片段。模型不是将 3.11 与 3.9 作为浮点数值进行比较。它是在根据这些 Token 在其训练数据中出现的统计可能性进行模式匹配,以预测接下来应该出现什么文本。
如今的模型有多种方式可以正确回答这些问题:
分词是 LLM 在将文本转换为数字之前,将其分解为可处理单元的方式。像「Hello world!」这样的文本会变成 ['Hello', ' world', '!'] 这样的 Token,然后被转换为神经网络可以理解的数值向量。常见的方法包括 BPE(被 GPT 模型使用)、WordPiece(BERT)和 SentencePiece(T5)。
分词直接影响成本(你按 Token 付费)、上下文限制(模型只能处理这么多 Token)和性能表现。它解释了为什么 LLM 不擅长数学运算(数字被拆分)、为什么非英语文本效率较低(需要更多 Token),以及为什么模型在「3.11 vs 3.9」的比较中失败(它们看到的是零散的符号,而不是数字)。
理解分词机制能帮助你编写更好的提示词、估算 API 成本、排查问题,并理解现代 AI 的能力和根本局限。它让你更深入地洞察现代 AI 的能力与局限,因为这是 LLM 认识世界上一切事物的核心视角。
相关文章
编辑:好困 桃子【新智元导读】全球智能手机迈入AI决战期!在此节点,一个全新自进化AI系统——MagicOS 10破局而出,会思考、会协作,真正懂你所...
2025-10-21 0
最近遇到一个问题,书房电脑连WiFi玩游戏延迟太高了,原因是:客厅到弱电箱只预埋了一根网线,主路由放在客厅,其他房间的网线汇聚在弱电箱,有线网口不能使...
2025-10-21 0
一次降价,大疆没有讨得消费者的欢心。近日,淘宝、京东等平台的大疆官方店铺预告了多款产品即将于10月9日开始降价的消息,涉及户外电源、云台相机、运动相机...
2025-10-21 0
原文 | How LLMs See the World 编译 | 段小草 + Gemini 2.5 Pro对于 LLM 来说,Token 是模型处理文...
2025-10-21 0
【10月20日,上大股份披露核工程及聚变实验堆产品进展】10月20日,上大股份在互动平台透露,在核工程领域,公司已研制并交付多型高端产品,如核工程用超...
2025-10-21 0
在数字化浪潮席卷而来的时代,数据已成为驱动人工智能发展的核心生产要素,而数据标注则是人工智能算法得以有效运行的关键环节。景联文科技作为国内领先的 AI...
2025-10-21 0
央视:韵达快递“飞”入乡村!###近日,央视《奋进的中国 我们的“十四五”》专题节目将镜头对准了快递行业的科技创新实践——韵达快递的无人机送货项目,揭...
2025-10-21 0
南水北调工程的调水和密云水库泄流,看似都与 “水” 相关,实则解决的是完全不同的问题。两者在时间上不重合,管理运行上也不冲突,更不存在浪费水的情况。南...
2025-10-21 0
发表评论