引言

在工业时代,电力是基础资源,我们按"度"付费;在信息时代,流量是基础资源,我们按"GB"付费。那么在人工智能时代,什么将成为新的基础计量单位?

答案是:Token

这个词最近频繁出现在AI相关的讨论中,但它到底是什么?为什么有人说它将成为像石油、稀土一样的战略资源?今天,让我们彻底搞懂Token。


Token的三重身份

Token并非新概念,它在不同领域有着截然不同的含义:

应用场景Token的含义核心作用
身份验证访问令牌 (Access Token)代替密码,证明"你是你"
大语言模型文本处理的最小单位AI理解和计费的基础
区块链代币/数字凭证代表数字世界中的所有权

本文重点探讨第二种——大语言模型中的Token,因为这是AI时代最核心的概念。


AI如何"阅读":从文字到Token

当我们与ChatGPT、Claude或DeepSeek对话时,AI并不是直接按我们理解的"字"或"词"来阅读的。计算机无法直接理解人类语言,必须先进行文本拆解

英文的分词

英文相对简单,按空格和标点拆分即可:

"I love AI!" 
↓ 拆分
["I", "love", "AI", "!"]

复杂一点的词会按前后缀拆解:

"unhappily"
↓ 拆分
["un", "happi", "ly"]

中文的分词

中文更复杂,因为句子是连续的。以"我爱人工智能"为例:

可能的拆分方式:

  • [“我”, “爱”, “人”, “工”, “智”, “能”] ❌ 太碎
  • [“我”, “爱”, “人工”, “智能”] ❌ 意思不对
  • [“我”, “爱”, “人工智能”] ✅ 正确

这需要强大的分词算法来找到正确的词边界。


从Token到理解:AI的"大脑"如何工作

分词只是第一步。接下来,AI要经历一个复杂的过程才能真正"理解":

第一步:查字典,得ID

大模型有一个固定的"词表"(Vocabulary),包含3万到10万个Token。每个Token对应一个唯一的数字ID:

Token ID(示例)
1500
3210
物理8890

输入"物理是什么",先被拆成 ["物理", "是", "什么"],再映射为 [8890, 5678, 9012]

第二步:Embedding,赋予"意义"

数字ID只是代号,计算机还不懂含义。通过Embedding层,每个词被转化为数千维的向量,带上语义特征。

想象一张巨大的网:

  • “物理"位于中心
  • “力学”、“量子”、“万有引力"离它很近
  • “苹果”、“跑步"离它很远

这样,AI就能通过"距离"计算词与词之间的关系。

第三步:注意力机制,建立联系

通过注意力机制,AI分析词与词之间的关系:

“物理是什么”

  • “物理"是主语
  • “什么"是宾语
  • “是"将它们联系起来

至此,三个独立的词融合成一个带语境的语义整体,AI才真正"读懂"了这句话。

第四步:预测与生成

理解之后,AI在数学空间中进行复杂运算,预测概率最大的下一个Token。然后将概率向量映射回ID,再转回人类能懂的文字——这就是我们看到的结果。


Token经济学:为什么对话越久越贵

理解了Token的工作原理,就能明白AI的计费方式:

计费示例

输入:“请帮我用猫造句,给出两个猫的句子”

  • 分词:["请", "帮", "我", "用", "猫", "造", "句", ",", "给出", "两个", "猫", "的", "句子"]
  • 13个Token

输出:“我特别喜欢小猫” 和 “小猫真的是一种非常可爱的生物”

  • 第一句:4个Token
  • 连接词:1个Token
  • 第二句:9个Token
  • 14个Token

总计:27个Token

为什么对话越久越贵?

因为缓存也会消耗Token。随着对话变长,上下文越来越多,每次请求都要带上之前的对话历史,导致Token消耗呈线性甚至指数增长。


Token:AI时代的战略资源

文章开头提到:Token已经成为一种新的基础经济要素和战略资源。为什么这么说?

三个层面的证据

个人层面:我们为27个Token付费,买的不是文字,而是"被处理过的智能”。正如我们不再关注发电机如何转动,只关注电费单——未来我们也不会关心模型如何训练,只关心Token账单。

企业层面:所有自动化、客服、内容生成,本质上都在消耗Token。谁的Token成本更低、效率更高,谁就拥有智能生产力的定价权。

国家层面:算力竞争、模型竞争,归根结底是Token生产效率的竞争。拥有更低成本、更高效率的Token生产能力,就掌握了AI时代的基础设施。

一个类比

在物理世界,能量守恒是基本定律;在数字世界,Token是智能守恒的度量。

每一单位Token的背后,本质上都是算力、电力和人类知识密度的总和


结语

Token让"知识"不再只是书本上的文字,而是变成了可以直接参与生产的"语义资产”。这种资产可以被无限复制、瞬间传输、精准调用。

未来社会的所有智力劳动,都会被精准量化为Token进行流转。它已经不是简单的技术名词,而是像石油、稀土一样的战略资源。

理解Token,就是理解AI时代的经济运行方式。


本文基于微信公众号文章《Token是什么》整理撰写,原文作者:小小戒网