什么是 Token?
本文适合
想了解 AI 计费原理的用户。Token 是 AI 模型计费的基本单位。
Token 简单理解
Token 是 AI 模型处理文本的最小单位,可以理解为"文字碎片"。
- 它不是一个字 = 一个 Token
- 它不是一个词 = 一个 Token
- 它是 AI 模型自己切分文本的方式
中英文 Token 对比
英文
英文的 Token 切分比较直观:
"Hello world" → ["Hello", " world"] → 2 个 Token
"I love AI" → ["I", " love", " AI"] → 3 个 Token1
2
2
大约 1 个英文单词 ≈ 1-2 个 Token
中文
中文的 Token 切分比较复杂:
"你好" → 约 2 个 Token
"人工智能" → 约 2-4 个 Token
"我爱中国" → 约 3-4 个 Token1
2
3
2
3
大约 1 个中文字 ≈ 1-2 个 Token
估算技巧
- 中文:字数 × 1.5 ≈ Token 数
- 英文:单词数 × 1.3 ≈ Token 数
为什么用 Token 计费?
AI 模型处理文本时,实际上是在处理 Token:
你的问题 → 转换成 Token → AI 处理 → 生成 Token → 转换成回答1
所以按 Token 计费是最公平的方式——你用多少,付多少。
输入 Token vs 输出 Token
每次 AI 对话都有两部分 Token:
| 类型 | 说明 | 示例 |
|---|---|---|
| 输入 Token | 你发给 AI 的内容 | "帮我写一首关于春天的诗" |
| 输出 Token | AI 返回给你的内容 | AI 生成的那首诗 |
总消耗 = 输入 Token + 输出 Token
示例
你:帮我写一首关于春天的诗(约 15 个 Token)
AI:春风拂面暖阳照,
柳絮飘飘燕归巢。
花开满园香四溢,
万物复苏乐逍遥。
(约 50 个 Token)
总消耗:15 + 50 = 65 个 Token1
2
3
4
5
6
7
8
9
2
3
4
5
6
7
8
9
51API 的计费公式
费用 = (输入Token × 模型倍率 + 输出Token × 补全倍率) × 分组倍率1
各部分解释
| 名词 | 含义 | 示例 |
|---|---|---|
| 模型倍率 | 不同模型的基础价格 | GPT-4o 是 1x,GPT-5 是 1.5x |
| 补全倍率 | 输出 Token 的额外倍率 | 大部分模型是 1x,Thinking 模型更高 |
| 分组倍率 | 令牌分组的整体倍率 | gpt 分组 1x,claude 分组 1.2x |
计算示例
假设你用 gpt 分组(1x)调用 gpt-4o(模型 1x,补全 1x):
- 输入:100 Token
- 输出:200 Token
费用 = (100 × 1 + 200 × 1) × 1 = 300 单位1
如果用 gpt-5-thinking(模型 2.5x,补全 6x):
费用 = (100 × 2.5 + 200 × 6) × 1 = 250 + 1200 = 1450 单位1
注意
Thinking 类模型的输出 Token 消耗较高,因为它们会"思考"更多内容。
如何省 Token?
1. 选择合适的模型
| 场景 | 推荐模型 | 原因 |
|---|---|---|
| 日常聊天 | gemini-2.5-flash | 0.4x 倍率,超便宜 |
| 简单问答 | claude-haiku-4-5 | 0.5x 倍率,速度快 |
| 复杂任务 | gpt-4o | 1x 倍率,性价比高 |
2. 精简你的提问
❌ 不好的提问(消耗多):
"你好,我想请问一下,能不能帮我写一首诗,主题是关于春天的,
要有花有草有阳光,最好是五言绝句的形式,谢谢!"
✅ 好的提问(消耗少):
"写一首关于春天的五言绝句"1
2
3
4
5
6
2
3
4
5
6
3. 控制输出长度
在请求中设置 max_tokens 参数:
python
response = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user", "content": "写一首诗"}],
max_tokens=100 # 限制输出最多 100 个 Token
)1
2
3
4
5
2
3
4
5
如何查看 Token 消耗?
方法 1:查看 API 响应
每次 API 调用的响应中都包含 Token 使用情况:
json
{
"usage": {
"prompt_tokens": 15, // 输入 Token
"completion_tokens": 50, // 输出 Token
"total_tokens": 65 // 总计
}
}1
2
3
4
5
6
7
2
3
4
5
6
7
方法 2:查看控制台日志
- 登录 51API 控制台
- 点击左侧「日志」菜单
- 查看每笔请求的详细消耗
常见问题
Q: 1 元能用多少 Token?
取决于你使用的模型。以 gemini-2.5-flash(0.4x)为例:
- 大约可以进行 几十到上百轮 日常对话
Q: 为什么同样的问题,不同模型消耗不同?
因为不同模型的倍率不同:
gemini-2.5-flash:0.4x(便宜)gpt-4o:1x(标准)gpt-5-thinking:2.5x 输入 + 6x 输出(贵)
Q: 图片分析消耗多少 Token?
图片会被转换成 Token 计算,一张图片大约消耗 几百到几千 Token,取决于图片大小和细节程度。
