什么是 Token？

本文适合

想了解 AI 计费原理的用户。Token 是 AI 模型计费的基本单位。

Token 简单理解

Token 是 AI 模型处理文本的最小单位，可以理解为"文字碎片"。

它不是一个字 = 一个 Token
它不是一个词 = 一个 Token
它是 AI 模型自己切分文本的方式

中英文 Token 对比

英文

英文的 Token 切分比较直观：

"Hello world" → ["Hello", " world"] → 2 个 Token
"I love AI"   → ["I", " love", " AI"] → 3 个 Token

大约 1 个英文单词 ≈ 1-2 个 Token

中文

中文的 Token 切分比较复杂：

"你好"     → 约 2 个 Token
"人工智能" → 约 2-4 个 Token
"我爱中国" → 约 3-4 个 Token

大约 1 个中文字 ≈ 1-2 个 Token

估算技巧

中文：字数 × 1.5 ≈ Token 数
英文：单词数 × 1.3 ≈ Token 数

为什么用 Token 计费？

AI 模型处理文本时，实际上是在处理 Token：

你的问题 → 转换成 Token → AI 处理 → 生成 Token → 转换成回答

所以按 Token 计费是最公平的方式——你用多少，付多少。

输入 Token vs 输出 Token

每次 AI 对话都有两部分 Token：

类型	说明	示例
输入 Token	你发给 AI 的内容	"帮我写一首关于春天的诗"
输出 Token	AI 返回给你的内容	AI 生成的那首诗

总消耗 = 输入 Token + 输出 Token

示例

你：帮我写一首关于春天的诗（约 15 个 Token）

AI：春风拂面暖阳照，
    柳絮飘飘燕归巢。
    花开满园香四溢，
    万物复苏乐逍遥。
    （约 50 个 Token）

总消耗：15 + 50 = 65 个 Token

51API 的计费公式

费用 = (输入Token + 输出Token × CompletionRatio) × ModelRatio × 分组倍率

各部分解释

名词	含义	示例
ModelRatio	输入 Token 的基础单价倍率	GPT-4o 是 1.25x，GPT-5 是 0.625x
CompletionRatio	输出 Token 相对输入 Token 的倍率	GPT-4o 是 4x，GPT-5 是 8x
分组倍率	令牌分组的整体倍率	gpt 分组 1x，claude 分组 1.2x

计算示例

假设你用 gpt 分组（1x）调用 gpt-4o（ModelRatio = 1.25，CompletionRatio = 4）：

输入：100 Token
输出：200 Token

费用 = (100 + 200 × 4) × 1.25 × 1 = 1125 单位

如果用 gpt-5-thinking（ModelRatio = 0.625，CompletionRatio = 8）：

费用 = (100 + 200 × 8) × 0.625 × 1 = 1062.5 单位

注意

不要只看 CompletionRatio。像 gpt-5-thinking 虽然输出倍率更高，但 ModelRatio 更低，最终费用不一定比 gpt-4o 更高。

如何省 Token？

1. 选择合适的模型

场景	推荐模型	原因
高频低成本	`grok-420-fast`	综合输入 0.1x，综合输出 0.25x
日常聊天	`gemini-2.5-flash`	综合输入 0.21x，综合输出 1.75x
OpenAI 通用	`gpt-5`	综合输入 0.625x，综合输出 5x

2. 精简你的提问

❌ 不好的提问（消耗多）：
"你好，我想请问一下，能不能帮我写一首诗，主题是关于春天的，
要有花有草有阳光，最好是五言绝句的形式，谢谢！"

✅ 好的提问（消耗少）：
"写一首关于春天的五言绝句"

3. 控制输出长度

在请求中设置 max_tokens 参数：

python

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "写一首诗"}],
    max_tokens=100  # 限制输出最多 100 个 Token
)

如何查看 Token 消耗？

方法 1：查看 API 响应

每次 API 调用的响应中都包含 Token 使用情况：

json

{
  "usage": {
    "prompt_tokens": 15,      // 输入 Token
    "completion_tokens": 50,  // 输出 Token
    "total_tokens": 65        // 总计
  }
}

方法 2：查看控制台日志

登录 51API 控制台
点击左侧「日志」菜单
查看每笔请求的详细消耗

常见问题

Q: 1 元能用多少 Token？

取决于你使用的模型。以 gemini-2.5-flash（ModelRatio = 0.15，CompletionRatio = 8.3333333333）为例：

大约可以进行 几十到上百轮 日常对话

Q: 为什么同样的问题，不同模型消耗不同？

因为不同模型的倍率不同：

grok-420-fast：综合输入 0.1x，综合输出 0.25x（很便宜）
gemini-2.5-flash：综合输入 0.21x，综合输出 1.75x（便宜）
gpt-4o：综合输入 1.25x，综合输出 5x（标准）
gpt-5-thinking：ModelRatio = 0.625，CompletionRatio = 8，综合输出也是 5x

Q: 图片分析消耗多少 Token？

图片会被转换成 Token 计算，一张图片大约消耗 几百到几千 Token，取决于图片大小和细节程度。

什么是 Token？ ​

Token 简单理解 ​

中英文 Token 对比 ​

英文 ​

中文 ​

为什么用 Token 计费？ ​

输入 Token vs 输出 Token ​

示例 ​

51API 的计费公式 ​

各部分解释 ​

计算示例 ​

如何省 Token？ ​

1. 选择合适的模型 ​

2. 精简你的提问 ​

3. 控制输出长度 ​

如何查看 Token 消耗？ ​

方法 1：查看 API 响应 ​

方法 2：查看控制台日志 ​

常见问题 ​

Q: 1 元能用多少 Token？ ​

Q: 为什么同样的问题，不同模型消耗不同？ ​

Q: 图片分析消耗多少 Token？ ​

下一步 ​