Skip to content

成本优化

合理优化 Token 使用可以显著降低使用成本,同时保持高质量的输出。本指南提供了实用的成本优化策略。

  • Token 是文本处理的基本单位,可以是单词、字符或子词
  • 中文通常 1-2 个汉字对应 1 个 Token
  • 英文通常 1 个单词对应 1-1.5 个 Token
  • 输入 Token:您发送给 Agent 的提示词
  • 输出 Token:Agent 生成的回复
  • 总成本 = 输入 Token 数 × 输入单价 + 输出 Token 数 × 输出单价
优化前优化后节省
冗长的背景描述直接说明核心需求30-50%
重复的示例一个清晰的示例20-40%
不必要的礼貌用语简洁的专业表达10-20%

示例

❌ "你好,我想请你帮我一个忙,不知道你方不方便...
(100+ tokens 的铺垫)
其实我是想让你帮我写个 Python 函数"
✅ "编写 Python 函数:读取 CSV 并返回 DataFrame"
  • 对于大段文本、代码或数据,保存为文件并让 Agent 读取
  • 避免在对话中重复粘贴相同内容
❌ 每次对话都粘贴 500 行代码
✅ "请读取 /path/to/code.py 并进行分析"
  • 将大任务分解为多个小任务
  • 避免在单个提示中塞入过多信息
❌ "分析这份 10MB 的日志文件,提取所有错误,
分类统计,生成图表,并给出优化建议"
✅ 分步骤:
1. "分析日志文件,提取错误类型"
2. "基于上一步结果,统计各类错误数量"
3. "生成可视化图表"
4. "给出优化建议"

明确指定输出长度,避免不必要的冗长回复:

✅ "简要说明(100字以内)"
✅ "提供核心要点,不需要详细解释"
✅ "只返回代码,不需要注释"

要求特定格式,减少无关内容:

✅ "以 JSON 格式返回:{\"result\": ..., \"confidence\": ...}"
✅ "使用表格对比,不要额外说明"

先获取概要,再按需深入:

步骤 1: "总结这份文档的核心观点"
步骤 2: "详细解释第三点"
  • 当上下文变得冗长时,开启新会话
  • 在新会话中简要总结之前的关键信息
"基于之前的讨论(实现了用户认证模块),
现在需要添加密码重置功能..."
  • 不要在每个消息中重复完整的背景信息
  • 利用 Agent 的上下文记忆能力
  • 在支持的平台上,使用系统提示设置全局上下文
  • 避免在每个用户消息中重复相同指令
  • 简单任务使用轻量级模型
  • 复杂任务才使用高级模型
  • 根据任务类型选择专用模型
  • 对于重复查询,缓存结果避免重复调用
  • 使用本地文件存储中间结果
  • 将多个相似请求合并为一次调用
  • 使用批处理 API(如果支持)
❌ "请审查这段代码的所有方面"
✅ "请重点检查这段代码的性能瓶颈,
特别是循环中的数据库查询"
❌ "写个完整的 Web 应用"
✅ "生成用户登录模块的核心逻辑,
其他部分我会自己实现"
  • 在详细实现前,先用伪代码确认逻辑
  • 减少因方向错误导致的重复工作
  • 提取关键部分,而非发送完整文档
  • 使用摘要工具先压缩内容
❌ "总结这本 300 页的技术书籍"
1. "总结第 1-3 章关于架构设计的内容"
2. "总结第 4-6 章关于性能优化的内容"
3. "基于以上摘要,给出整体评价"
  • 提供文档结构信息,帮助 Agent 定位
  • 避免发送完整目录
✅ "文档共 5 章,重点关注第 3 章'数据库优化'"
  • 记录典型任务的 Token 消耗
  • 识别高消耗的交互模式
  • 为常见任务建立 Token 使用基准
  • 定期审查优化效果
示例计算:
- 平均每次对话:2K 输入 + 1K 输出 = 3K tokens
- 每日 20 次对话:60K tokens/天
- 每月:1.8M tokens
- 按 $0.01/1K tokens 计算:$18/月
优化前:
"我的程序出错了,这是全部代码 [500 行],
还有错误日志 [200 行],请帮我找出问题"
优化后:
"程序报错:[错误信息]
相关代码片段:[10-20 行关键代码]
已尝试:[简述已尝试的解决方案]
请分析可能的原因"
优化前:
"教我 Python"
优化后:
"我有 Java 基础,想学 Python。
请对比两者的语法差异,
重点说明 Python 特有的特性"
优化前:
"写一份完整的产品文档"
优化后:
"基于以下要点生成 API 文档:
- 功能:用户认证
- 端点:/api/v1/auth
- 方法:POST
- 参数:username, password
格式参照 OpenAPI 规范"
  • 提示词简洁明了,去除冗余
  • 大文件使用引用而非粘贴
  • 明确指定输出长度和格式
  • 复杂任务分步骤处理
  • 及时开启新会话,避免上下文膨胀
  • 根据任务复杂度选择合适的模型
  • 缓存重复查询的结果
  • 定期审查和优化高频交互模式

💡 提示:成本优化不应以牺牲质量为代价。在追求效率的同时,确保输出仍能满足您的需求。