APIコストの最適化 / API Cost Optimization
- 日本語
- English
- 简体中文
💸 LLM破産を防ぐ「モデル階層化戦略」
AIに自律性を与え、一日に何十回もコードやテキストを生成させると、API利用料金(プロンプトや出力ごとの課金)が想像以上に膨れ上がることがあります。「気がついたら月に数万円の請求が…」といった事態を避けるためには、賢いモデルの使い分けが不可欠です。
📊 レイヤー分けという解決策
OpenClawでは、タスクの難易度に応じて、安価(または無料)のモデルと、高額で賢いモデルを「切り替えて運用」することを強く推奨します。
graph TD;
A[毎分の監視 / 簡単な要約 / メールの分類] -- "無料/最安 (Tier 1)" --> B(Cerebras Llama3 / Ollama ローカルモデル);
C[複雑なコードの生成 / 高度な論理推論] -- "高品質/有料 (Tier 2)" --> D(Gemini 1.5 Pro / GPT-4o / Claude 3.5 Sonnet);
B -. "手に負えない場合のみパス" .-> D;
第1層: 無料・ローカルモデル(普段づかい用)
- 定期的なRSSの要約、死活監視、スケジュールのリマインドなど、**「何度も実行されるが単純なタスク」**は、ここでの処理を徹底します。
- 例: 驚異的な処理速度と広大な無料枠を持つ
cerebras/llama3.1-8b、またはオフラインで完全無料稼働するollama (Gemma / Llama)などのローカルモデル。
第2層: 高額・推論モデル(奥の手)
- プロジェクトの根幹に関わるコーディング、繊細な文章の執筆、難解なエラーの解決などで人間が特別に指示を出したときのみ使用します。
- 例:
gemini-3-flash,gpt-4o,claude-3-5-sonnet
💡 運用のアドバイス
デフォルト起動時のモデルは常に「無料・最安モデル」にしておき、AIに対するメッセージの中で、「このプログラムの開発はかなり複雑なので、Gemini 1.5 Proに一度切り替えてからコードを書いてね」と指示を出す運用がもっとも安全です。
💸 The "Model Tiering Strategy" to Prevent LLM Bankruptcy
When you grant autonomy to an AI and let it generate code or text dozens of times a day, API usage fees (charged per-token) can balloon faster than you'd imagine. To avoid a scenario where you suddenly face a huge monthly bill, intelligently switching between models is absolutely essential.
📊 The Solution: Strict Tiering
In OpenClaw, we strongly recommend a deployment strategy where you default to cheap (or free) models for operational tasks, and switch to expensive, highly capable models only for difficult tasks.
graph TD;
A[Per-minute Monitor / Easy Summaries / Mail Sorting] -- "Free/Cheapest (Tier 1)" --> B(Cerebras Llama3 / Ollama Local Model);
C[Complex Code Generation / Deep Reasoning] -- "Premium/Paid (Tier 2)" --> D(Gemini 1.5 Pro / GPT-4o / Claude 3.5 Sonnet);
B -. "Escalation when incapable" .-> D;
Tier 1: Free / Local Models (For Daily Grinds)
- Use these for "frequently executed but simple tasks" like polling RSS feeds, checking server uptime, and parsing emails.
- Example:
cerebras/llama3.1-8b(which has staggering inference speed and a vast free tier) or local models viaollama (Gemma / Llama)operating offline for absolutely zero cost.
Tier 2: Premium Reasoner Models (The Trump Card)
- Rely on these models ONLY when explicitly instructed for core project coding, nuanced creative writing, or solving extremely cryptic framework errors.
- Example:
gemini-3-flash,gpt-4o,claude-3-5-sonnet
💡 Ops Advice
Keep your default agent startup model assigned to the "Free/Cheapest" tier. The safest operation style is to naturally instruct the AI in your prompt like, "This programming feature is quite complex, so please switch your model to Gemini 1.5 Pro before attempting to write the code."
💸 防止跌破预算的“模型分层级战略”
一旦您赋予了 AI 高度的自主权,让它一天到晚几十次地自发产生代码或查阅资料,API 的使用费(按每次 Token 计费)就有可能远远超乎您的想象。为了避免“一眨眼收到数百美元账单”的噩梦,聪明地分开使用不同的模型可以说是生存必修课。
📊 解决方案:构建模型的阶梯
在 OpenClaw 中,我们强烈建议您:根据任务的难度,熟练地在“低价(或完全免费)模型”与“昂贵而聪敏的高级模型”之间随时切换。
graph TD;
A[每分钟监控 / 简单摘要汇总 / 邮件筛选] -- "免费/最实惠 (第1层)" --> B(Cerebras Llama3 / Ollama 本地模型);
C[复杂代码骨架生成 / 高阶逻辑推理] -- "高质量/付费 (第2层)" --> D(Gemini 1.5 Pro / GPT-4o / Claude 3.5 Sonnet);
B -. "仅在超出能力范围时上报请求" .-> D;
第 1 层:免费/本地私有模型(日常打杂专用)
- 所有的**“高频触发但逻辑简单的任务”**都应牢牢封死在这一层处理。例如定期的 RSS 网罗和总结、简单的拼写检查、时间提醒等。
- 推荐方案:拥有闪电般推理速度且免费额度夸张的
cerebras/llama3.1-8b,或者直接利用您的显卡离线、免费跑起来的本地模型ollama (Gemma / Llama)。
第 2 层:高昂费用的推理模型(终极武器)
- 这类终局武器,只有当人类特别下达指令时才可动用。专攻触及项目核心架构的编程、撰写情感细腻的长文,或排查非常棘手的代码报错。
- 包含:
gemini-3-flash,gpt-4o,claude-3-5-sonnet
💡 运营秘诀
让 AI 日常默认苏醒时都背负着“最低成本配置”,这是最保险的底牌。而在您交付重任时,可以通过对话很自然地提醒它:“接下来的这段功能开发非常复杂,我允许你!在写代码前先将模型切换为 Gemini 1.5 Pro 以确保质量。” 这就是最佳的实战经验。