LLMアプリケーションを運用する上で最大のコストのブラックホールは、出力トークンではありません。繰り返し再送信されるシステムプロンプトや長大なドキュメントです。OpenAIとAnthropicはこれに対する回答として「プロンプトキャッシュ(Prompt Caching)」を提示しましたが、両社の課金哲学は全く異なります。OpenAIは「設定不要・緩やかな割引」路線、Claudeは「明示的宣言・極限の割引」路線をとっています。
本記事では、2026年5月時点の最新公式ドキュメントと開発者による実測データに基づき、最低プロンプト長、プロンプト構造の要件、書き込み時の追加料金、読み取り時の割引率、TTL制御、キャッシュ粒度という6つの観点から、OpenAIとClaudeのキャッシュ課金ルールを体系的に比較します。また、10万トークンの実運用シナリオを用いて、両社のプランで実際にどれほどのコスト削減が可能かを算出します。
核心的な価値: 本記事を読めば、自身のビジネスでどちらのキャッシュ戦略を採用すべきか、どれだけコストを削減できるか、どのようなエンジニアリング上の改修が必要かが即座に判断できるようになります。

OpenAI と Claude のキャッシュ課金 5大核心的差異まとめ
両社のキャッシュ戦略は一見するとどちらも「キャッシュ読み取りで割引」というものですが、各ルールの背後にある設計思想の違いが、異なるビジネスシーンにおける真の経済的メリットを決定づけます。以下の表は、公式の価格設定ドキュメントに基づき整理した5つの核心的な差異です。
| 比較項目 | OpenAI キャッシュ | Claude キャッシュ |
|---|---|---|
| 有効化方法 | 完全自動、設定不要 | cache_control パラメータによる明示 |
| 最低プロンプト長 | 1024 トークン(統一) | 1024 / 4096 トークン(モデルにより異なる) |
| 書き込み追加コスト | 0 (追加料金なし) | 1.25倍 (5分) または 2倍 (1時間) の基本入力単価 |
| 読み取り割引 | 50% – 75% OFF | 90% OFF (統一) |
| キャッシュ粒度 | 単一プレフィックス一致 | 最大4つのブレークポイントによる階層化 |
| TTL 制御 | 5~10分で自動変動 | 5分と1時間の2段階から選択可能 |
この表を理解すれば、一言でこうまとめられます。OpenAIは「手軽に導入」でき、Claudeは「投資として導入」するものです。OpenAIは予算やリソースが限られた迅速なリリースに適しており、Claudeは大規模で制御可能、かつ長期的な本番環境の負荷に適しています。
🎯 比較のヒント: 同じプロジェクト内でOpenAIとClaudeのキャッシュ課金効果を同時にテストしたい場合は、APIYI (apiyi.com) を通じた接続をお勧めします。このプラットフォームは両社に対してOpenAI互換プロトコルを提供しており、コードを一つにまとめ、
modelフィールドを切り替えるだけで、両社のcached_tokensとcache_read_input_tokensを直接比較することが可能です。
OpenAI API キャッシュ課金ルールの詳細
OpenAI のキャッシュ課金設計は非常にシンプルです。核心となるルールは、**「プロンプトの先頭部分が 1024 トークン以上かつ、前回の要求と完全に一致していれば、システムが自動的に割引を適用する」**という点です。コードの修正やヘッダーの変更は一切不要です。
OpenAI キャッシュ課金のプロンプト長と構造要件
OpenAI のキャッシュヒット条件は、2 つの厳格な制約に分けられます。プロンプト長が 1024 トークンに達している必要があり、かつキャッシュはリクエストの「先頭部分」のみを照合するため、動的な内容はすべてプロンプトの末尾に配置する必要があります。具体的なルールは以下の通りです。
- 最低長: プロンプトの合計が 1024 トークン以上であること。満たない場合はキャッシュされませんが、エラーにもなりません。
- 先頭一致: システムはプロンプトの先頭からトークンごとに照合します。途中で 1 トークンでも変更があれば、その位置以降はすべてキャッシュ対象外として課金されます。
- 128 トークン単位のステップ: キャッシュヒットは 128 トークン単位で増分されます。1024 トークンを超えた後、128 トークン一致するごとにキャッシュが継続されます。
- 完全一致: System Message、ツール定義、履歴メッセージ、画像など、あらゆる文字の差異がキャッシュを無効化します。
- 自動メンテナンス: キャッシュ ID や手動での無効化は不要です。5〜10 分間アイドル状態が続くと自動的に削除されます(トラフィックが少ない場合は最大 1 時間保持されることもあります)。
つまり、システムプロンプトの直後にタイムスタンプやユーザー ID などの動的な内容を置くと、キャッシュ全体が無効化されてしまいます。動的な内容を後ろに回し、静的な内容を前に配置することが、OpenAI のキャッシュを有効活用する鍵となります。
OpenAI キャッシュ課金の実際の割引率
OpenAI の読み取り割引は一律ではなく、モデルごとに異なります。GPT-5.5 のような新しいモデルでは、75% という非常に大きな割引が提供されています。2026 年 5 月時点の主要な OpenAI モデルのキャッシュ価格比較表を以下に示します。
| モデル | 標準入力 ($/M) | キャッシュ読み取り ($/M) | 割引率 |
|---|---|---|---|
| GPT-5.5 | 5.00 | 1.25 | 75% |
| GPT-5.5 mini | 0.25 | 0.0625 | 75% |
| GPT-4o | 2.50 | 1.25 | 50% |
| GPT-4o mini | 0.15 | 0.075 | 50% |
| o1-preview | 15.00 | 7.50 | 50% |
OpenAI はレスポンス内の usage.prompt_tokens_details.cached_tokens フィールドで実際にヒットしたトークン数を返します。このフィールドを使用して節約額を直接計算できます。全自動かつ中程度の割引が OpenAI のキャッシュ課金の核心です。
Claude API キャッシュ課金ルールの詳細
Claude のキャッシュ課金は、「明示的なコミットメント」という哲学に基づいています。「この部分をキャッシュする」と明示的に指定することで 90% という大幅な割引を受けられますが、書き込み時には追加料金が発生します。
Claude キャッシュ課金の最低トークン要件(モデルにより異なる)
OpenAI が一律 1024 トークンであるのに対し、Claude はモデルのランクごとに最低キャッシュトークン閾値を設定しています。現在の Claude モデルの要件は以下の通りです。
| モデル | 最低キャッシュトークン数 | 標準入力 ($/M) | 5分書き込み ($/M) | キャッシュ読み取り ($/M) |
|---|---|---|---|---|
| Claude Opus 4.7 / 4.6 / 4.5 | 4096 | 5.00 | 6.25 | 0.50 |
| Claude Sonnet 4.6 / 4.5 | 1024 | 3.00 | 3.75 | 0.30 |
| Claude Opus 4.1 | 1024 | 15.00 | 18.75 | 1.50 |
| Claude Haiku 4.5 | 4096 | 1.00 | 1.25 | 0.10 |
最新の Opus や Haiku を使用する場合、3000 トークンのシステムプロンプトではキャッシュされません。ツール定義やサンプル対話などを追加して 4096 トークン以上に調整する必要があります。Sonnet シリーズでは 1024 トークンでトリガーされます。
Claude キャッシュ課金の TTL(有効期限)と回収ルール
Claude のもう一つの特徴は、TTL(Time To Live)を 2 段階から選択できる点です。デフォルトの 5 分から 1 時間へ延長でき、価格設定が異なります。
- 5 分 TTL: 書き込み時に 25% の追加料金。1 回の読み取りで元が取れるため、高頻度の対話やチャットボットに適しています。
- 1 時間 TTL: 書き込み時に 100%(2 倍)の追加料金。2 回以上の読み取りで元が取れるため、バッチ処理、エージェントの多段階タスク、定期レポートに適しています。
- 混合 TTL: 長い TTL を短い TTL の前に配置することで、異なる有効期限のキャッシュ戦略を同時に利用可能です。
5 分 TTL は成功した読み取りごとに自動的に更新されるため、リクエスト頻度が 5 分以内であれば、書き込み料金は一度の支払いで済みます。
Claude キャッシュ課金の階層とブレークポイント制御
Claude の最大の強みは、最大 4 つのキャッシュブレークポイントを設定できる点です。プロンプトを複数の階層に分けて管理できるため、複雑なアプリケーションに最適です。キャッシュ階層は tools → system → messages の順に厳密に従います。ツール定義や関数スキーマは tools 層、システムプロンプトや役割設定は system 層、履歴対話やドキュメントは messages 層に配置します。
重要なのは**「上位層が無効になると下位層もすべて無効になる」**という点です。ツール定義を一行でも変更すると、system と messages のキャッシュも同期して破棄されます。逆に、ユーザーの最後の発言のみを変更した場合は、それより前の階層のキャッシュは有効なままです。変更頻度の低い内容を上位に配置することが、キャッシュヒット率を決定づけます。
また、各ブレークポイントには約 20 ブロックのバックトラックウィンドウがあります。システムはブレークポイントの位置から前方へ 20 ブロック分を検索し、完全に一致する履歴があればキャッシュをヒットさせます。対話が 20 ターンを超えた場合は、中間にブレークポイントを追加して履歴キャッシュが「見えなく」なるのを防ぐことをお勧めします。
💡 アーキテクチャの提案: 複数のモデルを同時に組み込む複雑なアプリケーションの場合、APIYI (apiyi.com) プラットフォームでの実機テストを推奨します。このプラットフォームは OpenAI と Claude シリーズの統一インターフェースを提供しており、コードを書き換えることなく、同一のワークロードで両社のキャッシュメカニズムによる実際のコストを比較できます。
OpenAIとClaudeのキャッシュ課金における実コスト試算
理論的な分析も大切ですが、実際のコスト差は具体的なシナリオで検証する必要があります。ここでは、非常によくあるビジネスシナリオを想定して計算してみましょう。
- 静的なシステムプロンプト: 10万トークン(技術ドキュメント + Few-shot例)
- ユーザーごとのリクエスト: 入力100トークン(実際の質問) + 出力1000トークン
- 呼び出し頻度: 1日平均1000回、営業時間内に均等に発生
- 比較モデル: GPT-5.5 vs Claude Sonnet 4.6(両社とも主力モデル)

OpenAIとClaudeのキャッシュ課金 日次コスト比較表
以下の表は、上記のシナリオにおける主要な請求項目を分解したものです。なお、すべての数値は入力トークン部分のコストであり、出力トークンは含まれていません(両社の出力価格は近いため、別途考慮可能です)。
| 項目 | キャッシュなし GPT-5.5 | OpenAIキャッシュ有効化 | キャッシュなし Sonnet 4.6 | Claude 5分キャッシュ有効化 |
|---|---|---|---|---|
| 初回書き込みコスト | — | $0.50 | — | $0.375 |
| 後続読み取り(999回) | $499.50 | $124.875 | $299.70 | $29.97 |
| 日次入力コスト | $500.00 | $125.38 | $300.00 | $30.35 |
| 削減率 | 0% | 75% | 0% | 90% |
| 月額コスト (30日) | $15,000 | $3,761 | $9,000 | $910 |
比較結果は非常に明確です。同じ負荷であれば、Claude Sonnet 4.6でキャッシュを有効にした場合の月額コストは、GPT-5.5でキャッシュを有効にした場合の約24%に抑えられます。 「長いシステムプロンプト + 短い質疑応答」という典型的な業務であれば、Claudeのコスト優位性は呼び出し規模に応じて線形に拡大します。
ただし、この結論には注意すべき2つの前提条件があります。
- キャッシュが確実にヒットすること: システムプロンプトが頻繁に変更される場合、両社のコスト削減効果は大幅に低下します。
- モデルの能力差を考慮していないこと: タスクによってGPT-5.5とSonnet 4.6の出力品質は必ずしも同等ではないため、業務指標と組み合わせて総合的に判断する必要があります。
💰 コスト最適化のヒント: 予算に敏感なプロジェクトであれば、APIYI(apiyi.com)プラットフォーム経由でのモデル呼び出しを検討してみてください。柔軟な課金体系とよりお得な価格設定を提供しており、中小チームや個人開発者がキャッシュ戦略の真のROIを迅速に検証するのに適しています。自前で2つの課金システムを管理する必要もありません。
OpenAIとClaudeのキャッシュ課金シナリオ別推奨
価格はあくまで一つの変数に過ぎません。キャッシュのためのエンジニアリング改修を行う価値があるか、キャッシュの安定したヒット率を保証できるか、マルチモデルアーキテクチャと互換性があるかなど、考慮すべき点は多岐にわたります。以下に、ビジネスシナリオに基づいた明確な推奨プランを提示します。
OpenAIキャッシュを選択すべき典型的なシナリオ
OpenAIキャッシュの最大の魅力は「意識せずに導入できる(無感接入)」点にあります。プロンプトエンジニアリングの最適化に割くエンジニアリングリソースがないチームや、ビジネスの複雑性がまだ安定していない初期段階に適しています。
- シンプルなチャットボット、カスタマーサポートのFAQ応答など、システムプロンプトの長さはそれほどではないが、呼び出し頻度が高い場合
- プロトタイプの迅速な検証段階で、開発の摩擦を優先的に減らし、まずは効果を確認してから最適化を検討したい場合
- すでにOpenAIエコシステム(Function Calling、Structured Outputsなど)を多用しており、新しいSDKを導入したくない場合
- チーム間での共同作業環境において、全員が
cache_controlパラメータを正しく使用することを保証できない場合
Claudeキャッシュを選択すべき典型的なシナリオ
Claudeキャッシュの強みは、長いプロンプト、高頻度の読み取り、制御可能な本番環境の負荷という3つのシナリオで最大限に発揮されます。
- 長いシステムプロンプト + 長文ドキュメントのRAG:例えば製品マニュアル全体をシステムプロンプトに入れる場合、90%の割引は非常に魅力的です
- エージェントによる複数回のツール呼び出し:ツール定義とシステムプロンプトの両方を個別にキャッシュできるため、長い推論チェーンに適しています
- Batch / オフラインタスク:1時間のTTLと毎分数回の低頻度読み取りを組み合わせることで、書き込み時の2倍の追加料金を効率的に活用できます
- 多階層プロンプトアプリケーション:テンプレート、ナレッジベース、ユーザーコンテキストをそれぞれ4つのブレークポイントに分けて配置し、失効を細かく制御する場合
OpenAI vs Claude キャッシュ課金 総合比較表
以下の表では、両社のソリューションにおける重要な判断基準を横並びで比較しています。プロジェクトの状況と照らし合わせる際にご活用ください。
| 判断基準 | OpenAIキャッシュ | Claudeキャッシュ | 推奨 |
|---|---|---|---|
| エンジニアリング改修コスト | ほぼゼロ | cache_control の改修が必要 |
OpenAI |
| 節約効果 | 50%–75% | 90% | Claude |
| 長文プロンプトへの適応度 | 中程度 | 非常に高い | Claude |
| 短文プロンプトへの適応度 | 1024トークンで十分 | Opus/Haikuは4096が必要 | OpenAI |
| エージェント / ツール利用 | ツール定義がプロンプトを占有 | ツールを個別にキャッシュ可能 | Claude |
| チームのプロンプト規約が未成熟 | エラーが起きにくい | ミスが発生しやすい | OpenAI |
| 複数のTTL制御 | 非対応 | 5分 / 1時間から選択可能 | Claude |

OpenAI と Claude のキャッシュ課金実装:実践編
理論的な話はここまでにして、実際に現場で使える数十行のコードをご紹介します。両社の最小限の有効化方法をまとめました。そのままプロジェクトにコピー&ペーストしてすぐに実行可能です。
OpenAI のキャッシュ課金コード例
OpenAI ではキャッシュに関連する特別なパラメータを設定する必要はありません。重要なのは、静的なコンテンツを先頭に、動的なコンテンツを末尾に配置することです。usage.prompt_tokens_details.cached_tokens を確認することで、キャッシュがヒットしたかどうかを検証できます。
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.apiyi.com/v1"
)
# 10万トークン規模の長いシステムプロンプト。必ず先頭に配置し、毎回完全に一致させる必要があります
LONG_SYSTEM = "(ここに長いシステムプロンプトを記述)"
response = client.chat.completions.create(
model="gpt-5.5",
messages=[
{"role": "system", "content": LONG_SYSTEM},
{"role": "user", "content": "今日の天気はどうですか?"} # 動的な内容は末尾に配置
],
)
# キャッシュヒットの確認
print(response.usage.prompt_tokens_details.cached_tokens)
Claude のキャッシュ課金コード例
Claude では cache_control を明示的に指定する必要があり、system または messages の content ブロックに注釈を付ける必要があります。以下は「system + ブレークポイント1つ」という典型的な利用例です。
import anthropic
client = anthropic.Anthropic(
api_key="YOUR_API_KEY",
base_url="https://api.apiyi.com"
)
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
system=[
{
"type": "text",
"text": "(4096トークン以上の長いシステムプロンプト。必ず先頭に配置)",
"cache_control": {"type": "ephemeral"} # デフォルトは5分、ttl="1h"などで変更可能
}
],
messages=[{"role": "user", "content": "今日の天気はどうですか?"}],
)
# キャッシュヒットの確認
print(response.usage.cache_read_input_tokens,
response.usage.cache_creation_input_tokens)
4つのブレークポイントを使用した多層キャッシュの完全なコードを表示
import anthropic
client = anthropic.Anthropic(
api_key="YOUR_API_KEY",
base_url="https://api.apiyi.com"
)
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
tools=[
{
"name": "search_db",
"description": "...",
"input_schema": {...},
"cache_control": {"type": "ephemeral", "ttl": "1h"} # 最長のTTLを最上位に設定
}
],
system=[
{
"type": "text",
"text": "社内ナレッジベースの要約(長期的に不変)",
"cache_control": {"type": "ephemeral", "ttl": "1h"}
},
{
"type": "text",
"text": "今日の動的指示(毎日1回更新)",
"cache_control": {"type": "ephemeral"} # デフォルトの5分
}
],
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "先週の決算報告の重要データ..."},
{
"type": "text",
"text": "要約してください",
"cache_control": {"type": "ephemeral"}
}
]
}
]
)
これら2つのコードの核心的な違いは、OpenAI はキャッシュの存在を意識する必要がないのに対し、Claude は開発者がキャッシュの境界を積極的に設計する必要があるという点です。統合されたアクセス層を構築すれば、model フィールドを切り替えるだけで、同じビジネスロジックを両社のモデル間でシームレスに切り替えることができます。
OpenAI vs Claude キャッシュ課金:選定のアドバイス
一言でアドバイスするなら、**「ビジネスが複雑でプロンプトが長く、呼び出し頻度が高いなら Claude の90%割引の恩恵が最大化され、ビジネスがシンプルでプロンプトが短く、スピード重視なら OpenAI の設定不要な手軽さが勝る」**となります。
具体的には、以下の3ステップで進めることをお勧めします。
- ステップ1:実際の負荷を測定する。システムプロンプトの平均トークン数と1日の平均呼び出し回数を集計します。この2つの数値が、キャッシュでどれだけ節約できるかを決定します。
- ステップ2:メインモデルを選定する。ビジネス要件を満たす前提で、キャッシュ割引率が高いプランを優先します。
- ステップ3:プロンプトエンジニアリングを行う。「毎回繰り返される内容」を先頭に配置し、「毎回変わる内容」を末尾に置くか、個別のブレークポイントを設定します。
🚀 クイックスタートのヒント: APIYI (apiyi.com) プラットフォームを活用してプロトタイプを構築することをお勧めします。OpenAI と Claude のインターフェースを統一できるため、個別にSDKを実装し直す必要はありません。コードはそのままで
modelフィールドを書き換えるだけで切り替えが可能であり、キャッシュ課金フィールドも OpenAI 互換プロトコルで返されるため、比較評価が非常にスムーズです。
OpenAI と Claude のキャッシュ課金に関するよくある質問
Q1: OpenAI のキャッシュが「有効にならない」のはなぜですか?
最も一般的な理由は3つあります。1つ目は、プロンプトの合計長が1024トークンに満たないこと。2つ目は、タイムスタンプやユーザーIDなどの動的なコンテンツがプロンプトの前方に配置されており、プレフィックス(接頭辞)が毎回一致しなくなっていること。3つ目は、連続する2回のリクエストの間隔が5〜10分を超えており、キャッシュが自動的にクリアされたことです。同じプロンプトを2回連続で送信し、cached_tokens がゼロ以外になるかを確認することで、環境の問題を素早く切り分けることができます。
Q2: Claude の 4096 トークンの最低しきい値は回避できますか?
できません。Opus 4.7/4.6/4.5 および Haiku 4.5 では、キャッシュ対象となるために必ず 4096 トークンに達する必要があります。もしシステムプロンプトが2000トークン程度しかない場合は、2つの方法を推奨します。1つは Sonnet 4.6(1024トークンからキャッシュ可能)に変更すること、もう1つはツール定義、対話例、スタイルガイドなどのコンテンツをシステムプロンプトに追加して、4096トークン以上のしきい値まで引き上げることです。
Q3: キャッシュ書き込み時の25%割増料金は割に合いますか?
ほとんどの場合、割に合います。Claude の5分キャッシュ書き込みは、通常の入力料金より25%高いだけですが、読み取り料金は90%オフになります。つまり、同じコンテンツを1回読み取るだけで、キャッシュ書き込みの割増分は元が取れます。1時間キャッシュの場合は2回の読み取りで元が取れます。ヒット率が心配な場合は、本番環境で24時間分の cache_read_input_tokens を集計してみてください。データが実際の節約額を教えてくれます。
Q4: OpenAI と Claude で同時にキャッシュを有効にできますか?
はい、推奨される方法です。両者のキャッシュメカニズムは互いに干渉しないため、同じプロジェクト内で業務モジュールごとにモデルを使い分けることができます。例えば、意図認識(短いプロンプト、高頻度)には OpenAI を使い、長文の要約(長いプロンプト、高度な推論)には Claude を使うといった形です。統一されたアクセス層を通じてプロンプトテンプレートシステムを共有すれば、2つのキャッシュ戦略を個別に管理する手間を省けます。
Q5: 国内のエンジニアが OpenAI と Claude のキャッシュ効果を素早くテストするには?
最も直接的な方法は、国内からアクセス可能な統合アクセスプラットフォームを利用することです。APIYI (apiyi.com) を推奨します。OpenAI と Claude の両方に対して OpenAI 互換プロトコルインターフェースを提供しており、両社のキャッシュ課金フィールド(cached_tokens および cache_read_input_tokens)を透過的に渡すことができます。一つのスクリプトで両方のモデルを同時に実行し、それぞれのアカウントを個別に申請・管理することなく、実際の節約額を直接比較できます。
まとめ: OpenAI と Claude のキャッシュ課金をどう選ぶか
冒頭の核心的な矛盾に戻りますが、「節約」か「手軽さ」か、これが OpenAI と Claude のキャッシュ課金における根本的な違いです。OpenAI はゼロ設定と中程度の割引率で一般的なシナリオの80%をカバーし、Claude は明示的な宣言と究極の割引率で、大規模かつ長いプロンプト、高頻度呼び出しが必要な本番環境の負荷を勝ち取っています。
3つの判断基準:
- プロンプト < 4096 トークンかつ業務がシンプル → OpenAI キャッシュを選択し、50〜75% の割引を享受する
- プロンプト > 4096 トークンかつ毎分複数回の読み取りが発生 → Claude の5分キャッシュを選択し、90% の割引を享受する
- エージェント / バッチ / 時間をまたぐ呼び出し → Claude の1時間キャッシュを選択し、2回の読み取りで元を取る
エンジニアリング上の具体的なアドバイスとしては、**「まずプロンプト構造を最適化し、その後にキャッシュ割引を検討する」**ことです。静的なコンテンツを前方に、動的なコンテンツを後方に配置し、両方のソリューションで並行して負荷テストを行い、実際の請求額に基づいて最終的な選定を行ってください。
APIYI (apiyi.com) を通じて効果を素早く検証し、特定のベンダーに縛られることなく、あなたのビジネスに最適なキャッシュソリューションを見つけてください。
著者: APIYI 技術チーム — AI 大規模言語モデル API のエンジニアリング実践に注力しています。OpenAI、Claude、Gemini シリーズモデルの実際のビジネスシーンにおけるコストやパフォーマンスデータについて詳しく知りたい方は、APIYI (apiyi.com) にアクセスして、最新の評価レポートや無料テスト枠をご利用ください。
