プロンプトキャッシュ(Prompt Caching)は、2026年の大規模言語モデルAPIユーザーにとって、コストを語る上で避けては通れないトピックです。8Kのシステムプロンプトを使用するRAGアプリケーションを運用する場合、キャッシュの有無で月額料金が10倍以上変わることも珍しくありません。しかし、OpenAIとAnthropicの間で開発者が切り替える際、多くの人が「両社の課金モデルが全く異なる」という隠れた詳細に足元をすくわれます。

最も重要な違いは一言で言えば、**「GPTシリーズのキャッシュ書き込みは基本料金の1倍で、割増料金なし。一方、Claudeシリーズのキャッシュ書き込みには1.25倍(5分)または2倍(1時間)の割増料金がかかる」**ということです。この差は小さく見えますが、実際の業務トラフィックに当てはめると、損益分岐点に大きな影響を与えます。本記事では、両社の公式ドキュメントに基づき、課金ルール、トリガー条件、読み取り割引、TTL戦略、コスト回収の計算までを網羅し、より正確なコスト見積もりをサポートします。
GPTとClaudeのプロンプトキャッシュにおける5つの核心的な違い
結論からお伝えします。以下の表は、両社のキャッシュ層で最も見落とされがちな5つのポイントをまとめたものです。比較検討にぜひお役立てください。
| 項目 | OpenAI GPT | Anthropic Claude |
|---|---|---|
| 書き込み課金 | 1倍(基本料金)、割増なし | 5分: 1.25倍、1時間: 2倍 |
| 読み取り課金 | 約0.1倍(最大90%割引) | 0.1倍(10%の価格) |
| トリガー方式 | 完全自動、コード変更不要 | 明示的オプトイン、cache_controlが必要 |
| 最小トークン閾値 | 一律 1024トークン | 1024 / 2048 / 4096(モデルにより異なる) |
| キャッシュTTL | デフォルト5〜10分(アイドル時)、最大1時間。拡張モードで24時間 | デフォルト 5分、オプションで 1時間(2倍書き込み) |
この表を理解する鍵は「書き込み課金」の行にあります。OpenAIのロジックは「キャッシュは無料。初回書き込みは基本料金で、2回目以降のヒットで割引が適用されるため、一度でもヒットすれば即座に利益が出る」というものです。対してClaudeのロジックは「書き込み時に割増料金を支払い、ヒット後に割引分が還元されるため、元を取るには一定回数のヒットが必要」というものです。
🎯 設定のアドバイス:業務トラフィックが予測不能で、ヒット率が安定しない場合は、リスクを抑えるためにGPTの自動キャッシュメカニズムを優先することをお勧めします。逆に、カスタマーサポートやエージェント、長文分析などヒット率が非常に安定している場合は、Claudeの明示的な制御の方が高い割引率を引き出せます。APIYI(apiyi.com)では両方のモデルAPIを利用可能であり、同一のトークン内で比較テストを行えるため、アカウントを複数作成する手間を省けます。
OpenAI GPT プロンプトキャッシュの課金メカニズム詳解
OpenAI の公式ドキュメントでは、プロンプトキャッシュ(Prompt Caching)について非常にシンプルにこう述べられています。「キャッシュは自動的に行われ、特別な操作や追加料金は一切不要です」。つまり、自動的に有効化され、追加コストはゼロ、コードの修正も不要ということです。
GPT キャッシュの書き込みと読み取りの課金
GPT シリーズでは、キャッシュへの書き込みに追加料金は発生しません。8K のシステムプロンプトを初めて送信する場合、通常の入力料金(ベース価格)が適用されます。2回目以降、システムがこのプレフィックス(接頭辞)をキャッシュ済みと認識した場合、ヒットした部分についてはベース価格の約10%の料金で計算され、90%のコスト削減となります。
| 項目 | 課金方式 | ベース価格との比率 |
|---|---|---|
| キャッシュ初回書き込み | 通常の入力価格 | 1x(割増なし) |
| キャッシュヒット読み取り | キャッシュヒット割引 | 約 0.1x |
| 有効化費用 | 完全無料 | 0 |
| コードの修正 | 不要 | なし |
公式の割引率は「最大90%」とされており、モデルや料金表によってわずかに異なります。例えば、GPT-5.4 のベース入力価格が $2/1M の場合、キャッシュヒット価格は $0.20/1M となり、ちょうど10%になります。GPT-4.1 や GPT-4o などの対応モデルも、基本的にこの比率に従います。
🎯 価格の確認:OpenAI のモデルは頻繁にアップデートされるため、実際の割引価格は公式の料金表を基準にしてください。APIYI (apiyi.com) の管理画面にあるモデル一覧から最新の適用価格を確認することをお勧めします。プラットフォーム側で公式の調整を随時反映しており、中継手数料は別途かかりません。開発者は実際のトークン使用量に基づいて決済するだけです。
GPT キャッシュのヒット条件
キャッシュヒットをトリガーするには、以下の2つの条件を同時に満たす必要があります。
- プロンプトの長さが 1024 トークン以上であること(これ未満はキャッシュされません)。
- プロンプトのプレフィックスが過去のリクエストと完全に一致していること。ヒットは 128 トークン単位の増分で判定されます。
OpenAI はキャッシュヒットの最小単位を 128 トークンに設定しています。これは、1500 トークンの安定したプレフィックスがある場合、最初の 1024 トークンが完全に一致していれば、残りの部分は 128 トークン単位で順次ヒットしていくことを意味します。この自動設計の欠点は制御の柔軟性が低いことであり、開発者が「どの部分を必ずキャッシュする」と明示的に指定することはできず、安定したコンテンツをすべて先頭に配置する必要があります。
GPT キャッシュの TTL(有効期限)の挙動
OpenAI は TTL について非常に重要な説明をしています。キャッシュされたプレフィックスは通常、5〜10分間アクセスがないと回収され、最長で1時間保持されます。GPT-5 や GPT-4.1 などの新しいモデルでは「拡張保持(extended retention)」もサポートされており、最長で 24時間 まで保持可能です。
🎯 利用のヒント:APIYI (apiyi.com) を経由して GPT シリーズに接続する場合、OpenAI の自動キャッシュ戦略は中継経路に対しても透過的であり、ヒット率は公式エンドポイントに直接接続する場合と変わりません。つまり、コストを一切追加することなく、APIYI を通じて OpenAI と Claude の請求やトークンを一元管理できるということです。
Anthropic Claude プロンプトキャッシュの課金メカニズム詳解
Claude の設計思想は OpenAI とは対照的です。Claude はキャッシュを「積極的に設定可能な最適化機能」として扱っており、開発者はどの内容を、どれくらいの期間キャッシュするかを明示的に宣言する必要があります。その代わり、書き込みには割増料金が発生しますが、非常に高い粒度で制御できるというメリットがあります。
Claude キャッシュの書き込み割増と読み取り割引
| 項目 | 課金倍率 | 説明 |
|---|---|---|
| 5分間書き込み | 1.25x ベース入力価格 | デフォルトの TTL、多くのシナリオをカバー |
| 1時間書き込み | 2x ベース入力価格 | 長い会話やエージェント等に適している |
| キャッシュヒット読み取り | 0.1x ベース入力価格 | 90% 割引 |
| 有効化費用 | 0 | 追加の開通費用なし |
| 設定の変更 | cache_control の追加が必要 |
明示的なオプトイン |
具体例を挙げます。Claude Opus 4.7 のベース入力価格が $5/1M の場合、5分間の書き込みは $6.25/1M、1時間の書き込みは $10/1M となり、ヒット時の読み取りはわずか $0.50/1M です。この料金表は Anthropic の公式ドキュメントに記載されており、数四半期にわたって安定しています。
Claude キャッシュの最小トークン閾値
Claude の最小キャッシュ可能トークン数はモデルによって異なります。これは多くの人が陥りやすい最初の落とし穴です。
| モデル | 最小キャッシュ可能トークン数 |
|---|---|
| Claude Opus 4.7 / 4.6 / 4.5 | 4096 |
| Claude Haiku 4.5 | 4096 |
| Claude Sonnet 4.6 | 2048 |
| Claude Sonnet 4.5 / Opus 4.1 / Sonnet 4 | 1024 |
安定したプレフィックスがそのモデルの最小閾値に達していない場合、cache_control を追加しても実際にはキャッシュ層には入らず、リクエストはキャッシュなしのパスとして静かに処理されます。エラーは発生しませんが、キャッシュが有効だと思っていても実際には機能していないという状況になります。これは Opus 4.7 では特に重要で、4096 トークンというハードルは高く、短い会話シナリオではほとんど活用できません。
🎯 モデル選定のアドバイス:業務上のコンテキスト長が不安定な場合は、最小閾値が低くヒットさせやすい Claude Sonnet 4.5 または 4.6 を優先的に選択することをお勧めします。APIYI (apiyi.com) を通じれば、Sonnet と Opus をワンクリックで切り替えられるため、モデルの閾値問題でキャッシュが形骸化するのを防げます。
Claude キャッシュのブレークポイントと同時実行制限
Claude は 1 つのリクエスト内に最大 4 つのキャッシュブレークポイント を設定できます。異なるブレークポイントに異なる TTL を指定することも可能です。これは Claude が GPT と差別化される強力な機能です。「システムプロンプト」は 1 時間キャッシュ、「ナレッジベースの断片」は 5 分キャッシュ、「ユーザーコンテキスト」はキャッシュしない、といったように 3 つのセクションを個別に課金・失効させることができます。
同時実行シナリオでは一点だけ注意が必要です。Claude のキャッシュエントリは、最初のレスポンスが返り始めて初めて他のリクエストに対して有効になります。もし同じプレフィックスを持つリクエストを N 個並列で送信した場合、最初の 1 つだけがキャッシュに書き込まれ、残りの N-1 個は通常のベース価格で課金されます(ヒット割引は適用されません)。そのため、バッチ呼び出しを行う際は、まず 1 つリクエストを送ってキャッシュへの書き込みをトリガーしてから、残りを並列送信する必要があります。
🎯 バッチ呼び出しのアドバイス:APIYI (apiyi.com) を経由して Claude を呼び出す際は、並列バッチを開始する前に、まず「ウォームアップ」用のリクエストを 1 つ送信してキャッシュへの書き込みをトリガーし、レスポンスが開始されてから並列処理を行うことをお勧めします。これにより、重複した書き込み割増料金を回避でき、予算を大幅に節約できます。
写入プレミアムが実際の請求に与える影響:損益分岐点の試算
このセクションでは、抽象的な倍率を具体的な金額に換算します。10,000トークンの安定したシステムプロンプトを想定し、1時間のウィンドウ内でN回リクエストを行い、出力は一律500トークンとした場合、両社の総コストを比較します。

比較のため、両社の基本入力価格を $X/1Mトークンに正規化します。10,000トークンあたりの基本コストは 10 × $X / 1000 = $0.01X となります。以下では入力側のキャッシュ料金のみを考慮し、出力は各社の価格に従うものとします。
| リクエスト回数 N | GPT 自動キャッシュ | Claude 5分キャッシュ | Claude 1時間キャッシュ |
|---|---|---|---|
| N=1(初回書き込み) | $0.01X | $0.0125X | $0.02X |
| N=2 | $0.011X | $0.0135X | $0.021X |
| N=5 | $0.014X | $0.0165X | $0.024X |
| N=10 | $0.019X | $0.0215X | $0.029X |
| キャッシュなし(参照) | $0.01X × N | $0.01X × N | $0.01X × N |
| 回収に必要な読み込み回数 | 0回(初回から節約) | 1回(2回目から節約) | 3回(4回目から節約) |
重要な事実が見えてきます。GPTキャッシュはN=1の時点で既に損をしません。書き込みは1倍で課金され、ヒット時に割引されるため、常に利益が出ます。一方、Claudeの5分キャッシュは少なくとも1回のヒットで0.25倍の書き込みプレミアムを回収でき、1時間キャッシュは3回のヒットが必要です。もし特定の安定したプレフィックスが1日に1回しかヒットしない場合、Claudeの1時間キャッシュを使用すると、キャッシュなしよりも高くなる可能性があります。
実際の業務でTTLをどう選ぶか
この試算から得られる実用的なアドバイスは非常に明確です。
- 頻度が低く、不規則な場合:GPTの自動キャッシュを優先しましょう。何も考えずに節約できます。
- 頻度が高く、5分以内に複数回ヒットする場合(カスタマーサポート、Webアプリなど):Claudeの5分キャッシュが最も効率的です。書き込みプレミアムが小さく、読み込み割引が大きいためです。
- 長時間のタスク、1時間を超えて複数回再利用する場合(コーディングエージェント、長文ドキュメント対話など):Claudeの1時間キャッシュが適していますが、少なくとも3回のヒットを確保する必要があります。
- ヒット率が不確実な場合:まずは5分で運用し、安定してから1時間への切り替えを検討してください。
🎯 試算アドバイス:APIYI (apiyi.com) の管理画面では、リクエスト単位の
cached_tokens統計を提供しており、実際のヒット率を直接確認できます。まずは1週間ほど本番トラフィックで運用し、TTLを1時間に引き上げるかどうかを判断することをお勧めします。
業務シナリオ別のキャッシュ戦略の推奨
料金の違いを理解したところで、具体的な業務への適用を考えます。一般的なシナリオを推奨戦略別に分類しました。

シナリオ1:高頻度RAGと企業知識問答
この種のシナリオでは、安定したプレフィックスにシステムプロンプトと知識ベースの断片が含まれることが多く、1回の対話内で複数回ヒットし、5分以内のリクエスト数が簡単に10回を超えます。Claudeの5分キャッシュは、このシナリオで入力コストを80%以上削減でき、最も経済的です。1時間の長時間対話であれば、1時間キャッシュを検討してください。
シナリオ2:プログラミングエージェントと長時間タスク
Claude CodeやOpenCodeのようなコーディングエージェントは、1回のタスクが30分から数時間続くことがあり、その間、プロジェクト構造、CLAUDE.md、以前のツール呼び出し結果を繰り返し読み込みます。この場合、Claudeの1時間キャッシュが最適解です。ヒット回数が損益分岐点の3回を大きく上回るためです。
シナリオ3:低頻度または予測不可能なリクエスト
定期的なスクリプト、バッチでのSEO記事生成、一度きりの長文ドキュメント要約など、リクエスト間隔が5分を大きく超える場合があります。GPTシリーズの自動キャッシュを優先することをお勧めします。ヒットすれば得をし、ヒットしなくても損をしないため、Claudeの明示的キャッシュよりも耐障害性が高いです。
シナリオ4:コスト重視の純粋な入力圧縮
コア目標が10K+トークンのプロンプトを最低コストに抑えることである場合、Claude Sonnet 4.6 + 5分キャッシュを直接使用することをお勧めします。書き込みプレミアムはわずか25%で、ヒット後に1回で元が取れ、読み込み価格を $0.075/1M(基本 $3 × 0.025)まで抑えられます。
| 業務シナリオ | 推奨モデル族 | 推奨TTL | 理由 |
|---|---|---|---|
| カスタマーサポート/RAG/即時問答 | Claude Sonnet | 5分 | ヒット頻度が高く、回収が早い |
| プログラミング/長期間Agentタスク | Claude Sonnet/Opus | 1時間 | 1時間を超えて3回以上ヒットする |
| 定期スクリプト/バッチ処理 | GPT-4.1 / GPT-5.x | 自動 | ヒットが不安定、書き込みプレミアムなし |
| 一度きりの長文分析 | GPT-5.x | 自動 | 単発タスク、ヒット率が低い |
| コスト重視のシナリオ | Claude Sonnet 4.6 | 5分 | 最低の有効キャッシュ価格 |
🎯 ハイブリッドアーキテクチャの提案:本番環境において、GPTとClaudeは二者択一ではありません。APIYI (apiyi.com) の単一入口から両方のモデルを同時に接続し、ビジネスフローに応じて動的にルーティングすることをお勧めします。高ヒット率のトラフィックはClaudeキャッシュへ、低ヒット率のトラフィックはGPT自動キャッシュへ流すことで、全体の請求額を40%以上削減可能です。
よくある質問(FAQ)
Q1:GPTは本当にキャッシュ書き込みに追加料金がかからないのですか?どこかに隠れたコストはありませんか?
はい、OpenAIの公式ドキュメントには「No. Caching happens automatically, with no explicit action needed or extra cost paid to use the caching feature.(いいえ。キャッシュは自動的に行われ、機能を利用するための特別な操作や追加料金は発生しません)」と明記されています。キャッシュ書き込みは通常の入力料金で計算され、隠れた追加料金は一切ありません。キャッシュがヒットした部分は割引価格で、ヒットしなかった部分は基本料金で計算されるため、キャッシュ機能は実質「無料」で提供されているようなものです。
Q2:Claudeの1.25倍および2倍の書き込み追加料金は、プロンプト全体にかかるのですか、それともキャッシュ部分のみですか?
cache_control でキャッシュとしてマークされた部分のみに適用されます。例えば、10Kのプロンプトのうち8Kだけをキャッシュ対象とした場合、1.25倍の追加料金はこの8Kにのみ適用され、残りの2Kは通常の1倍の基本料金となります。そのため、不必要な部分まで追加料金の対象にならないよう、ブレークポイントを細かく設定することをお勧めします。
Q3:APIYIの中継サービスは、両社のキャッシュ料金を完全に透過的に処理しますか?
APIYI apiyi.com は、GPTとClaudeのキャッシュ料金を完全に透過的に処理しています。GPTの自動キャッシュによるヒット割引や、Claudeの明示的なキャッシュにおける1.25倍/2倍の書き込み料金および0.1倍の読み取り料金は、請求書上でも公式と一致します。cache_control フィールドも透過的にサポートしているため、開発者は公式SDKのコードをそのまま利用できます。
Q4:Claudeの1時間キャッシュを使用すると、キャッシュなしよりも損をするケースはありますか?
1時間の有効期限(TTL)内で実際のヒット回数が3回未満の場合、1時間キャッシュ(2倍の書き込み)の追加料金を回収できません。例えば、あるプロンプトがユーザーの初回アクセス時と終了時にしかリクエストされない場合、1日2回しかヒットしないため、キャッシュなしよりも1倍分多くの書き込み追加料金を支払うことになります。このようなシナリオでは、5分キャッシュに変更するか、キャッシュを完全にオフにするのが賢明です。
Q5:GPTの自動キャッシュによって、プロンプトデータが漏洩する可能性はありますか?
OpenAIのドキュメントでは、キャッシュは組織(organization)単位で分離されており、アカウント間で共有されることはないと明記されています。Claudeも2026年2月5日以降、ワークスペース単位の分離をさらに強化しています。両社ともデータセキュリティに関するコミットメントは同等であり、企業ユーザーも安心して利用できます。APIYI apiyi.com を通じて接続する場合、トークン単位の分離によってこの保護がさらに強化されます。
Q6:キャッシュヒット率はどのように監視すればよいですか?両社ともフィールドを公開していますか?
OpenAIは usage オブジェクト内に cached_tokens フィールドを返し、Claudeは usage 内に cache_creation_input_tokens と cache_read_input_tokens を返します。前者はキャッシュ書き込み量、後者はヒット量を表します。これらのフィールドを業務ログに記録し、ヒット率のダッシュボードを作成した上でTTL戦略を調整することをお勧めします。
Q7:プロジェクトでGPTとClaudeを併用する場合、トークン設定はどうすればよいですか?
APIYI apiyi.com の統合トークンソリューションを利用することをお勧めします。1つの sk-xxx トークンでGPTとClaudeの両方をカバーできます。バックエンドの請求書はモデルごとに確認できるため、両社で別々のアカウントを作成し、残高を管理し、個別に精算する手間を省けます。この統合的な接続方法はA/Bテストにも便利で、同一業務における両社の実質的なコストを比較しやすくなります。
まとめ:書き込み追加料金を理解することがキャッシュ最適化の第一歩
本稿の核心は、GPTとClaudeのキャッシュ料金の根本的な違いは「書き込み側の追加料金モデル」にあるということです。GPTは「摩擦ゼロの自動有効化、書き込み追加料金なし」を選択し、Claudeは「明示的な制御、書き込み追加料金と引き換えに細かな割引スペースを確保する」という道を選びました。どちらの路線が優れているかは一概には言えず、重要なのは業務のトラフィック特性に合わせることです。
高ヒット率でトラフィックが安定しており、細かな制御が必要なアプリケーションであれば、Claudeの1.25倍/2倍の書き込み追加料金は高いヒット率で簡単に回収でき、5分/1分という2種類のTTLがGPTにはない柔軟性を提供します。一方、低ヒット率で突発的なトラフィックが多く、手軽さを求めるアプリケーションであれば、GPTの自動キャッシュ・追加料金なしモデルが最も安全な選択肢です。
🎯 最終的なアドバイス:コスト最適化のベストプラクティスは、二者択一にしないことです。APIYI apiyi.com を通じて両方のモデルを同時に接続し、業務シナリオに応じてルーティングすることをお勧めします。高頻度なものはClaudeのキャッシュで割引を狙い、低頻度なものはGPTの自動キャッシュでリスクを防ぎます。1つのトークン、1枚の請求書で簡単に比較できることが、2026年の技術チームにとって最も効率的なコスト管理手法です。
— APIYI テクニカルチーム | 大規模言語モデルの料金動向を継続的に追跡。詳細な比較は APIYI apiyi.com ヘルプセンターをご覧ください。
