Domine os 3 pontos-chave do faturamento de cache do Claude: por que você deve usar o formato nativo da Anthropic para a invocação

Muitos desenvolvedores ficam confusos ao usar a API do Claude: mesmo ativando o prompt caching, por que o desconto não aparece na fatura?

A resposta costuma ser simples: você está usando o modo de compatibilidade da OpenAI, mas o faturamento de cache do Claude só suporta o formato nativo da Messages API da Anthropic.

Isso não é um bug, mas uma limitação de design explicada claramente na documentação oficial da Anthropic. Neste artigo, vamos explorar os princípios técnicos, as formas de chamada e a comparação de preços para que você entenda como usar o prompt caching do Claude do jeito certo e pare de gastar dinheiro à toa.

Princípios Fundamentais do Mecanismo de Prompt Caching do Claude

Antes de mergulharmos nas diferenças de formato, vamos entender como o prompt caching do Claude funciona na prática.

Como o cache do Claude funciona

Quando você envia uma requisição com o prompt caching ativado, o sistema segue este fluxo:

Verificação de cache: O sistema verifica se o prefixo do comando da requisição já foi armazenado em cache em consultas recentes.
Acerto de cache (Hit): Se encontrar uma correspondência, o sistema utiliza a versão em cache, reduzindo drasticamente o tempo de processamento e o custo.
Escrita em cache (Write): Se não houver correspondência, o sistema processa o comando completo e armazena o prefixo em cache após o início da resposta.

Parâmetro Principal do Prompt Caching do Claude	Descrição
Tipo de cache	`ephemeral` (cache efêmero, único tipo suportado no momento)
TTL padrão	5 minutos (renovado automaticamente a cada acerto)
TTL opcional	1 hora (custo adicional)
Máximo de pontos de interrupção	4 marcações `cache_control`
Ordem de cache	`tools` → `system` → `messages`
Método de correspondência	Prefixo do comando 100% idêntico

Conteúdos suportados pelo Prompt Caching do Claude

O prompt caching do Claude pode armazenar a maioria dos blocos de conteúdo de uma requisição:

Tools: Definições de ferramentas no array tools.
System messages: Blocos de conteúdo no array system.
Text messages: Blocos de texto no array messages.content.
Images & Documents: Imagens e documentos nas mensagens do usuário.
Tool use & tool results: Blocos de conteúdo de chamadas e resultados de ferramentas.

🎯 Dica técnica: Para cenários que exigem chamadas frequentes com o mesmo comando de sistema, o prompt caching é a ferramenta de otimização de custos mais eficaz. Recomendamos utilizar a plataforma APIYI (apiyi.com) com o formato nativo da Anthropic para aproveitar ao máximo os descontos de faturamento por cache.

Formato Nativo da Anthropic vs. Modo de Compatibilidade OpenAI: Diferenças no Suporte ao Cache do Claude

Esta é a parte mais importante deste artigo — a diferença fundamental entre os dois formatos de chamada em relação à funcionalidade de cache do Claude.

Declaração oficial da Anthropic

De acordo com o texto original da documentação de compatibilidade do SDK da OpenAI da Anthropic:

"Prompt caching is not supported, but it is supported in the Anthropic SDK"
(O prompt caching não é suportado, mas é suportado no SDK da Anthropic)

Isso significa que, se você chamar o Claude através do modo de compatibilidade da OpenAI (endpoint /v1/chat/completions), não poderá usar a funcionalidade de prompt caching de jeito nenhum.

Comparação de funcionalidades entre os dois formatos de chamada da API do Claude

Funcionalidade	Formato Nativo Anthropic	Modo de Compatibilidade OpenAI
Prompt Caching (Cache)	✅ Totalmente suportado	❌ Não suportado
Processamento de documentos PDF	✅ Suportado	❌ Não suportado
Citations (Citações)	✅ Suportado	❌ Não suportado
Extended Thinking (Saída completa)	✅ Suportado	⚠️ Suporte parcial (não é possível ver o processo de pensamento)
Streaming (Saída em fluxo)	✅ Suportado	✅ Suportado
Tool Use (Uso de ferramentas)	✅ Suportado	✅ Suportado
Vision (Compreensão de imagem)	✅ Suportado	✅ Suportado
Saídas Estruturadas	✅ Suportado (modo strict)	❌ Parâmetro strict é ignorado

Por que o modo de compatibilidade OpenAI não suporta o cache do Claude

O modo de compatibilidade OpenAI foi projetado para testar e comparar as capacidades do modelo, e não para uso em ambiente de produção:

Diferenças de protocolo: O parâmetro cache_control é um campo nativo da Messages API da Anthropic e não possui um campo correspondente no formato chat completions da OpenAI.
Limitações de arquitetura: A camada de compatibilidade precisa converter o formato OpenAI para o formato Anthropic; durante esse processo de conversão, as informações de controle de cache são perdidas.
Prioridades: A Anthropic declarou que a prioridade da camada de compatibilidade é inferior à confiabilidade e integridade funcional da API nativa do Claude.

💡 Dica importante: Se o seu negócio depende do prompt caching para controlar custos, você deve usar o formato nativo Messages API da Anthropic, em vez do modo de compatibilidade OpenAI.

Detalhes de Preços do Prompt Caching do Claude: Economize até 90% nos custos

A estrutura de preços do prompt caching do Claude é o seu maior atrativo — o preço de leitura de um cache hit é de apenas 10% do preço base de entrada.

Comparação de preços de cache para todos os modelos Claude

Modelo	Entrada Base	Escrita Cache 5min	Escrita Cache 1h	Leitura Cache	Saída
Claude Opus 4.6	$5/MTok	$6.25/MTok	$10/MTok	$0.50/MTok	$25/MTok
Claude Sonnet 4.6	$3/MTok	$3.75/MTok	$6/MTok	$0.30/MTok	$15/MTok
Claude Sonnet 4.5	$3/MTok	$3.75/MTok	$6/MTok	$0.30/MTok	$15/MTok
Claude Haiku 4.5	$1/MTok	$1.25/MTok	$2/MTok	$0.10/MTok	$5/MTok

MTok = Milhões de Tokens. Fonte dos dados: Página oficial de preços da Anthropic (fevereiro de 2026)

Regras de cálculo de preços do cache do Claude

O preço do cache segue 3 regras simples de multiplicadores:

Escrita em cache de 5 minutos: Preço base de entrada × 1.25
Escrita em cache de 1 hora: Preço base de entrada × 2.0
Leitura de cache (Hit): Preço base de entrada × 0.1

Tomando o Claude Sonnet 4.6 como exemplo, suponha que você tenha um comando de sistema de 100.000 tokens:

Cenário	Custo de entrada por requisição	Custo total para 10.000 requisições
Sem usar cache	$0.30	$3.000
Primeira requisição (Escrita no cache)	$0.375	Custo único
Requisições subsequentes (Cache hit)	$0.03	$300
Proporção de economia		Aprox. 90%

💰 Otimização de custos: Para cenários que reutilizam o mesmo comando de sistema repetidamente, ao invocar a API do Claude no formato nativo da Anthropic através da plataforma APIYI (apiyi.com), você pode aproveitar ao máximo o prompt caching para obter uma economia de até 90%.

Código Prático de Claude Prompt Caching: Chamada no Formato Nativo da Anthropic

Abaixo, apresentamos exemplos de código específicos para mostrar como ativar corretamente o prompt caching do Claude.

Exemplo de Chamada Básica: Formato Nativo da Anthropic + Extended Thinking

curl https://api.apiyi.com/v1/messages \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-YOUR_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-sonnet-4-6",
    "max_tokens": 16000,
    "stream": false,
    "thinking": {
      "type": "enabled",
      "budget_tokens": 10000
    },
    "messages": [
      {
        "role": "user",
        "content": "Quanto é 27 * 453?"
      }
    ]
  }'

Acima está uma chamada básica no formato nativo da Anthropic, utilizando o recurso de Extended Thinking. Agora, vamos ver como ativar o prompt caching com base nisso.

Modo de Cache Automático: A Maneira Mais Simples de Ativar o Cache do Claude

O cache automático é a forma mais fácil de habilitar o prompt caching do Claude — basta adicionar o campo cache_control no nível superior do corpo da requisição:

curl https://api.apiyi.com/v1/messages \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-YOUR_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-sonnet-4-6",
    "max_tokens": 1024,
    "cache_control": {"type": "ephemeral"},
    "system": "Você é um assistente especializado em documentação técnica, ajudando usuários a entender os métodos de uso e as melhores práticas de modelos de IA. Suas respostas devem ser precisas, concisas e práticas.",
    "messages": [
      {"role": "user", "content": "Quais são as principais características do Claude Sonnet 4.6?"},
      {"role": "assistant", "content": "O Claude Sonnet 4.6 é um modelo de alto desempenho lançado pela Anthropic..."},
      {"role": "user", "content": "Qual é o tamanho da sua janela de contexto?"}
    ]
  }'

No modo de cache automático, o sistema coloca automaticamente o ponto de interrupção do cache no último bloco de conteúdo que pode ser armazenado. Em conversas de várias rodadas, o ponto de cache avança automaticamente conforme a conversa cresce.

Modo de Cache Explícito: Controle Preciso do Conteúdo do Cache do Claude

Para cenários que exigem um controle refinado do comportamento do cache, você pode colocar o cache_control em blocos de conteúdo específicos:

📄 Clique para ver o exemplo completo de código de cache explícito

curl https://api.apiyi.com/v1/messages \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-YOUR_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "claude-sonnet-4-6",
    "max_tokens": 1024,
    "system": [
      {
        "type": "text",
        "text": "Você é um assistente de análise de documentos jurídicos, especializado em analisar cláusulas contratuais e riscos legais."
      },
      {
        "type": "text",
        "text": "[Insira aqui o texto completo de um contrato jurídico de 50 páginas... cerca de 100 mil tokens de conteúdo]",
        "cache_control": {"type": "ephemeral"}
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Por favor, analise as cláusulas principais e os riscos potenciais deste contrato."
      }
    ]
  }'

Neste exemplo, uma grande quantidade de documentos jurídicos é marcada como conteúdo de cache. A primeira requisição grava no cache; consultas subsequentes sobre o mesmo documento nos 5 minutos seguintes atingirão o cache, custando apenas 10% da taxa de leitura.

Cache de Longa Duração de 1 Hora: Estendendo o Tempo de Cache do Claude

Se o tempo padrão de 5 minutos não for suficiente, você pode optar pelo cache de 1 hora:

"cache_control": {"type": "ephemeral", "ttl": "1h"}

O cache de 1 hora é ideal para:

Tarefas longas em fluxos de trabalho de agentes (mais de 5 minutos)
Cenários onde o intervalo entre as falas do usuário pode exceder 5 minutos
Cenários que exigem maior aproveitamento do limite de taxa (acertos no cache não consomem o rate limit)

🚀 Início Rápido: Recomendamos usar a plataforma APIYI (apiyi.com) para testar rapidamente o recurso de prompt caching do Claude. A plataforma oferece suporte total ao formato nativo da Messages API da Anthropic, incluindo o parâmetro cache_control, permitindo validar a integração em apenas 5 minutos.

Monitoramento de Desempenho e Depuração do Claude Prompt Caching

Após ativar o cache, você deve monitorar a eficácia através do campo usage na resposta da API.

Campos Chave na Resposta de Cache do Claude

{
  "usage": {
    "input_tokens": 50,
    "cache_creation_input_tokens": 100000,
    "cache_read_input_tokens": 0,
    "output_tokens": 500
  }
}

Campo	Significado
`input_tokens`	Tokens de entrada após o ponto de interrupção do cache
`cache_creation_input_tokens`	Tokens gravados no cache nesta chamada
`cache_read_input_tokens`	Tokens lidos do cache
`output_tokens`	Tokens de saída

Fórmula de cálculo do total de tokens de entrada:

total_input = cache_read_input_tokens + cache_creation_input_tokens + input_tokens

Solução de Problemas: Por que o Cache do Claude não foi Ativado?

Se você notar que o cache nunca é atingido, verifique os seguintes pontos:

Formato de chamada incorreto: Usou o modo de compatibilidade OpenAI em vez do formato nativo da Anthropic.
Conteúdo inconsistente: O cache exige uma correspondência 100% exata do prefixo do comando.
Tokens insuficientes: Não atingiu o número mínimo de tokens exigido pelo modelo para cache.
Expiração por tempo: Mais de 5 minutos sem uso resultaram na expiração do cache.
Alteração de parâmetros: Mudanças em tool_choice, conteúdo de imagem ou parâmetros de thinking.

Requisitos Mínimos de Tokens para Cache por Modelo Claude

Série do Modelo	Mínimo de Tokens para Cache
Claude Opus 4.6 / Opus 4.5	4.096 tokens
Claude Sonnet 4.6 / Sonnet 4.5 / Sonnet 4 / Opus 4.1 / Opus 4	1.024 tokens
Claude Haiku 4.5	4.096 tokens
Claude Haiku 3.5 / Haiku 3	2.048 tokens

Se o seu comando tiver menos que o mínimo de tokens, o cache não será ativado mesmo com a tag cache_control — a requisição será processada normalmente, mas sem cache.

🎯 Dica de Depuração: Ao invocar a API do Claude na plataforma APIYI (apiyi.com), você pode verificar rapidamente se o cache está funcionando através do campo usage na resposta. Se tanto cache_read_input_tokens quanto cache_creation_input_tokens forem 0, significa que o recurso de cache não foi ativado corretamente.

FAQ sobre o Claude Prompt Caching

Q1: Posso usar o cache ao chamar o Claude no modo de compatibilidade com OpenAI?

Não. Esta é uma restrição declarada explicitamente pela Anthropic. O modo de compatibilidade com OpenAI (endpoint /v1/chat/completions) não suporta prompt caching. Você deve usar o formato nativo da Messages API da Anthropic (endpoint /v1/messages) para utilizar a funcionalidade de cache.

Através da plataforma APIYI (apiyi.com), você pode usar ambos os formatos para a invocação do modelo Claude — se precisar da função de cache, basta selecionar o endpoint /v1/messages.

Q2: A escrita no cache do Claude é mais cara que a entrada normal, ainda vale a pena?

Com certeza. A escrita no cache é apenas 25% mais cara que a entrada básica (com TTL de 5 minutos), mas um hit de cache custa apenas 10% do valor original. Se o mesmo conteúdo for usado mais de 2 vezes, você já recupera o investimento e começa a economizar. Tomando como exemplo um comando de sistema de 100 mil tokens:

Sem cache: $0.30 por vez (Sonnet 3.5/3.7)
Escrita em cache: $0.375 (apenas na primeira vez)
Leitura de cache: $0.03 (cada vez subsequente)
A partir da 2ª chamada, você já começa a economizar.

Q3: Como migrar do formato OpenAI para o formato nativo da Anthropic no código?

Principais pontos de mudança:

Endpoint: /v1/chat/completions → /v1/messages
Cabeçalho da requisição: Adicionar anthropic-version: 2023-06-01
Formato da mensagem: A estrutura do array messages é basicamente a mesma
Comando de sistema: Extraído de messages para um campo system independente
Adição do parâmetro cache_control

A plataforma APIYI (apiyi.com) suporta ambos os endpoints simultaneamente. Ao migrar, você só precisa alterar o caminho e o formato da requisição, sem necessidade de trocar a chave API.

Q4: O cache do Claude pode ser compartilhado entre diferentes requisições?

O cache é compartilhado dentro do mesmo Workspace (desde 5 de fevereiro de 2026, a Anthropic mudou o isolamento de nível organizacional para nível de Workspace). O cache nunca é compartilhado entre organizações diferentes.

Q5: O cache e a Batch API podem ser usados juntos?

Sim. A Batch API oferece 50% de desconto, e o multiplicador de preço do cache é aplicado sobre esse valor já reduzido. A combinação de ambos permite a máxima otimização de custos. Recomendamos usar um TTL de cache de 1 hora em cenários de processamento em lote para aumentar a taxa de acerto (hit rate).

Resumo: 3 pontos fundamentais sobre o faturamento do Claude Prompt Caching

Com base na análise deste artigo, aqui estão os 3 pontos cruciais que você deve lembrar sobre o faturamento do prompt caching do Claude:

Suporte apenas ao formato nativo da Anthropic: A funcionalidade de cache está disponível apenas no endpoint /v1/messages; o modo de compatibilidade com OpenAI (/v1/chat/completions) não a suporta.
Custo de hit de cache é de apenas 10%: Você paga 25% a mais na primeira escrita, mas cada hit subsequente custa apenas um décimo do preço base. O investimento se paga em apenas 2 chamadas.
A forma correta de chamada é a chave: Use o parâmetro cache_control: {"type": "ephemeral"} e certifique-se de atingir o requisito mínimo de tokens de cache do modelo.

Recomendamos experimentar a funcionalidade completa do Claude prompt caching através da plataforma APIYI (apiyi.com). A plataforma oferece suporte total à Messages API nativa da Anthropic, ajudando você a utilizar os modelos Claude com o melhor custo-benefício.

Referências

Documentação oficial de Prompt Caching da Anthropic: Detalhes sobre a funcionalidade de cache da API do Claude
- Link: platform.claude.com/docs/en/build-with-claude/prompt-caching
Página oficial de preços da Anthropic: Preços dos modelos Claude e do cache
- Link: platform.claude.com/docs/en/about-claude/pricing
Documentação de compatibilidade do SDK da OpenAI: Explicação das limitações de recursos no modo de compatibilidade
- Link: platform.claude.com/docs/en/api/openai-sdk

📝 Autor: Equipe APIYI | Equipe Técnica APIYI, especializada em integração de APIs de Modelos de Linguagem Grandes e compartilhamento de conhecimento técnico. Acesse apiyi.com para mais tutoriais técnicos.

Domine os 3 pontos-chave do faturamento de cache do Claude: por que você deve usar o formato nativo da Anthropic para a invocação

Princípios Fundamentais do Mecanismo de Prompt Caching do Claude

Como o cache do Claude funciona

Conteúdos suportados pelo Prompt Caching do Claude

Formato Nativo da Anthropic vs. Modo de Compatibilidade OpenAI: Diferenças no Suporte ao Cache do Claude

Declaração oficial da Anthropic

Comparação de funcionalidades entre os dois formatos de chamada da API do Claude

Por que o modo de compatibilidade OpenAI não suporta o cache do Claude

Detalhes de Preços do Prompt Caching do Claude: Economize até 90% nos custos

Comparação de preços de cache para todos os modelos Claude

Regras de cálculo de preços do cache do Claude

Código Prático de Claude Prompt Caching: Chamada no Formato Nativo da Anthropic

Exemplo de Chamada Básica: Formato Nativo da Anthropic + Extended Thinking

Modo de Cache Automático: A Maneira Mais Simples de Ativar o Cache do Claude

Modo de Cache Explícito: Controle Preciso do Conteúdo do Cache do Claude

Cache de Longa Duração de 1 Hora: Estendendo o Tempo de Cache do Claude

Monitoramento de Desempenho e Depuração do Claude Prompt Caching

Campos Chave na Resposta de Cache do Claude

Solução de Problemas: Por que o Cache do Claude não foi Ativado?

Requisitos Mínimos de Tokens para Cache por Modelo Claude

FAQ sobre o Claude Prompt Caching

Q1: Posso usar o cache ao chamar o Claude no modo de compatibilidade com OpenAI?

Q2: A escrita no cache do Claude é mais cara que a entrada normal, ainda vale a pena?

Q3: Como migrar do formato OpenAI para o formato nativo da Anthropic no código?

Q4: O cache do Claude pode ser compartilhado entre diferentes requisições?

Q5: O cache e a Batch API podem ser usados juntos?

Resumo: 3 pontos fundamentais sobre o faturamento do Claude Prompt Caching

Referências

8 maneiras de resolver o erro do ChatGPT Este site não é seguro ERR_SSL_VERSION_OR_CIPHER_MISMATCH

3 formas de configurar a pesquisa na web do OpenClaw: torne seu assistente pessoal mais poderoso

Análise detalhada da marca d’água SynthID nas imagens Nano Banana: 5 mecanismos centrais e guia de detecção de rastreabilidade de imagens de IA

Claude Opus 4.6 alcança o topo do ranking Arena em Texto e Código: Guia de acesso com 12% de desconto no APIYI

Resumo das últimas notícias do Claude 5: Análise dos 6 principais destaques da próxima geração de modelo de IA da Anthropic para 2026

5 métodos eficientes para processar CSV e Excel com o Claude Opus 4.7

Princípios Fundamentais do Mecanismo de Prompt Caching do Claude

Como o cache do Claude funciona

Conteúdos suportados pelo Prompt Caching do Claude

Formato Nativo da Anthropic vs. Modo de Compatibilidade OpenAI: Diferenças no Suporte ao Cache do Claude

Declaração oficial da Anthropic

Comparação de funcionalidades entre os dois formatos de chamada da API do Claude

Por que o modo de compatibilidade OpenAI não suporta o cache do Claude

Detalhes de Preços do Prompt Caching do Claude: Economize até 90% nos custos

Comparação de preços de cache para todos os modelos Claude

Regras de cálculo de preços do cache do Claude

Código Prático de Claude Prompt Caching: Chamada no Formato Nativo da Anthropic

Exemplo de Chamada Básica: Formato Nativo da Anthropic + Extended Thinking

Modo de Cache Automático: A Maneira Mais Simples de Ativar o Cache do Claude

Modo de Cache Explícito: Controle Preciso do Conteúdo do Cache do Claude

Cache de Longa Duração de 1 Hora: Estendendo o Tempo de Cache do Claude

Monitoramento de Desempenho e Depuração do Claude Prompt Caching

Campos Chave na Resposta de Cache do Claude

Solução de Problemas: Por que o Cache do Claude não foi Ativado?

Requisitos Mínimos de Tokens para Cache por Modelo Claude

FAQ sobre o Claude Prompt Caching

Q1: Posso usar o cache ao chamar o Claude no modo de compatibilidade com OpenAI?

Q2: A escrita no cache do Claude é mais cara que a entrada normal, ainda vale a pena?

Q3: Como migrar do formato OpenAI para o formato nativo da Anthropic no código?

Q4: O cache do Claude pode ser compartilhado entre diferentes requisições?

Q5: O cache e a Batch API podem ser usados juntos?

Resumo: 3 pontos fundamentais sobre o faturamento do Claude Prompt Caching

Referências

Similar Posts