|

Nano Banana 2 definir response_modalities=IMAGE apenas retorna imagem pode economizar quantos Token? Análise de cobrança com medição real

Nota do autor: Análise profunda das diferenças no consumo de tokens ao configurar response_modalities como IMAGE (apenas imagem) no Nano Banana 2, desvendando as regras de cobrança para os três tipos de tokens (imagem/texto/pensamento) e fornecendo a configuração ideal para economizar.

nano-banana-2-response-modalities-image-only-token-cost-guide-pt-pt 图示

Ao chamar o Nano Banana 2 para gerar imagens, o parâmetro response_modalities tem duas formas de configuração: ["Text", "Image"] (padrão) e ["Image"] (apenas imagem). Uma pergunta natural surge: Configurar para retornar apenas a imagem economiza quantos tokens e quanto dinheiro?

Valor Principal: Ao ler este artigo, você entenderá completamente as regras de cobrança dos três tipos de tokens de saída do Nano Banana 2 (imagem/texto/pensamento), saberá exatamente quanto response_modalities=["Image"] pode economizar e quais são as estratégias de economia realmente eficazes.

Regras de cobrança para três tipos de tokens de saída do Nano Banana 2

A cobrança pela saída do Nano Banana 2 não é simplesmente um "preço único", mas sim dividida em três tipos de tokens precificados independentemente:

Tipo de Token Preço por Unidade Explicação Pode ser eliminado por parâmetro?
Token de Saída de Imagem $60.00 / M Tokens Tokens consumidos para gerar imagens, representam 95%+ do custo total ❌ Não (produto principal)
Token de Saída de Texto $3.00 / M Tokens Descrição/legenda de texto que acompanha a imagem ✅ Sim, configurando ["Image"]
Token de Pensamento (Thinking) $3.00 / M Tokens Consumido no processo de raciocínio interno do modelo ❌ Sempre gerado, não pode ser desativado
Token de Entrada $0.50 / M Tokens Seu texto de prompt e imagem de referência ⚠️ Pode ser otimizado reduzindo o tamanho do prompt

Tokens de Imagem do Nano Banana 2 são a grande maioria absoluta do custo

Número crucial: o preço unitário dos tokens de saída de imagem é $60/M, enquanto o dos tokens de texto e pensamento é apenas $3/M — os tokens de imagem são 20 vezes mais caros.

Resolução Tokens de Saída de Imagem Custo da Imagem Proporção do Custo Total de Saída
512px ~747 ~$0.045 ~95%
1K (padrão) ~1,120 ~$0.067 ~96%
2K ~1,680 ~$0.101 ~97%
4K ~2,520 ~$0.151 ~97%

🔑 Conclusão principal: Os tokens de imagem representam 95-97% do custo total de saída. Tokens de texto e pensamento juntos representam apenas 3-5%. Portanto, mesmo eliminando completamente a saída de texto, a economia é muito limitada.


Comparação de Tokens entre as duas configurações de response_modalities

nano-banana-2-response-modalities-image-only-token-cost-guide-pt-pt 图示

Configuração ["Text", "Image"] — Modo padrão

Por padrão, o Nano Banana 2 retorna uma imagem + uma descrição em texto. O modelo primeiro "pensa" (Thinking), depois gera uma descrição textual e a imagem.

from google import genai
from google.genai import types

client = genai.Client(api_key="YOUR_API_KEY")

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents="Gere um gato vestindo um traje espacial",
    config=types.GenerateContentConfig(
        response_modalities=["Text", "Image"],  # Padrão: texto+imagem
    )
)

Conteúdo de saída: Uma descrição textual (ex: "Este é um gato laranja vestindo um traje espacial…") + 1 imagem

Composição do consumo de tokens (exemplo para resolução 1K):

  • Tokens de Pensamento: ~200-800 (varia com a complexidade do prompt)
  • Tokens de Saída de Texto: ~50-200
  • Tokens de Saída de Imagem: ~1,120

Configuração ["Image"] — Modo apenas imagem

Configurado para retornar apenas a imagem, sem a descrição textual.

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents="Gere um gato vestindo um traje espacial",
    config=types.GenerateContentConfig(
        response_modalities=["Image"],  # Apenas imagem, sem retorno de texto
    )
)

Conteúdo de saída: Apenas 1 imagem, sem descrição textual

Composição do consumo de tokens (exemplo para resolução 1K):

  • Tokens de Pensamento: ~200-800 (ainda gerados, ainda cobrados)
  • Tokens de Saída de Texto: 0 (eliminados ✅)
  • Tokens de Saída de Imagem: ~1,120 (inalterado)

Comparação de custos dos dois modos do Nano Banana 2

Item de Comparação ["Text", "Image"] Padrão ["Image"] Apenas Imagem Diferença
Tokens de Imagem (~1,120) $0.0672 $0.0672 0 (inalterado)
Tokens de Pensamento (~500) $0.0015 $0.0015 0 (inalterado)
Tokens de Texto (~100) $0.0003 $0 Economia de $0.0003
Custo total por imagem (1K) ~$0.069 ~$0.069 Economia de ~0.4%

⚠️ Conclusão: response_modalities=["Image"] realmente elimina os tokens de saída de texto, mas como o preço unitário dos tokens de texto é apenas $3/M e a quantidade é pequena (cerca de 50-200 tokens), na prática economiza apenas cerca de $0.0001-$0.0006 por imagem, o que é quase insignificante.


Por que os Thinking Tokens do Nano Banana 2 não podem ser eliminados?

Este é o ponto mais facilmente esquecido na precificação do Nano Banana 2: Os Thinking Tokens são sempre gerados e sempre cobrados, independentemente de você ver ou não o processo de pensamento.

A documentação oficial do Google afirma claramente:

Thinking tokens são cobrados independentemente de includeThoughts estar definido como true ou false, pois o processo de pensamento sempre ocorre por padrão.

Isso significa que:

  • includeThoughts=True: Você pode ver o processo de pensamento, é cobrado
  • includeThoughts=False: Você não pode ver o processo de pensamento, ainda é cobrado
  • Taxa de cobrança dos Thinking Tokens: $3/M (a mesma da saída de texto)

O Nano Banana 2 suporta dois níveis de Thinking:

Nível de Thinking Como configurar Consumo de Thinking Tokens Qualidade da imagem Cenário recomendado
minimal Padrão ~200-500 Suficiente para a maioria dos cenários Geração diária de imagens
high thinking_level="high" ~500-2000 Melhor para cenários complexos Múltiplos personagens/composição precisa

💡 Dica de otimização: Se você não precisa da qualidade de imagem máxima, mantenha o nível de pensamento padrão minimal. O nível high adiciona centenas a milhares de Thinking Tokens. Embora o preço unitário seja baixo ($3/M), em cenários de processamento em lote, isso pode se tornar um custo significativo.


Estratégias de economia realmente eficazes para o Nano Banana 2

Se response_modalities=["Image"] não economiza muito, quais estratégias são realmente eficazes?

nano-banana-2-response-modalities-image-only-token-cost-guide-pt-pt 图示

Estratégia de economia Taxa de economia Ação específica Recomendação
Escolher a resolução adequada Até 70% 4K→512px custo cai de $0.151 para $0.045 ⭐⭐⭐⭐⭐
Usar APIYI por chamada Até 70% $0.045/imagem (inclui 4K), sem distinção de resolução ⭐⭐⭐⭐⭐
Usar APIYI por volume Até 63% Baixa resolução apenas $0.018/imagem (512px) ⭐⭐⭐⭐⭐
Google Batch API 50% Processamento em lote offline, tokens de imagem com 50% de desconto ⭐⭐⭐⭐
Thinking minimal 2-5% Manter o nível de pensamento padrão ⭐⭐⭐
response_modalities=["Image"] ~0.4% Remover saída de texto

Comparação de preços do Nano Banana 2 em diferentes resoluções entre plataformas

Resolução Google Oficial APIYI por chamada APIYI por volume Economia máxima
512px $0.045 $0.045 $0.018 60%
1K $0.067 $0.045 $0.025 63%
2K $0.101 $0.045 $0.03 70%
4K $0.151 $0.045 $0.045 70%

🎯 Melhor prática: Se o seu negócio permite usar 1K em vez de 4K, você economiza 55% diretamente. Combinado com o plano por volume do APIYI em apiyi.com, a resolução 1K custa apenas $0.025/imagem, economizando 83% em comparação com os $0.151 do 4K oficial. A plataforma também oferece uma ferramenta de teste de geração de imagens gratuita, o AI 图片大师: imagen.apiyi.com, que permite validar rapidamente os efeitos de diferentes resoluções sem escrever código.

Configuração ideal para chamar o Nano Banana 2 via APIYI

Com base na análise acima, aqui está a configuração ideal recomendada:

import requests
import base64

API_KEY = "your-apiyi-api-key"
ENDPOINT = "https://api.apiyi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent"

headers = {
    "Content-Type": "application/json",
    "x-goog-api-key": API_KEY
}

payload = {
    "contents": [{"parts": [{"text": "Um gato vestindo um traje espacial, estilo arte digital"}]}],
    "generationConfig": {
        "responseModalities": ["IMAGE"],  # Apenas imagem, economiza tokens de texto
        "imageConfig": {
            "aspectRatio": "1:1",
            "imageSize": "1K"  # Escolha a resolução conforme necessário, esta é a chave para economizar
        }
    }
}

response = requests.post(ENDPOINT, headers=headers, json=payload, timeout=120)
result = response.json()

image_data = result["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
with open("output.png", "wb") as f:
    f.write(base64.b64decode(image_data))

Recomendação: Ao chamar o Nano Banana 2 via APIYI (apiyi.com), o custo é de $0,045 por imagem no modo por uso, independentemente da resolução. No modo por volume, o custo mínimo é de $0,018 por imagem. Suporta o formato nativo do Google para chamadas, com custo zero de migração.


Perguntas Frequentes

Q1: Os tokens de pensamento ainda são gerados após configurar response_modalities=[“Image”]?

Sim. O processo de pensamento (Thinking) do Nano Banana 2 é habilitado por padrão e não pode ser desativado. Independentemente de você configurar response_modalities como ["Image"] ou ["Text", "Image"], e independentemente de includeThoughts ser definido como true ou false, os tokens de pensamento serão gerados e cobrados. A boa notícia é que os tokens de pensamento são cobrados à taxa de texto de $3/M, muito mais baixa que a taxa de $60/M para tokens de imagem.

Q2: Qual é então o propósito de definir [“Image”]?

Tem dois valores principais: primeiro, reduzir o volume de transferência de rede – não retornar conteúdo de texto significa uma análise de resposta mais rápida; segundo, simplificar a lógica do código – não é necessário processar a parte de texto adicionalmente. Embora a economia de custos seja inferior a 1%, em cenários que exigem saída puramente de imagem (como produção de material em lote), obter a imagem diretamente é mais conveniente.

Q3: Qual é mais vantajoso: o modo por uso ou o modo por volume na APIYI?

Depende da resolução que você usa com frequência. O modo por uso custa $0,045 por imagem, independentemente da resolução, sendo ideal para cenários que frequentemente geram imagens grandes de 2K/4K. O modo por volume cobra de forma flexível com base no consumo de tokens, com baixa resolução (512px) custando apenas $0,018 por imagem, sendo adequado para cenários de geração de imagens de baixa resolução em lote. Basta se registrar na APIYI (apiyi.com) para usar os dois modos de cobrança.


Resumo

Os pontos principais da análise de cobrança do response_modalities do Nano Banana 2 são:

  1. Tokens de imagem são a grande maioria: O preço de $60/M por token de imagem representa 95-97% do custo total de saída. Tokens de texto e de "pensamento" juntos somam apenas 3-5%.
  2. Definir ["Image"] não economiza muito: Elimina apenas os tokens de saída de texto, economizando cerca de $0.0003 por imagem (menos de 0.5%).
  3. Tokens de "pensamento" não podem ser eliminados: São sempre gerados e cobrados, com uma taxa de $3/M, independente da configuração do response_modalities.
  4. A verdadeira economia vem da resolução e da plataforma: Escolher a resolução adequada pode economizar até 70%. Usar o APIYI pode economizar mais 63%.

Recomendamos usar o APIYI (apiyi.com) para invocar o Nano Banana 2. O preço por chamada é de $0.045/imagem (incluindo 4K, sem limite de resolução), e o preço por volume pode chegar a apenas $0.018/imagem. A plataforma não tem limite de concorrência, suporta o formato nativo do Google para chamadas e inclui uma ferramenta gratuita de geração de imagens: imagen.apiyi.com.


📚 Referências

  1. Página de preços da API Google Gemini: Tabela oficial de preços por token do Nano Banana 2

    • Link: ai.google.dev/gemini-api/docs/pricing
    • Descrição: Consulte os preços mais recentes para tokens de imagem, texto e "pensamento".
  2. Documentação de geração de imagens do Google AI: Explicação do parâmetro response_modalities

    • Link: ai.google.dev/gemini-api/docs/image-generation
    • Descrição: Documentação oficial explicando como configurar os modos ["Image"] e ["Text","Image"].
  3. Documentação de contagem de tokens do Google AI: Entendendo a composição e cobrança de tokens

    • Link: ai.google.dev/gemini-api/docs/tokens
    • Descrição: Entenda a relação entre o número de tokens de saída de imagem e a resolução.
  4. Documentação do Nano Banana 2 no APIYI: Detalhes dos dois modos de cobrança (por chamada e por volume)

    • Link: docs.apiyi.com/en/api-capabilities/nano-banana-2-image
    • Descrição: Explicação dos planos de cobrança e métodos de invocação na plataforma APIYI.

Autor: Equipe Técnica da APIYI
Discussão técnica: Sinta-se à vontade para discutir nos comentários. Para mais informações, visite o centro de documentação da APIYI em docs.apiyi.com.

Similar Posts