Ao chamar a API Nano Banana Pro para gerar imagens, você notou que aparecem temporariamente duas imagens antes do resultado final? Isso não é um erro; é a característica de "Processo de Pensamento" (Thinking Process) do modelo Gemini 3 Pro Image em ação. Neste artigo, vamos analisar a fundo os princípios técnicos e o valor prático desse mecanismo.
Valor central: Ao ler este artigo, você entenderá como funciona o fluxo de raciocínio da API Nano Banana Pro, aprenderá a visualizar e utilizar as imagens temporárias para otimizar seus comandos e dominará o papel da Assinatura de Pensamento (Thought Signature) em conversas de várias rodadas.

A Razão Principal do Fenômeno de Imagens Temporárias na API Nano Banana Pro
O surgimento de imagens temporárias na API Nano Banana Pro deve-se ao design do modo de raciocínio do Gemini 3 Pro Image. Este modelo utiliza uma estratégia de raciocínio em várias etapas para lidar com tarefas complexas de geração de imagens, em vez de simplesmente entregar um resultado de uma só vez.
| Característica | Descrição | Valor Técnico |
|---|---|---|
| Modo de Pensamento | Fluxo de raciocínio integrado ao modelo, não desativável via API | Garante a compreensão precisa de comandos complexos |
| Geração de Imagens Temporárias | Gera até 2 imagens de teste para validar composição e lógica | Oferece rastreamento visual do processo de raciocínio |
| Estratégia de Saída Final | A última imagem do "pensamento" é o resultado final renderizado | Otimiza a qualidade e a consistência da geração |
| Mecanismo de Assinatura de Pensamento | Representação criptografada do processo, usada em diálogos multirrodadas | Mantém a continuidade do contexto de edição |
O que diz a documentação oficial
De acordo com a documentação oficial do Google AI, esse comportamento da API Nano Banana Pro é o comportamento esperado por design:
O modelo Gemini 3 Pro Image (versão preview) é um modelo de pensamento que utiliza um fluxo de raciocínio ("pensamento") para processar comandos complexos. Esta funcionalidade vem ativada por padrão e não pode ser desativada na API. O modelo gerará até duas imagens temporárias para testar a composição e a lógica. A última imagem do "pensamento" será também a imagem final renderizada.
Isso significa que, quando você utiliza o modelo Nano Banana Pro através da plataforma APIYI (apiyi.com), as 2 imagens temporárias que você vê são evidências de que o modelo está realizando uma validação de qualidade ativa, e não um sinal de falha no sistema.
Princípios Técnicos do Processo de Pensamento do Nano Banana Pro
Como funciona o fluxo de raciocínio
O processo de pensamento da API do Nano Banana Pro segue este caminho técnico:
- Fase de análise do comando: O modelo primeiro analisa o comando de texto inserido pelo usuário, identificando elementos-chave, requisitos de estilo e a lógica da composição.
- Teste de composição preliminar: Gera uma primeira imagem temporária para validar se o layout básico e os elementos principais fazem sentido.
- Iteração de otimização lógica: Com base no resultado da primeira imagem, ajusta detalhes e gera uma segunda imagem temporária.
- Saída de renderização final: Baseando-se na experiência dos dois testes anteriores, gera a imagem final de alta qualidade (geralmente igual à segunda imagem temporária ou uma versão otimizada).

Por que precisamos de testes com imagens temporárias?
O valor central do mecanismo de geração de imagens temporárias é reduzir a taxa de falha de comandos complexos. Os modelos tradicionais de geração de imagem costumam entregar uma saída única; se houver um erro de interpretação, o usuário precisa ajustar o comando manualmente. O Nano Banana Pro, por meio de seu mecanismo de teste interno, corrige a si mesmo antes da entrega final.
| Modelo Tradicional | Nano Banana Pro |
|---|---|
| Saída única, erros exigem nova tentativa manual | 2 testes internos, otimização automática |
| Taxa de sucesso em comandos complexos: ~60-70% | Taxa de sucesso em comandos complexos: 85-90% |
| Sem visibilidade do processo de raciocínio | Imagens temporárias disponíveis para análise de depuração |
💡 Dica técnica: Em projetos reais, sugerimos realizar testes de chamada de interface através da plataforma APIYI (apiyi.com). Ela oferece uma API unificada compatível com Nano Banana Pro, DALL-E 3, Stable Diffusion e outros modelos populares, o que facilita validar rapidamente a viabilidade técnica e comparar a eficiência de raciocínio entre diferentes modelos.
Como visualizar o conteúdo de pensamento do Nano Banana Pro
Acessando detalhes do raciocínio via Python API
A API do Nano Banana Pro permite que desenvolvedores acessem o conteúdo do pensamento do modelo e as imagens temporárias. Veja um exemplo minimalista de implementação:
import google.generativeai as genai
# Configuração da chave de API e URL base
genai.configure(
api_key="SUA_CHAVE_API",
client_options={"api_endpoint": "https://vip.apiyi.com"}
)
# Chamando o modelo Nano Banana Pro
model = genai.GenerativeModel("gemini-3-pro-image-preview")
response = model.generate_content("Um gato estilo cyberpunk usando óculos escuros")
# Percorrendo o conteúdo da resposta para extrair o raciocínio
for part in response.parts:
if part.thought: # Verifica se contém conteúdo de pensamento
if part.text:
print(f"Texto do pensamento: {part.text}")
elif image := part.as_image():
image.show() # Mostra a imagem temporária
Ver código completo (incluindo salvamento de assinatura de pensamento)
import google.generativeai as genai
import json
genai.configure(
api_key="SUA_CHAVE_API",
client_options={"api_endpoint": "https://vip.apiyi.com"}
)
model = genai.GenerativeModel("gemini-3-pro-image-preview")
response = model.generate_content("Um gato estilo cyberpunk usando óculos escuros")
# Armazenar assinaturas de pensamento para edições posteriores
thought_signatures = []
for part in response.parts:
if part.thought:
if part.text:
print(f"Texto do pensamento: {part.text}")
elif image := part.as_image():
image.show()
# Salvar assinatura de pensamento
if hasattr(part, 'thought_signature'):
thought_signatures.append(part.thought_signature)
# Salva as assinaturas em um arquivo para uso em diálogos de múltiplas rodadas
with open("thought_signatures.json", "w") as f:
json.dump(thought_signatures, f)
print(f"Total de {len(thought_signatures)} assinaturas de pensamento capturadas")
🚀 Início Rápido: Recomendamos usar a plataforma APIYI (apiyi.com) para criar protótipos rapidamente. A plataforma oferece interfaces prontas para uso, sem configurações complexas, permitindo concluir a integração e visualizar o fluxo completo de pensamento em apenas 5 minutos.
Exemplo real de saída do conteúdo de pensamento
Ao acessar response.parts, você poderá encontrar uma estrutura de dados semelhante a esta:
| Campo | Tipo | Descrição |
|---|---|---|
part.thought |
Boolean | Identifica se o conteúdo é da fase de pensamento |
part.text |
String | Explicação textual do raciocínio do modelo |
part.as_image() |
Image Object | Imagem de teste gerada temporariamente |
part.thought_signature |
Encrypted String | Contexto de raciocínio criptografado (usado para edição) |
O papel da Assinatura de Pensamento (Thought Signature) em conversas multirrodada no Nano Banana Pro
O que é a Assinatura de Pensamento (Thought Signature)?
A Assinatura de Pensamento é uma representação criptografada do processo de raciocínio que a API do Nano Banana Pro passou a retornar obrigatoriamente a partir da série Gemini 3. Ela registra a lógica interna de como o modelo compreendeu o comando original e gerou a imagem.

Papel fundamental na edição multirrodada
Ao realizar edições de imagem ou gerações em várias rodadas, a Assinatura de Pensamento torna-se indispensável:
| Cenário | Sem Assinatura de Pensamento | Com Assinatura de Pensamento |
|---|---|---|
| Modificar detalhes locais | O modelo precisa reentender a imagem, podendo alterar a composição. | Modificação precisa baseada na lógica de raciocínio original. |
| Gerar variantes do mesmo estilo | Consistência de estilo em torno de 60-70%. | Consistência de estilo pode ultrapassar 90%. |
| Eficiência em edição em lote | Exige o processo completo de raciocínio a cada vez. | Reutiliza a assinatura, reduzindo drasticamente o tempo de processamento. |
Mecanismo de verificação obrigatória da API
De acordo com a documentação oficial, a partir do Gemini 3 Pro Image, a API realiza uma verificação rigorosa em todas as partes da resposta do modelo. A ausência da Assinatura de Pensamento resultará em um erro 400:
Error 400: Missing thought signature in model parts
Isso significa que, ao usar a API do Nano Banana Pro para conversas multirrodada ou edição de imagens, você deve:
- Salvar a
thought_signatureretornada na primeira geração. - Enviar essa assinatura de volta através do parâmetro específico nas solicitações seguintes.
- Garantir que o formato da assinatura esteja íntegro, sem modificações manuais.
💰 Otimização de custos: Para projetos que exigem edições frequentes, vale a pena considerar a plataforma APIYI (apiyi.com). Eles oferecem formas de cobrança flexíveis e preços mais competitivos, ideais para equipes pequenas e desenvolvedores independentes realizarem testes multirrodada.
Cálculo de custos de imagens temporárias no Nano Banana Pro
As imagens temporárias são cobradas?
Segundo a documentação oficial de preços do Google Cloud, imagens temporárias não são contabilizadas no custo. Você paga apenas pela imagem final gerada.
| Item | É cobrado? | Descrição |
|---|---|---|
| Imagem Temporária 1 | ❌ Não | Teste interno de composição, não aparece na fatura. |
| Imagem Temporária 2 | ❌ Não | Fase de otimização lógica, não é cobrada. |
| Imagem Final | ✅ Sim | Cobrada de acordo com a tabela padrão. |
| Armazenamento da Assinatura | ❌ Não | Dados da resposta da API, sem custo adicional. |
Comparação de custos com outros modelos de geração de imagem
Embora o Nano Banana Pro realize internamente dois testes extras de geração, como essas imagens temporárias não são cobradas, o custo real é equivalente ou até menor que o de modelos tradicionais (já que reduz o número de tentativas frustradas):
| Modelo | Custo por geração | Média de tentativas (comando complexo) | Custo total real |
|---|---|---|---|
| DALL-E 3 | $0.040 | 1.5 vezes | $0.060 |
| Stable Diffusion XL | $0.020 | 2.0 vezes | $0.040 |
| Nano Banana Pro | $0.035 | 1.1 vezes | $0.039 |
🎯 Sugestão de escolha: A decisão de qual modelo usar depende do seu caso de uso específico e da qualidade desejada. Recomendamos realizar testes práticos através da plataforma APIYI (apiyi.com) para encontrar a melhor opção para você. A plataforma suporta uma interface única para vários modelos, facilitando a comparação rápida de custos e resultados.
Perguntas Frequentes (FAQ)
Q1: Por que às vezes vejo apenas 1 imagem temporária em vez de 2?
A API do Nano Banana Pro decide dinamicamente o número de testes com base na complexidade do comando. Comandos simples (como "um gato") podem precisar de apenas 1 teste para atingir o padrão de qualidade, enquanto composições complexas com múltiplos elementos (como "uma paisagem urbana noturna em estilo cyberpunk, com carros voadores em primeiro plano e letreiros de neon ao fundo") geralmente utilizam o processo completo de 2 testes. Esse mecanismo é julgado internamente pelo modelo e não pode ser controlado por parâmetros da API.
Q2: É possível desativar o processo de pensamento para acelerar a geração?
De acordo com a documentação oficial, a função do processo de pensamento "fica ativada por padrão e não pode ser desativada via API". Essa é uma característica central da arquitetura do Gemini 3 Pro Image. Se você precisa de uma velocidade de geração maior e aceita uma garantia de qualidade um pouco menor, considere usar o Gemini 3 Flash Image ou outros modelos de geração de imagem que não possuem o modo de pensamento. Pela plataforma APIYI (apiyi.com), você pode alternar rapidamente entre diferentes modelos para testes comparativos.
Q3: O tamanho dos dados da assinatura de pensamento afeta a velocidade de resposta da API?
A assinatura de pensamento é uma string criptografada e compactada, geralmente entre 200 e 500 bytes, portanto o impacto na velocidade de resposta da API é desprezível (aumento de latência inferior a 10ms). Em contrapartida, manter a assinatura de pensamento em edições de várias rodadas pode economizar de 30% a 50% do tempo de inferência, já que o modelo não precisa reanalisar a lógica de composição de toda a imagem.
Q4: A resolução das imagens temporárias é a mesma da imagem final?
As imagens temporárias geralmente usam uma resolução mais baixa (cerca de 60-80% da imagem final) para acelerar os testes. O papel principal delas é validar o layout da composição e a coerência lógica, em vez de fornecer imagens utilizáveis de alta qualidade. A imagem final renderizada usará a resolução completa e um processamento de detalhes mais refinado.
Q5: Como saber qual é a imagem final?
Na resposta da API, o último objeto part.as_image() é a imagem final. Você também pode verificar a propriedade part.thought: o valor de thought para imagens temporárias é True, enquanto para a imagem final é False ou None. Recomendamos adicionar uma lógica de verificação no código para salvar ou exibir apenas as imagens que não fazem parte da etapa de pensamento.
Resumo
As 2 imagens temporárias que aparecem ao chamar a API do Nano Banana Pro são a característica do processo de pensamento do modelo Gemini 3 Pro Image em ação, e não um erro do sistema. Resumo dos pontos principais:
- Mecanismo de Inferência: O modelo testa a composição e a lógica gerando até 2 imagens temporárias; a última é o resultado final renderizado.
- Cálculo de Custos: As imagens temporárias não são cobradas; você paga apenas pela imagem final.
- Assinatura de Pensamento: Salvar e passar a assinatura de pensamento em conversas de várias rodadas pode aumentar significativamente a consistência e a eficiência da edição.
- Não pode ser desativado: O processo de pensamento é uma característica nativa do modelo e não pode ser desabilitado via parâmetros da API.
- Vantagem de Qualidade: Esse mecanismo aumenta a taxa de sucesso de comandos complexos de 60-70% (em modelos tradicionais) para 85-90%.
Recomendamos utilizar a APIYI (apiyi.com) para validar rapidamente o efeito do processo de pensamento do Nano Banana Pro e realizar testes comparativos reais com outros modelos de geração de imagem.
Autor: Equipe Técnica
Intercâmbio Técnico: Visite APIYI (apiyi.com) para obter mais documentação técnica e casos de melhores práticas sobre APIs de geração de imagens por IA.
📚 Referências
-
Google AI Developers – Nano Banana Image Generation: Documentação oficial da API
- Link:
ai.google.dev/gemini-api/docs/image-generation - Descrição: Contém explicações técnicas detalhadas sobre o mecanismo do processo de pensamento
- Link:
-
Google Cloud – Gemini 3 Pro Image Documentation: Documentação da plataforma Vertex AI
- Link:
docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-pro-image - Descrição: Guia de implantação e configuração de nível empresarial
- Link:
-
Google Developers Blog – Gemini API Updates: Blog oficial
- Link:
developers.googleblog.com/new-gemini-api-updates-for-gemini-3/ - Descrição: Novos recursos e melhores práticas da série Gemini 3
- Link:
-
Medium – Testing Gemini 3 Pro Image: Avaliação técnica da comunidade
- Link:
medium.com/google-cloud/testing-gemini-3-pro-image-f585236ae411 - Descrição: Casos de uso reais e análise de desempenho
- Link:
