Ao utilizar a API Nano Banana Pro para renderização de casas, geração de imagens de produtos ou cenários de e-commerce, você pode se deparar com uma situação confusa: você envia duas imagens de referência e um comando claro, mas o resultado retornado parece uma "cópia fiel" de uma das imagens de referência, sem realizar a edição conforme solicitado. Esse fenômeno tornou-se mais frequente após o lançamento do Gemini 3.1 Flash Image em fevereiro de 2026, e discussões no Google AI Developers Forum confirmam que o modelo Pro apresenta "alta instabilidade" em cenários com múltiplas imagens de referência.
Este artigo analisa o mecanismo de invocação da API e, com base em um caso real de renderização de "esboço arquitetônico + renderização final", explica as 5 condições principais que fazem o Nano Banana Pro retornar a imagem original, oferecendo 8 soluções práticas. Todos os exemplos de invocação baseiam-se na plataforma APIYI (apiyi.com), que implementou melhorias de estabilidade para a série de modelos Gemini 3 Pro Image, sendo ideal para testar os comandos de correção sugeridos.
1. Fenômenos típicos do problema de retorno da imagem original no Nano Banana Pro
Vamos analisar um caso real: um usuário estava realizando uma renderização de design residencial e enviou duas imagens de referência — a Imagem 1 era um esboço arquitetônico inacabado (estrutura de concreto, 4,9 MB) e a Imagem 2 era a renderização final (fachada de vidro, paisagismo e iluminação de pôr do sol, 13,8 MB). O comando, escrito em chinês simplificado, dizia: "Renderize a Imagem 1 com base na Imagem 2. Cores: adote tons frios e sofisticados… Estilo: renderização realista comercial típica…". A intenção era utilizar o estilo e os materiais da Imagem 2 para renderizar a estrutura da Imagem 1. O resultado foi uma imagem quase idêntica à Imagem 2, com as informações estruturais da Imagem 1 praticamente ausentes.
Este não é um caso isolado. No Google AI Developers Forum, desenvolvedores relataram que "o modelo realiza um subamostragem das imagens de referência de forma tão agressiva que não consegue identificar os detalhes", apontando que o problema se agravou após o lançamento do Gemini 3.1 Flash Image. Documentações de solução de problemas de plataformas de terceiros, como Replicate, Atlas Cloud e AI Free API, também registraram casos semelhantes de "saída direta da imagem de referência", embora as condições de disparo variem ligeiramente.
1.1 Frequência de ocorrência e escopo do impacto
A tabela abaixo resume a probabilidade relativa de ocorrência do fenômeno em que o Nano Banana Pro não modifica a imagem em diferentes cenários de uso, com dados compilados de feedback da comunidade e amostras de monitoramento da plataforma.
| Cenário de uso | Probabilidade de disparo | Nível de impacto |
|---|---|---|
| Edição com uma imagem de referência | Baixa | Apenas desvio de detalhes pontuais |
| Uso de duas imagens (transferência de estilo) | Médio-Alto | Saída próxima a uma das originais |
| Composição de múltiplas imagens (3+) | Alto | Modelo tende à última imagem |
| Chamadas em horários de pico (EUA/Europa) | Aumento significativo | Queda na qualidade geral dos detalhes |
| Cenários sensíveis (pessoas/marcas) | Ocasional | Recusa de edição ou retorno direto |
🎯 Sugestão de diagnóstico: Se você trabalha com e-commerce, arquitetura ou imagens de produtos utilizando múltiplas referências e a frequência de "retorno da imagem original" ultrapassa 10%, geralmente não é um problema isolado, mas uma combinação de comando, parâmetros e infraestrutura. Recomendamos utilizar a interface unificada da plataforma APIYI (apiyi.com) para comparar as saídas do Nano Banana Pro e do Nano Banana 2 com o mesmo comando, o que permite identificar rapidamente se o problema está na camada do modelo ou na camada do comando.
2. As 5 principais razões técnicas para o Nano Banana Pro retornar a imagem original

2.1 Razão 1: Confusão na referência do comando faz o modelo replicar a "Imagem 2" por padrão
O motivo mais comum para o Nano Banana Pro retornar a imagem original é que frases como "referenciar a imagem 2" no comando são interpretadas pelo modelo como "produza uma cópia da imagem 2". O guia oficial de comandos do Google DeepMind recomenda claramente: ao usar múltiplas imagens, utilize nomes semânticos (como "o wireframe", "o edifício renderizado") em vez de identificadores puramente posicionais como "imagem 2".
Em termos de semântica, "renderizar a imagem 1 com base na imagem 2" pode ser interpretado como "renderizar a imagem 1 no estilo da imagem 2", mas, ao decodificar, o modelo prioriza o sinal visual mais completo — ou seja, a imagem 2, que já é um produto final renderizado. Quando a segunda parte do comando descreve detalhadamente o tom e os materiais da imagem 2, o modelo facilmente a trata como a "saída desejada" em vez de apenas uma referência de estilo.
2.2 Razão 2: A falta de verbos de edição leva o modelo ao caminho da "reprodução"
O mecanismo central do Gemini 2.5 e do Gemini 3 Pro Image é a transformação de imagem baseada na compreensão de linguagem natural. Se o comando não contiver verbos de edição claros (transformar, renderizar, aplicar, substituir, compor, etc.), o modelo tende a seguir o caminho de "reconstrução" ao receber múltiplas imagens. Isso significa que ele reconstrói uma imagem semelhante baseada na referência com o sinal mais forte, em vez de realizar uma "edição" real.
Os modelos de comando recomendados oficialmente pelo DataCamp e pelo blog do Google Developers são: Pegue o [elemento da imagem 1] e coloque-o com/sobre o [elemento da imagem 2] ou Usando a imagem fornecida de [assunto], por favor [adicione/remova/modifique] [elemento]. Ambos os modelos usam verbos claros para ancorar "qual é o objeto a ser transformado e qual é a referência de estilo", algo que frequentemente falta nos comandos em português.
2.3 Razão 3: Conflito de proporção entre múltiplas imagens, a última imagem domina a saída
A série Nano Banana possui uma regra oficial pouco notada: ao inserir múltiplas imagens, o modelo adota por padrão a proporção da última imagem de referência. Essa regra é mencionada nos tutoriais do DataCamp e no blog do Google Developers, mas é frequentemente ignorada no desenvolvimento prático.
Voltando ao caso do usuário, a imagem 2 (efeito final construído) é uma renderização em 16:9, enquanto a imagem 1 (esboço arquitetônico) é próxima de 4:3 e menor. Quando o modelo adota a proporção da imagem 2, geometricamente é mais fácil aplicar a composição da imagem 2 na tela do que gerar algo novo baseado na imagem 1. Esse passo geralmente se sobrepõe à Razão 1, resultando na "saída direta da imagem 2".
2.4 Razão 4: Degradação da infraestrutura e recuo silencioso em horários de pico
Desde fevereiro de 2026, o Google definiu o Nano Banana 2 como a entrada padrão no aplicativo Gemini, enquanto o modelo Pro foi movido para o menu "três pontos → Regenerar". No mesmo período, surgiu o fenômeno de recuo silencioso em horários de pico na API — postagens no Fórum de Desenvolvedores de IA do Google em 18 de maio (um dia antes do Google I/O) apontaram diretamente que "a qualidade da geração de imagens cai imediatamente antes e depois de grandes lançamentos".
O comportamento específico é: o modelo ainda retorna o código de status 200, mas internamente pode alternar para um submodelo menor ou pular parte do pós-processamento, resultando em distorção de detalhes e menor aderência ao comando. Nesses casos, mesmo que o comando esteja bem escrito, a probabilidade de falha na geração de imagem para imagem do Nano Banana Pro aumenta significativamente, e o sintoma da falha costuma ser justamente o "retorno da imagem original".
2.5 Razão 5: Imagens de referência muito grandes disparam subamostragem agressiva
A mesma postagem no Fórum de Desenvolvedores de IA do Google indicou: "o modelo realiza uma subamostragem tão agressiva nas imagens de referência que se torna incapaz de identificar ou reproduzir detalhes". Quando uma imagem de referência se aproxima ou ultrapassa 13 MB, o modelo pode realizar um redimensionamento drástico durante o pré-processamento interno, fazendo com que informações estruturais cruciais (como vigas e colunas, etiquetas de produtos, expressões faciais) sejam comprimidas até ficarem borradas.
Se os detalhes da imagem 1, após a subamostragem, se tornarem quase irreconhecíveis, o modelo dependerá naturalmente da outra referência mais "nítida" durante a síntese, resultando em uma saída próxima a uma cópia da imagem 2. É por isso que o mesmo comando apresenta taxas de falha tão diferentes dependendo da resolução da imagem de referência — muitos desenvolvedores pensam ser um problema de comando, quando, na verdade, a imagem de referência é que "não pode ser vista" claramente.
III. 8 Soluções Práticas: Fazendo o Nano Banana Pro "editar conforme a imagem" de verdade

A ideia central para corrigir o problema do Nano Banana Pro retornar a imagem original é: não espere que o modelo adivinhe sua intenção. Em vez disso, deixe claro qual é a imagem base, qual é a referência e qual transformação deve ser feita, usando os parâmetros de invocação como garantia. Abaixo, dividimos em 8 pontos de correção que você pode aplicar diretamente, tanto no comando quanto nos parâmetros.
3.1 5 pontos de correção na camada de comando (prompt)
| Nº | Ponto de correção | Escrita incorreta | Escrita recomendada |
|---|---|---|---|
| 1 | Adicionar verbos de ação | "Renderize a imagem 1 com base na imagem 2" | "Transform image 1 using image 2 as reference" |
| 2 | Usar nomes semânticos em vez de números | "Imagem 1, Imagem 2" | "the wireframe / the finished rendering" |
| 3 | Definir papéis claramente | (Sem explicação) | "use the first as structure base, the second as style reference" |
| 4 | Descrever o objetivo positivamente | "Não mude para a imagem 2" | "preserve the original building outline from the first image" |
| 5 | Combinar com requisitos de material | "Use tons frios" | "apply the cool-toned glass facade and warm interior glow from image 2 onto the structure from image 1" |
💡 Modelo de comando: Para tarefas de "duas imagens" (estrutura + estilo), como renderização de casas, recomendamos usar esta estrutura fixa:
[Verbo de ação] + [referência estrutural da imagem A] + [referência de estilo/material da imagem B] + [restrições explícitas]. Na plataforma APIYI (apiyi.com), você pode encapsular esse modelo como um comando de sistema (system prompt) padrão, realizar testes A/B entre o Nano Banana Pro e o Nano Banana 2 e reduzir drasticamente o custo de iteração.
3.2 3 pontos de correção na camada de parâmetros de invocação
| Nº | Ponto de correção | Explicação |
|---|---|---|
| 6 | Controlar a ordem de upload | Coloque o "objeto a ser editado" por último para que o modelo adote sua proporção |
| 7 | Limitar o tamanho da imagem de referência | Comprima a imagem para 2-5 MB para evitar subamostragem agressiva |
| 8 | Especificar explicitamente image_size | Exemplo: 1024×1024 ou 1536×1024, para reduzir conflitos de proporção |
Vale ressaltar que, em algumas versões do Gemini 3 Pro Image, há relatos de que o parâmetro imageSize é ignorado (Caso 110458 do Fórum de Desenvolvedores Google AI). Por isso, os pontos 6 e 8 geralmente precisam ser usados em conjunto para garantir que a proporção final seja a esperada. Se você definir apenas o image_size sem ajustar a ordem de upload, em algumas versões, a proporção ainda será sobrescrita pela última imagem enviada.
IV. Exemplo Completo de Invocação da API de Imagem para Imagem do Nano Banana Pro
4.1 Exemplo com erro: Como acionar o retorno da imagem original pelo Nano Banana Pro
O trecho de código abaixo reproduz o cenário de falha comum entre os usuários: referências confusas no comando, falta de verbos de edição, ausência de controle de proporção e falta de compressão na imagem de referência.
import openai
client = openai.OpenAI(
api_key="your-apiyi-key",
base_url="https://api.apiyi.com/v1"
)
response = client.images.edit(
model="gemini-3-pro-image-preview",
image=[
open("wireframe.jpg", "rb"), # 4.9 MB
open("rendered.jpg", "rb"), # 13.8 MB, enviado por último
],
prompt="参照图2渲染图1。色彩: 采用清冷的高级色调。",
size="auto",
n=1,
)
Nesta abordagem, em cenários com múltiplas imagens, o modelo provavelmente tratará a rendered.jpg como o sinal dominante, gerando uma cópia quase idêntica à imagem 2. Os três riscos principais são: o termo em chinês "参照图2" (referenciar imagem 2) ser interpretado como o resultado desejado, a falta de um verbo de transformação e o uso de size="auto", que faz com que a proporção seja ditada pela imagem maior.
4.2 Exemplo corrigido: Como fazer o Nano Banana Pro editar a imagem corretamente
import openai
client = openai.OpenAI(
api_key="your-apiyi-key",
base_url="https://api.apiyi.com/v1"
)
# O comando agora define claramente os papéis e as ações de transformação
prompt = (
"Transform the unfinished concrete wireframe structure in the first image "
"into a fully rendered architectural visualization. "
"Use the second image STRICTLY as a STYLE and MATERIAL reference: "
"apply its cool-toned glass facade, warm interior glow, surrounding greenery "
"and dusk lighting onto the structure from the first image. "
"Preserve the building outline, floor count and balcony arrangement "
"exactly as shown in the first image. "
"Do NOT replace the geometry with the second image."
)
response = client.images.edit(
model="gemini-3-pro-image-preview",
image=[
open("rendered_compressed.jpg", "rb"), # Referência de estilo, comprimida para ~3 MB
open("wireframe_compressed.jpg", "rb"), # Objeto a ser editado colocado por último
],
prompt=prompt,
size="1536x1024",
n=1,
)
Aqui estão quatro mudanças cruciais: usamos inglês para definir claramente a divisão de papéis ("transformar A usando B como referência"); ajustamos a ordem de upload para que o wireframe (objeto editado) seja a "última imagem" e defina a proporção; especificamos explicitamente o size para evitar que o modo auto herde a alta resolução da imagem de referência; e comprimimos ambas as imagens para menos de 5 MB, evitando subamostragem agressiva.
🚀 Dica para começar rápido: Desenvolvedores que desejam validar os resultados podem usar a APIYI (apiyi.com) para chamar o Nano Banana Pro e o Nano Banana 2 simultaneamente com o mesmo comando. A plataforma unificou a interface para ser compatível com OpenAI, eliminando a necessidade de adaptar o código para cada modelo. Você terá resultados de teste A/B em 5 minutos.
V. Perguntas Frequentes (FAQ) sobre Imagem para Imagem no Nano Banana Pro
P1: Por que o comando em chinês ainda retorna a imagem original, mas em inglês funciona normalmente?
A série Gemini possui uma análise semântica mais estável em inglês. Verbos em chinês e referências numéricas ("referenciar imagem X") podem ser interpretados erroneamente como "instruções de saída alvo" durante a tokenização. Recomendamos usar inglês para comandos de edição críticos (transform / preserve / apply) e misturar os idiomas apenas para descrições de cena. Isso mantém a precisão sem confundir os verbos.
P2: Reduzir todas as imagens de referência para menos de 2 MB resolve o problema?
Apenas comprimir as imagens ajuda a mitigar o problema de subamostragem, mas não resolve o conflito entre o comando e a proporção. Recomendamos uma abordagem em três camadas: compressão + reescrita do comando + controle da ordem de upload. Se o volume de processamento for alto, realize um pré-processamento convertendo as imagens para JPG e comprimindo-as entre 2-5 MB antes de chamar o modelo.
P3: Qual modelo é melhor para edição com múltiplas imagens: Nano Banana Pro ou Nano Banana 2?
| Modelo | Estabilidade Multimagem | Preservação de Detalhes | Cenário Ideal |
|---|---|---|---|
| Nano Banana Pro (Gemini 3 Pro Image) | Média (flutuações recentes) | Alta | Edição de imagem única de alta qualidade, marcas |
| Nano Banana 2 (Gemini 3.1 Flash Image) | Relativamente alta | Média (leve aspecto plástico) | Edição em lote, imagens de e-commerce |
Na prática, se a exigência de detalhes for altíssima (renderização arquitetônica, imagens de produtos de alta fidelidade), você pode usar o Nano Banana 2 para uma saída estável e, em seguida, o Nano Banana Pro para o refinamento. Esse fluxo de "rascunho + refinamento" equilibra estabilidade e qualidade.
P4: Se a "imagem original for retornada", tentar novamente resolve?
Se for apenas uma degradação temporária da infraestrutura em horários de pico, tentar de 1 a 3 vezes pode funcionar. Mas, se o problema for no comando ou nos parâmetros, 100 tentativas não mudarão o resultado. O método de diagnóstico é simples: se o mesmo conjunto de parâmetros falha repetidamente em horários diferentes, o problema está no comando; se funciona fora do horário de pico, era apenas uma degradação temporária.
P5: Essa solução de correção serve para outros modelos (Flux Kontext, Seedream)?
A parte de reformulação do comando (nomeação semântica, verbos de edição, divisão de papéis, descrição positiva) é aplicável a todos os modelos de imagem para imagem. No entanto, a regra de "a última imagem define a proporção" é específica da série Nano Banana. Flux e Seedream possuem seus próprios mecanismos de peso para imagens de referência. Se você trabalha com vários modelos, a plataforma APIYI (apiyi.com) permite manter um único modelo de comando, adaptando-se a diferentes modelos através de parâmetros específicos.
Resumo
O retorno da imagem original no Nano Banana Pro é, essencialmente, um subproduto da combinação de "entrada de múltiplas imagens + comando vago + instabilidades na infraestrutura" sob o comportamento padrão do modelo, e não apenas um simples bug. Ao compreender a preferência do modelo pela "última imagem", a dependência de verbos de edição e a estratégia de subamostragem da resolução da imagem de referência, é possível cobrir 90% dos cenários de falha com apenas 80% de ajustes no comando.
Para equipes que trabalham com renderização de imóveis, imagens de produtos, composição de fotos para e-commerce e outras demandas que envolvem múltiplas imagens, recomendamos consolidar as 8 soluções de correção mencionadas em modelos de comando e normas de invocação, padronizando-as de acordo com o tipo de negócio no ambiente de produção. A longo prazo, isso reduz significativamente os custos de reprocessamento e a taxa de retrabalho manual, permitindo que a capacidade de geração de alta qualidade do Nano Banana Pro seja verdadeiramente aproveitada pelo seu negócio.
Este artigo foi organizado pela equipe da APIYI, com foco na implementação prática de APIs de Modelos de Linguagem Grande. Para conferir os exemplos de invocação e os dados de estabilidade mais recentes do Nano Banana Pro, visite o site oficial da APIYI em apiyi.com.
