
Ao gerar imagens com Nano Banana, muitos desenvolvedores se deparam com um problema frustrante: as imagens ficam lindas, mas o texto nelas aparece com erros de digitação, borrado ou completamente ilegível (caracteres aleatórios).
A boa notícia é que a documentação oficial do Google oferece uma dica crucial: primeiro, peça ao modelo para gerar o conteúdo do texto, e só depois solicite a geração da imagem que contenha esse texto. Este é o chamado "Método de Duas Etapas" (Two-Step Approach), que pode melhorar significativamente a precisão da renderização de texto.
Este artigo vai analisar a fundo as razões técnicas por trás desse fenômeno e apresentar 6 técnicas de renderização de texto comprovadamente eficazes, para ajudar você a obter textos claros e precisos nas imagens geradas pelo Nano Banana.
Valor Principal: Ao ler este artigo, você entenderá como funciona a renderização de texto no Nano Banana, dominará o Método de Duas Etapas e outras 6 técnicas práticas, elevando a precisão do texto em suas imagens de um nível "aleatório" para um nível controlável.
O Estado da Renderização de Texto com Nano Banana: Poderoso, mas Requer Técnica
Primeiro, a conclusão: a capacidade de renderização de texto dos modelos da série Nano Banana está no nível mais alto no campo da geração de imagens por IA, mas não é algo que "basta escrever um comando qualquer para ter o texto perfeito".
Dados de Precisão da Renderização de Texto do Nano Banana
| Modelo | Precisão do texto | Suporte multilíngue | Texto confiável mais longo | Descrição |
|---|---|---|---|---|
| Nano Banana Pro | ~94% | Excelente | Aprox. 25 caracteres | Maior precisão, ideal para pôsteres comerciais |
| Nano Banana 2 | ~87% | Excelente | Aprox. 20 caracteres | Rápido, ótima relação custo-benefício |
| DALL-E 3 | ~78% | Bom | Aprox. 15 caracteres | Textos longos são propensos a erros |
| Stable Diffusion XL | ~45% | Ruim | Aprox. 8 caracteres | Basicamente não confiável |
| Midjourney v6 | ~65% | Médio | Aprox. 12 caracteres | Bom estilo, mas texto fraco |
Como podemos ver, a precisão de 94% do Nano Banana Pro já é o nível mais alto da indústria. No entanto, os 6% restantes de cenários de falha — erros de ortografia, texto borrado, caracteres ausentes — são inaceitáveis para cenários comerciais.
Por que a Renderização de Texto em Imagens Geradas por IA é Tão Difícil
Para entender por que o "método de duas etapas" é necessário, primeiro precisamos compreender as dificuldades da IA em gerar texto em imagens:
- Requisito de precisão em nível de pixel: O texto em imagens deve ser preciso em nível de pixel; um único traço errado pode transformá-lo em um erro de digitação. Outros conteúdos gerados por IA (paisagens, pessoas) permitem um certo grau de imprecisão.
- Explosão de combinações de caracteres: 26 letras em inglês, milhares de caracteres chineses, mais maiúsculas/minúsculas, fontes, e arranjos combinatórios, as possibilidades são quase infinitas.
- Interferência do contexto: Ao gerar a composição geral da imagem, o modelo pode se "distrair" — precisa desenhar bem o fundo e organizar o texto, e as duas tarefas competem pela atenção.
- Viés nos dados de treinamento: A proporção de imagens com texto perfeito nos dados de treinamento é limitada, e o modelo não aprendeu o suficiente sobre certas fontes e combinações de layout.
🎯 Dica Técnica: Ao entender as dificuldades da renderização de texto, você pode otimizar o comando de forma direcionada. Ao invocar Nano Banana Pro e Nano Banana 2 através da plataforma APIYI apiyi.com, você pode comparar rapidamente os efeitos de renderização de texto dos dois modelos e escolher a solução mais adequada para o seu cenário.
Técnica Essencial Um: Método de Duas Etapas — A Melhor Prática Oficialmente Recomendada para Renderização de Texto
Este é o método explicitamente recomendado pela documentação oficial do Google e é a técnica mais importante deste artigo.
O Princípio do Método de Duas Etapas
Método tradicional de uma etapa (efeito ruim):
"Gerar um pôster com o texto 'SUMMER SALE 50% OFF'"
→ Modelo processa composição e texto simultaneamente → Texto propenso a erros
Método de duas etapas (efeito bom):
Primeira etapa: "Por favor, gere o texto para um pôster: Promoção de Verão 50% de Desconto"
→ Saída do modelo: "SUMMER SALE 50% OFF"
Segunda etapa: "Gerar uma imagem de pôster, exibindo o texto exato 'SUMMER SALE 50% OFF'"
→ Modelo foca em renderizar o texto já definido na imagem → Precisão aumenta drasticamente

Por que o Método de Duas Etapas Funciona — Uma Explicação Técnica
Nano Banana é construído com base no Modelo de Linguagem Grande multimodal Gemini. Quando você usa o método de uma etapa para pedir diretamente "gerar uma imagem contendo certo texto", o modelo precisa completar duas tarefas simultaneamente:
- Compreender e planejar a composição da imagem — cenário, cores, layout.
- Renderizar caracteres de texto com precisão — ortografia, fonte, posição.
Essas duas tarefas competem entre si no mecanismo de atenção do modelo. Os "recursos de pensamento" do modelo são limitados, e ao processar duas tarefas de alta precisão ao mesmo tempo, a parte do texto geralmente se torna a sacrificada.
A ideia central do método de duas etapas é a divisão de tarefas:
- A primeira etapa permite que o modelo se concentre na geração e confirmação do conteúdo do texto — neste momento, o modelo está em modo puramente textual, e a precisão ortográfica é extremamente alta.
- A segunda etapa permite que o modelo se concentre em renderizar o texto já definido na imagem — o conteúdo do texto já está fixo, e o modelo só precisa resolver o problema de "como desenhar".
Isso é como pedir a um pintor para primeiro determinar qual texto será escrito no pôster (fase de redação) e depois pintar o pôster (fase de design). Fazer as duas etapas separadamente aumenta a eficiência e a precisão.
Implementação do Código API do Método de Duas Etapas
import openai
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.apiyi.com/v1" # Interface unificada da APIYI
)
# ========== Etapa Um: Fazer o modelo gerar/confirmar o conteúdo do texto ==========
text_response = client.chat.completions.create(
model="gemini-3.1-flash-image-preview",
messages=[{
"role": "user",
"content": "Eu preciso de um pôster promocional para uma cafeteria. Por favor, gere o texto em inglês que deve ser exibido no pôster, de forma concisa e poderosa, não excedendo 20 caracteres. Apenas o texto, sem outros conteúdos."
}]
)
poster_text = text_response.choices[0].message.content.strip()
print(f"Etapa Um - Texto gerado: {poster_text}")
# Exemplo de saída: "BREW YOUR PERFECT DAY"
# ========== Etapa Dois: Usar o texto confirmado para gerar a imagem ==========
image_response = client.chat.completions.create(
model="gemini-3.1-flash-image-preview",
messages=[{
"role": "user",
"content": f'Generate an image: A warm-toned coffee shop promotional poster. Display the exact text "{poster_text}" in bold serif font, centered at the top. Background shows a cozy cafe interior with warm lighting.'
}]
)
print("Etapa Dois - Geração da imagem concluída")
Detalhes Chave do Método de Duas Etapas
| Detalhe | Descrição | Razão |
|---|---|---|
| Use o modo de texto puro na primeira etapa | Não peça para gerar a imagem na primeira etapa | Permite que o modelo se concentre na qualidade do texto |
| Envolva o texto com aspas duplas | No comando da segunda etapa, envolva o texto com "" |
Diz claramente ao modelo que este é o conteúdo a ser renderizado exatamente como está |
| Use comando em inglês na segunda etapa | Recomenda-se usar comandos em inglês para a geração de imagens | A precisão da compreensão de comandos em inglês é maior |
| Especifique o estilo da fonte | Adicione descrições como bold serif font |
Ajuda o modelo a escolher fontes mais fáceis de renderizar |
| Limite o comprimento do texto | Controle para no máximo 25 caracteres na primeira etapa | A precisão diminui significativamente acima de 25 caracteres |
Técnica Essencial Dois: A Regra de Ouro dos 25 Caracteres
Essa é a restrição mais importante para a renderização de texto do Nano Banana.
Relação entre a Precisão de Renderização de Texto do Nano Banana e o Número de Caracteres
| Intervalo de Caracteres | Precisão | Recomendação |
|---|---|---|
| 1-10 caracteres | ~98% | Melhor faixa, quase sem erros |
| 11-20 caracteres | ~92% | Faixa segura, ocasionalmente pequenos problemas |
| 21-25 caracteres | ~85% | Usável, mas requer verificação, pode precisar de nova tentativa |
| 26-40 caracteres | ~60% | Faixa de alto risco, erros frequentes |
| Mais de 40 caracteres | <40% | Não recomendado, geralmente não confiável |
Estratégias para Lidar com Mais de 25 Caracteres
Quando seu texto realmente excede 25 caracteres, há 3 maneiras de lidar com isso:
Estratégia Um: Dividir em Múltiplas Linhas de Texto Curto
# ❌ Renderizar texto longo de uma vez
prompt = 'Generate a poster with text "ANNUAL SUMMER CLEARANCE SALE - UP TO 70% OFF ALL ITEMS"'
# ✅ Dividir em múltiplas linhas de texto curto
prompt = '''Generate a poster with two lines of text:
Line 1 (large, bold): "SUMMER SALE 70% OFF"
Line 2 (smaller, below): "ALL ITEMS INCLUDED"'''
Estratégia Dois: Adicionar Gradualmente em Múltiplas Rodadas de Diálogo
# Rodada 1: Gerar imagem apenas com o título principal
# Rodada 2: Adicionar subtítulo com base no resultado da rodada anterior
# Rodada 3: Adicionar texto explicativo na parte inferior
Estratégia Três: Usar Imagens para Texto Chave e Composição Pós-produção para Texto Longo
Para cenários que realmente exigem muito texto (como infográficos), é recomendado usar o Nano Banana apenas para gerar títulos curtos e chave, e sobrepor parágrafos longos com ferramentas de design na pós-produção.
Técnica Essencial Três: Aspas Duplas + Especificação Explícita de Fonte
A combinação dessas duas pequenas técnicas pode elevar ainda mais a precisão da renderização de texto.
O Papel das Aspas Duplas
As aspas duplas informam ao modelo: o conteúdo entre aspas é um texto que precisa ser renderizado com precisão, caractere por caractere, e não uma descrição geral.
# ❌ Sem aspas, o modelo pode ter liberdade criativa
prompt = "Generate a sign that says Welcome to Tokyo"
# Pode gerar: "WELCOME TO TOKIO" (erro de ortografia) ou um texto completamente diferente
# ✅ Aspas duplas, renderização exata forçada caractere por caractere
prompt = 'Generate a sign that displays the exact text "Welcome to Tokyo"'
# Saída: "Welcome to Tokyo" (com alta probabilidade de precisão)
Especificação Explícita de Fonte
Especificar explicitamente o tipo de fonte pode ajudar o modelo a escolher formas de fonte mais fáceis de renderizar:
| Especificação da Fonte | Formulação do Comando | Efeito |
|---|---|---|
| Serif Negrito | bold serif font |
Mais clara, recomendada para títulos de pôsteres |
| Sans-serif | clean sans-serif font |
Sensação moderna, adequada para temas de tecnologia |
| Manuscrita | handwritten script |
Baixa precisão de texto, use com cautela |
| Monoespaçada | monospace font |
Adequada para cenários de captura de tela de código |
| Fonte Específica | in Helvetica style |
Referência de estilo, não garante correspondência exata |
💡 Dica Prática: A fonte serif negrito (bold serif) é o tipo de fonte com a maior precisão de renderização de texto. Por ter traços grossos e estrutura clara, o modelo consegue gerá-la com mais precisão. Fontes manuscritas e ornamentadas têm a menor precisão, evite usá-las para textos críticos.
Técnica Essencial Quatro: Tratamento Especial para Renderização de Texto Multilíngue
O Nano Banana se destaca na renderização de texto multilíngue, mas as estratégias de processamento variam para diferentes idiomas.
Desempenho da Renderização de Texto em Diferentes Idiomas
| Idioma | Precisão de Renderização | Melhor Número de Caracteres | Observações Especiais |
|---|---|---|---|
| Inglês | ~94% | ≤25 | Letras maiúsculas funcionam melhor |
| Chinês | ~85% | ≤8 caracteres chineses | Chinês simplificado é melhor que o tradicional |
| Japonês | ~82% | ≤10 | Hiragana é melhor que Kanji |
| Coreano | ~80% | ≤12 | Precisa especificar claramente o coreano |
| Árabe | ~75% | ≤8 | Atenção à disposição da direita para a esquerda |
Modelo de Comando para Renderização de Texto Multilíngue
# Inglês — Mais confiável
prompt = 'Generate a poster with bold text "HELLO WORLD" in white serif font'
# Chinês — Especificar idioma + curto
prompt = 'Generate a poster with Chinese text "欢迎光临" in bold Chinese calligraphy style font, centered'
# Japonês — Especificar idioma
prompt = 'Generate a Japanese store sign with text "いらっしゃいませ" in clean sans-serif Japanese font'
# Idiomas mistos — Processar linha por linha
prompt = '''Generate a bilingual poster:
Top line in English: "GRAND OPENING"
Bottom line in Chinese: "盛大开业"
Both in bold, high contrast against dark background'''
🎯 Dica Técnica: Para renderização de texto multilíngue, é recomendável testar e comparar repetidamente através da plataforma APIYI apiyi.com. Os efeitos variam significativamente entre os idiomas, e testes práticos são mais confiáveis do que parâmetros teóricos. A plataforma suporta a troca rápida entre os modelos Nano Banana Pro e Nano Banana 2.
Técnica Essencial Cinco: Modelo de Comando Estruturado (Indispensável na Prática)
Vamos combinar todas as técnicas anteriores em um modelo de comando padronizado, para usar em diferentes cenários.
Modelo Universal de Comando para Renderização de Texto do Nano Banana
Generate an image:
[Descrição da cena, até 100 caracteres].
Display the exact text "[Seu texto, ≤25 caracteres]" in [Estilo da fonte] font,
positioned at [Posição], [Descrição do tamanho].
The text should be [Cor] with high contrast against the background.
Ensure the text is perfectly legible and correctly spelled.
Exemplos Práticos para Diferentes Cenários
Cenário Um: Cartaz Comercial
prompt = '''Gerar uma imagem:
Um vibrante cartaz promocional de liquidação de verão com fundo de praia tropical.
Exibir o texto exato "SUMMER SALE" em fonte serifada branca e negrito,
posicionado no centro superior, grande e proeminente.
Abaixo dele, exibir "50% OFF" em fonte sans-serif amarela e negrito.
O texto deve ter alto contraste contra o fundo.
Garantir que todo o texto seja perfeitamente legível e corretamente escrito.'''
Cenário Dois: Design de Logotipo
prompt = '''Gerar uma imagem:
Um logotipo minimalista de uma empresa de tecnologia em um fundo branco limpo.
Exibir o texto exato "NEXUS" em fonte sans-serif moderna e negrito,
posicionado no centro, de tamanho médio.
O texto deve ser azul marinho escuro (#1a1a2e).
Garantir que o texto seja perfeitamente legível e corretamente escrito.'''
Cenário Três: Imagem para Mídias Sociais
prompt = '''Gerar uma imagem:
Um cartão de citação inspiradora com fundo de gradiente suave (azul para roxo).
Exibir o texto exato "START NOW" em fonte serifada branca e elegante,
posicionado no centro, grande e proeminente.
O texto deve ser branco puro com uma sombra sutil.
Garantir que o texto seja perfeitamente legível e corretamente escrito.'''

Técnica Essencial Seis: Correção Iterativa em Diálogo Multiturno
Mesmo usando as 5 técnicas anteriores, a renderização de texto ainda pode não ser perfeita. Uma grande vantagem do Nano Banana é o suporte à edição em diálogo multiturno — se não estiver satisfeito, você pode corrigir diretamente com base no resultado da rodada anterior.
Fluxo de Diálogo para Correção de Texto
import openai
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.apiyi.com/v1"
)
messages = []
# Rodada 1: Gerar imagem inicial
messages.append({
"role": "user",
"content": 'Generate an image: A coffee shop menu board with text "TODAY\'S SPECIAL" in chalk-style white font on dark background'
})
response_1 = client.chat.completions.create(
model="gemini-3.1-flash-image-preview",
messages=messages
)
messages.append({"role": "assistant", "content": response_1.choices[0].message.content})
# Rodada 2: Verificar e corrigir texto
messages.append({
"role": "user",
"content": 'The text is slightly blurry. Please regenerate with the text "TODAY\'S SPECIAL" rendered more sharply and clearly. Make the font bolder and increase the contrast.'
})
response_2 = client.chat.completions.create(
model="gemini-3.1-flash-image-preview",
messages=messages
)
Comandos de Correção Comuns
| Problema | Comando de Correção |
|---|---|
| Texto borrado | "Make the text sharper and bolder, increase contrast" |
| Erro de ortografia | "Fix the spelling. The correct text should be exactly '[texto correto]'" |
| Texto ausente | "The text '[texto]' is missing. Add it at [posição] in [fonte]" |
| Fonte incorreta | "Change the font to bold serif, keep the same text content" |
| Posição deslocada | "Move the text to the center of the image, keep everything else" |
| Tamanho inadequado | "Make the text larger/smaller while keeping it legible" |
🚀 Comece Rápido: A edição em diálogo multiturno é ideal para cenários que exigem alta qualidade no efeito do texto. Ao invocar o Nano Banana através da plataforma APIYI apiyi.com, cada rodada de edição custa cerca de $0.02, e 3-4 iterações podem levar a um resultado satisfatório.
Fluxo de Trabalho Completo para Renderização de Texto com Nano Banana
Vamos integrar as 6 técnicas em um fluxo de trabalho padronizado:
Passo Um: Planejar o Conteúdo do Texto
- Definir o texto a ser renderizado (≤25 caracteres)
- Se exceder 25 caracteres, dividir em várias linhas
- Confirmar a ortografia correta
Passo Dois: Geração em Duas Etapas
- Primeiro, permitir que o modelo confirme/otimize o conteúdo do texto
- Em seguida, usar o texto confirmado para gerar a imagem
Passo Três: Otimização do Comando
- Envolver o texto com aspas duplas
- Especificar explicitamente o estilo da fonte
- Usar um modelo estruturado
- Adicionar a restrição
"Ensure text is perfectly legible"
Passo Quatro: Verificação e Iteração
- Verificar se o texto do resultado gerado está correto
- Se não estiver satisfeito, corrigir com diálogo multiturno
- Geralmente, 1-3 rodadas são suficientes para um resultado satisfatório
Ver o código completo do fluxo de trabalho de renderização de texto
#!/usr/bin/env python3
"""
Fluxo de trabalho de otimização de renderização de texto do Nano Banana
Implementação completa do método de duas etapas + 6 técnicas principais
"""
import openai
import base64
import re
from datetime import datetime
API_KEY = "YOUR_API_KEY"
BASE_URL = "https://api.apiyi.com/v1"
client = openai.OpenAI(api_key=API_KEY, base_url=BASE_URL)
def render_text_in_image(
scene_description: str,
desired_text: str,
font_style: str = "bold serif",
text_color: str = "white",
text_position: str = "centered",
model: str = "gemini-3.1-flash-image-preview",
max_fix_rounds: int = 2
):
"""
Gera uma imagem com texto preciso usando o método de duas etapas
Args:
scene_description: Descrição da cena (sem requisitos de texto)
desired_text: Texto a ser renderizado (sugestão: ≤25 caracteres)
font_style: Estilo da fonte
text_color: Cor do texto
text_position: Posição do texto
model: Modelo a ser usado
max_fix_rounds: Número máximo de rodadas de correção
"""
# Verificar comprimento do texto
if len(desired_text) > 25:
print(f"⚠️ O comprimento do texto {len(desired_text)} excede 25 caracteres, a precisão pode diminuir")
# ===== Passo Um: Confirmar conteúdo do texto =====
print(f"📝 Passo Um: Confirmar conteúdo do texto → '{desired_text}'")
text_check = client.chat.completions.create(
model=model,
messages=[{
"role": "user",
"content": f"Please verify this text is correctly spelled and formatted: '{desired_text}'. Only reply with the verified text, nothing else."
}]
)
verified_text = text_check.choices[0].message.content.strip().strip("'\"")
print(f"✅ Texto confirmado: '{verified_text}'")
# ===== Passo Dois: Gerar imagem com texto =====
print(f"🎨 Passo Dois: Gerando imagem...")
image_prompt = f'''Generate an image:
{scene_description}.
Display the exact text "{verified_text}" in {font_style} font,
positioned at {text_position}, with {text_color} color.
The text should have high contrast against the background.
Ensure the text is perfectly legible and correctly spelled.'''
messages = [{"role": "user", "content": image_prompt}]
response = client.chat.completions.create(
model=model,
messages=messages
)
content = response.choices[0].message.content
print(f"✅ Geração de imagem concluída")
# Salvar imagem
save_image(content, f"text_render_{datetime.now().strftime('%H%M%S')}.png")
return content
def save_image(content, filename):
"""Extrai e salva a imagem da resposta"""
patterns = [
r'data:image/[^;]+;base64,([A-Za-z0-9+/=]+)',
r'([A-Za-z0-9+/=]{1000,})'
]
for pattern in patterns:
match = re.search(pattern, content)
if match:
data = base64.b64decode(match.group(1))
with open(filename, 'wb') as f:
f.write(data)
print(f"💾 Salvo em: {filename} ({len(data):,} bytes)")
return True
print("⚠️ Dados da imagem não encontrados")
return False
# ===== Exemplos de Uso =====
if __name__ == "__main__":
# Exemplo 1: Cartaz comercial
render_text_in_image(
scene_description="A vibrant promotional poster with tropical beach background, summer vibes",
desired_text="SUMMER SALE",
font_style="bold white serif",
text_position="top center, large and prominent"
)
# Exemplo 2: Logotipo
render_text_in_image(
scene_description="A minimalist tech company logo on clean white background",
desired_text="NEXUS",
font_style="modern bold sans-serif",
text_color="dark navy blue",
text_position="centered"
)
# Exemplo 3: Chinês
render_text_in_image(
scene_description="A traditional Chinese restaurant sign with red and gold decorations",
desired_text="福满楼",
font_style="bold Chinese calligraphy",
text_color="gold",
text_position="centered, large"
)
Comparação da Renderização de Texto entre Nano Banana Pro e Nano Banana 2
Os dois modelos têm focos diferentes na renderização de texto:
| Dimensão de Comparação | Nano Banana Pro | Nano Banana 2 | Recomendação de Escolha |
|---|---|---|---|
| Precisão do Texto | ~94% | ~87% | Para requisitos comerciais, escolha Pro |
| Máximo de Caracteres Confiáveis | ~25 | ~20 | Pro oferece maior margem de erro |
| Suporte Multilíngue | Excelente | Excelente | Ambos são equivalentes |
| Diversidade de Estilos de Fonte | Mais rica | Suficiente | Pro tem mais opções de fontes |
| Velocidade de Geração | 10-20 segundos | 3-8 segundos | Para iterações rápidas, escolha Banana 2 |
| Preço da API | ~$0.04/chamada | ~$0.02/chamada | Para sensibilidade ao custo, escolha Banana 2 |
| Capacidade de Iteração e Correção | Excelente | Excelente | Ambos são equivalentes |
| ID do Modelo | gemini-3.0-pro-image |
gemini-3.1-flash-image-preview |
Pode ser invocado simultaneamente via APIYI apiyi.com |
Recomendações para Escolha do Modelo de Renderização de Texto
- Pôsteres comerciais/Materiais de marca: Escolha Nano Banana Pro — 94% de precisão + mais estilos de fonte
- Imagens para redes sociais/Protótipos rápidos: Escolha Nano Banana 2 — Rápido + excelente custo-benefício
- Cenários que exigem iterações frequentes: Escolha Nano Banana 2 — A velocidade significa baixo custo de iteração
- Texto multilíngue: A diferença entre os dois é pequena, escolha com base na necessidade de velocidade/custo
Perguntas Frequentes
Q1: Por que o Google oficialmente recomenda “gerar o texto primeiro e depois a imagem”?
Isso acontece porque, quando modelos multimodais processam simultaneamente as tarefas de "gerar conteúdo de texto" e "renderizar texto em imagens", os recursos de atenção competem entre si, resultando na diminuição da precisão do texto. O método de duas etapas, ao dividir as tarefas, permite que o modelo na primeira etapa se concentre na correção do texto (modo de texto puro, com precisão próxima de 100%), e na segunda etapa se concentre em renderizar o texto já definido na imagem. Este princípio é semelhante ao de um designer humano que primeiro define o texto e depois faz o design. A invocação do método de duas etapas através da plataforma APIYI apiyi.com é muito conveniente, e o custo total de duas invocações de API é inferior a $0.05.
Q2: O limite de 25 caracteres é rígido? Ultrapassá-lo sempre causará erros?
Não é um limite rígido, mas sim um divisor de águas para a precisão. Dentro de 25 caracteres, a precisão varia entre 85% e 98%. Acima de 25 caracteres, a precisão cai significativamente para menos de 60%. Se for absolutamente necessário usar um texto mais longo, sugere-se dividi-lo em várias linhas (cada linha com ≤15 caracteres) ou adicioná-lo gradualmente usando múltiplas rodadas de diálogo.
Q3: Como é o efeito de renderização de texto em chinês? É muito pior que em inglês?
A renderização de texto em chinês do Nano Banana é muito melhor do que a maioria dos concorrentes, mas é ligeiramente inferior à do inglês. Testes reais mostram uma precisão de cerca de 85% para chinês (94% para inglês). Recomenda-se que o texto em chinês seja limitado a 8 caracteres chineses, use um estilo em negrito e especifique claramente no comando "Chinese text" e "Chinese calligraphy font" ou "bold Chinese font". Através da plataforma APIYI apiyi.com, você pode testar rapidamente os efeitos de renderização de texto em chinês com diferentes comandos.
Q4: O método de duas etapas aumenta muito o custo?
O método de duas etapas realmente exige duas invocações de API, mas a primeira etapa é a geração de texto puro (não envolve imagens), com um custo extremamente baixo (menos de $0.001). A segunda etapa é a geração da imagem ($0.02-$0.04). Portanto, o custo total aumenta em menos de 5%, mas a melhoria na precisão do texto é muito significativa. Considerando que, sem o método de duas etapas, pode ser necessário tentar 3 a 5 vezes para obter o texto correto, o método de duas etapas é, na verdade, mais econômico.
Q5: Existe algum método que não cometa erros?
Atualmente, a renderização de texto em imagens geradas por IA ainda não pode garantir 100% de precisão. Mesmo utilizando todas as técnicas de otimização, ainda é recomendável incluir uma etapa de verificação manual no fluxo de trabalho — especialmente para imagens de uso comercial. Para cenários que exigem precisão absoluta (como capturas de tela de documentos legais, certificados formais), sugere-se usar IA para gerar o fundo e a composição, e sobrepor a parte do texto posteriormente com ferramentas de design.
Resumo
A capacidade de renderização de texto do Nano Banana já é de alto nível no campo da geração de imagens por IA (Pro 94%, Banana 2 87%), mas para utilizar essa capacidade de forma estável, é preciso dominar as técnicas corretas.
6 técnicas essenciais, ordenadas por importância:
- Método de Duas Etapas — Primeiro gere o texto, depois gere a imagem. É a abordagem recomendada oficialmente e a que oferece os resultados mais significativos.
- Regra dos 25 Caracteres — Controle o comprimento do texto; textos muito longos devem ser divididos.
- Aspas Duplas + Especificação de Fonte — Força a renderização letra por letra + escolha fontes com alta precisão.
- Tratamento Especial para Múltiplas Línguas — Use estratégias diferentes para idiomas diferentes.
- Modelo de Comando Estruturado — Padronize para aumentar a estabilidade.
- Correção por Diálogo Multiturno — Se não estiver satisfeito, itere e otimize.
Dominando essas técnicas, a renderização de texto do Nano Banana deixa de ser uma questão de "sorte" e se torna uma capacidade controlável e previsível. Recomendo começar a testar rapidamente através da APIYI (apiyi.com) para encontrar a combinação de parâmetros mais adequada para o seu cenário.
Referências
-
Documentação Oficial do Google – Geração de Imagens com Nano Banana
- Link:
ai.google.dev/gemini-api/docs/image-generation - Descrição: Contém a recomendação oficial de "primeiro gerar o texto, depois gerar a imagem".
- Link:
-
Blog do Google Developers – Dicas de Comando para Nano Banana Pro
- Link:
blog.google/products/gemini/prompting-tips-nano-banana-pro/ - Descrição: Dicas oficiais de otimização de comando.
- Link:
-
Blog do Google Developers – Como Criar Comandos para Geração de Imagens com Gemini 2.5 Flash
- Link:
developers.googleblog.com/how-to-prompt-gemini-2-5-flash-image-generation-for-the-best-results/ - Descrição: Estratégias de otimização para geração de imagens com modelos da série Flash.
- Link:
📝 Autor: Equipe APIYI | Para intercâmbio técnico e integração de API, visite apiyi.com
