Nota do Autor: Análise aprofundada dos recursos de 14 imagens de referência do Gemini 3.1 Flash Image Preview e Gemini 3 Pro Image Preview, para dominar o uso correto da fidelidade de objeto e da consistência de personagem, e as estratégias de alocação de cota.
Os modelos de imagem Gemini suportam o uso combinado de até 14 imagens de referência para geração de imagens, mas muitos desenvolvedores não têm clareza sobre as regras de alocação para essa cota de 14 imagens. Este artigo detalhará as duas principais capacidades: Fidelidade de Objeto (Object Fidelity) e Consistência de Personagem (Character Consistency), para ajudar você a entender e usar de forma eficiente o recurso de múltiplas imagens de referência do Gemini.
Valor Principal: Ao ler este artigo, você dominará a lógica de alocação da cota de 14 imagens de referência, a comparação das diferenças entre os dois modelos e as melhores práticas para projetos reais.

Pontos Chave do Recurso de 14 Imagens de Referência do Gemini
O Google introduziu a capacidade de mistura de múltiplas imagens de referência nos modelos de imagem da série Gemini 3, permitindo que os desenvolvedores passem até 14 imagens de referência em uma única solicitação de geração. Essas 14 imagens não são apenas um "limite de quantidade" simples, mas são precisamente divididas em duas categorias funcionais, cada uma com diferentes tarefas de manutenção visual.
| Ponto Chave | Descrição | Valor |
|---|---|---|
| Cota Total de 14 Imagens | Soma máxima de imagens de fidelidade de objeto + imagens de consistência de personagem | Capacidade máxima de referência visual por solicitação |
| Fidelidade de Objeto (Object Fidelity) | Garante que itens específicos sejam altamente reproduzidos na imagem gerada | Imagens de produtos, exibição de mercadorias, materiais de marca |
| Consistência de Personagem (Character Consistency) | Mantém a aparência do personagem consistente em diferentes cenários | Histórias contínuas, IP de marca, marketing de personagem |
| Cotas Diferentes para os Dois Modelos | As proporções de alocação para Flash e Pro diferem | Escolha o modelo apropriado com base na necessidade |
Detalhes das Duas Principais Categorias Funcionais das Imagens de Referência do Gemini
Fidelidade de Objeto (Object Fidelity) refere-se à incorporação de itens específicos de uma imagem de referência com alta fidelidade na imagem final gerada. Por exemplo, se você carregar uma foto de um tênis vermelho, o modelo reproduzirá com precisão os detalhes da aparência desse tênis na imagem do cenário gerado — incluindo cor, forma, textura, posição do logotipo, etc. Isso é crucial para cenários como imagens de produtos de e-commerce e geração de materiais de marca.
Consistência de Personagem (Character Consistency), por sua vez, foca em pessoas ou personagens. Depois de carregar uma imagem de referência de um personagem, o modelo pode gerar novas imagens desse personagem em diferentes planos de fundo, poses e condições de iluminação, mantendo a consistência de elementos visuais chave como características faciais, penteado e vestuário. Isso é muito útil em cenários como ilustrações de histórias contínuas, marketing de mascotes de marca e design de personagens de jogos.
Compreender a diferença entre essas duas categorias é o pré-requisito para usar corretamente as 14 imagens de referência. Elas não são mutuamente exclusivas; podem ser usadas em conjunto na mesma solicitação, mas cada uma tem seu próprio limite de quantidade independente.
Comparativo de Cotas de Imagens de Referência entre Dois Modelos Gemini
Embora Gemini 3.1 Flash Image Preview e Gemini 3 Pro Image Preview suportem a funcionalidade de múltiplas imagens de referência, eles apresentam diferenças significativas na alocação de cotas.

| Dimensão da Capacidade | Gemini 3.1 Flash Image Preview | Gemini 3 Pro Image Preview |
|---|---|---|
| Limite Total de Imagens de Referência | 14 imagens | 11 imagens |
| Limite de Imagens de Fidelidade de Objeto | Máximo de 10 imagens | Máximo de 6 imagens |
| Limite de Imagens de Consistência de Personagem | Máximo de 4 imagens | Máximo de 5 imagens |
| Foco em Fidelidade de Objeto | Mais Forte (10 imagens) | Mais Fraco (6 imagens) |
| Foco em Consistência de Personagem | Mais Fraco (4 imagens) | Mais Forte (5 imagens) |
| Velocidade de Geração | Mais Rápido (nível Flash) | Mais Lento (nível Pro) |
| Cenários de Aplicação | Imagens de produtos em grande volume, cenários com múltiplos itens | Histórias com múltiplos personagens, interações complexas de personagens |
Pontos Chave para Entender a Alocação de Cotas de Imagens de Referência Gemini
Um ponto crucial que muitos desenvolvedores confundem é: 14 imagens de referência não significa que podem ser alocadas arbitrariamente. Por exemplo, no caso do Gemini 3.1 Flash Image Preview:
- Você pode fazer upload de no máximo 10 imagens de fidelidade de objeto + 4 imagens de consistência de personagem = 14 imagens.
- Mas você não pode fazer upload de 14 imagens de fidelidade de objeto e 0 imagens de consistência de personagem (o limite de fidelidade de objeto é de 10 imagens).
- Também não pode fazer upload de 0 imagens de fidelidade de objeto e 14 imagens de consistência de personagem (o limite de consistência de personagem é de 4 imagens).
Em outras palavras, 14 imagens é o valor máximo teórico, e só será atingido se você usar ambos os tipos de imagens de referência simultaneamente, e cada um atingir seu limite.
O mesmo se aplica ao Gemini 3 Pro Image Preview: no máximo 6 + 5 = 11 imagens, e não 14. O limite total do modelo Pro é, na verdade, 11 imagens.
Sugestão de Escolha: Se o seu cenário for focado principalmente em exibição de produtos (precisando de muitas referências de itens), sugerimos escolher o Gemini 3.1 Flash Image Preview, que oferece mais cotas para fidelidade de objeto. Se o seu cenário for focado em histórias com personagens (precisando manter múltiplos personagens consistentes), a cota de 5 personagens do Gemini 3 Pro Image Preview é mais vantajosa. Através da APIYI apiyi.com, você pode testar ambos os modelos simultaneamente e comparar os resultados rapidamente.
Guia Rápido para Imagens de Referência Gemini (14 Imagens)
Exemplo Simplificado
Abaixo está o código básico para gerar com múltiplas imagens de referência usando Gemini 3.1 Flash Image Preview:
from google import genai
from google.genai import types
from PIL import Image
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
# Carrega imagens de referência de objeto (máximo de 10 imagens)
shoe = Image.open("red-shoe.png")
bag = Image.open("leather-bag.png")
# Carrega imagens de referência de personagem (máximo de 4 imagens)
character = Image.open("brand-mascot.png")
prompt = "Create a product showcase scene featuring this red shoe and leather bag, with the brand mascot character standing next to them in a modern retail environment."
response = client.models.generate_content(
model="gemini-3.1-flash-image-preview",
contents=[prompt, shoe, bag, character],
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
),
)
Ver código completo de geração com múltiplas imagens de referência
from google import genai
from google.genai import types
from PIL import Image
import base64
import os
# Inicializa o cliente
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
def generate_with_references(
prompt: str,
object_images: list = None,
character_images: list = None,
aspect_ratio: str = "16:9",
model: str = "gemini-3.1-flash-image-preview"
):
"""
Gera imagens usando múltiplas imagens de referência
Args:
prompt: comando de geração
object_images: Lista de caminhos para imagens de fidelidade de objeto (Flash: máximo de 10 imagens)
character_images: Lista de caminhos para imagens de consistência de personagem (Flash: máximo de 4 imagens)
aspect_ratio: Proporção de saída
model: Nome do modelo
"""
contents = [prompt]
# Adiciona imagens de referência de objeto
if object_images:
for img_path in object_images:
contents.append(Image.open(img_path))
# Adiciona imagens de referência de personagem
if character_images:
for img_path in character_images:
contents.append(Image.open(img_path))
response = client.models.generate_content(
model=model,
contents=contents,
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
),
),
)
# Extrai a imagem gerada
for part in response.candidates[0].content.parts:
if part.inline_data and part.inline_data.mime_type.startswith("image/"):
image_data = base64.b64decode(part.inline_data.data)
with open("output.png", "wb") as f:
f.write(image_data)
print("Imagem salva: output.png")
# Exemplo de uso: cenário de produto para e-commerce
generate_with_references(
prompt="Fotografia profissional de produtos com esses itens em um estande branco minimalista",
object_images=["shoe.png", "bag.png", "watch.png"],
character_images=["model-person.png"],
aspect_ratio="16:9"
)
Sugestão: Através da APIYI apiyi.com, obtenha sua chave API para testar rapidamente os modelos de imagem Gemini. A plataforma suporta a chamada de API unificada para Gemini 3.1 Flash Image Preview e Gemini 3 Pro Image Preview.
Cenários de Aplicação de Imagens de Referência Gemini e Melhores Estratégias de Alocação
Em diferentes cenários de negócios, a estratégia de alocação das 14 imagens de referência varia bastante. Abaixo estão as configurações recomendadas para 5 cenários típicos:
| Cenário | Modelo Recomendado | Qtd. Imagens de Objeto | Qtd. Imagens de Personagem | Total Imagens de Referência | Descrição |
|---|---|---|---|---|---|
| Coleção de Produtos de E-commerce | Flash | 8-10 | 0 | 8-10 | Exibição de múltiplos produtos no mesmo quadro |
| Histórias de Personagens de Marca | Pro | 2-3 | 4-5 | 6-8 | Personagens em aventuras em diferentes cenários |
| Produto + Garoto(a) Propaganda | Flash | 5-6 | 2-3 | 7-9 | Personagem segurando/exibindo o produto |
| Design de Personagens de Jogo | Pro | 3-4 | 4-5 | 7-9 | Cenas de interação com múltiplos personagens |
| Combinação de Cenários Domésticos | Flash | 8-10 | 0 | 8-10 | Combinação de múltiplos móveis/itens de decoração |
Práticas de Imagens de Referência Gemini em Cenários de Produtos de E-commerce
O e-commerce é o cenário de aplicação mais direto para a funcionalidade de múltiplas imagens de referência. De forma tradicional, você precisaria fotografar imagens de cenário para cada produto individualmente, o que é caro e dificulta a padronização do estilo. Usando a capacidade de fidelidade de objeto do Gemini, você pode usar imagens de fundo branco de vários produtos como referência para gerar imagens de cenário com um estilo unificado de uma só vez.
Recomenda-se usar o Gemini 3.1 Flash Image Preview, pois ele suporta até 10 imagens de fidelidade de objeto, o suficiente para cobrir uma coleção de produtos de uma categoria. Além disso, a velocidade de geração do nível Flash é mais adequada para as necessidades de produção em larga escala.
Práticas de Imagens de Referência Gemini em Cenários de Histórias de Personagens
Se você precisa gerar ilustrações de histórias em série para IPs de marca ou personagens de jogos, a consistência de personagem é a necessidade principal. O Gemini 3 Pro Image Preview suporta até 5 imagens de consistência de personagem, podendo manter a consistência da aparência de 5 personagens independentes simultaneamente.
É importante notar que a consistência de personagem atualmente não é 100% perfeita. A documentação oficial do Google também aponta: "character consistency is not always perfect between input images and generated output images". No uso prático, sugere-se:
- Fornecer imagens de referência de personagem claras, frontais e com iluminação uniforme
- Descrever claramente as características chave de cada personagem no comando
- Realizar triagem manual e ajustes finos nos resultados gerados
Sugestão Prática: Recomenda-se primeiro realizar testes em pequenos lotes através da APIYI apiyi.com para confirmar se o efeito de consistência de personagem atende aos requisitos antes de gerar em massa. A plataforma oferece cotas de teste gratuitas para validação rápida e conveniente.

Especificações Técnicas e Observações sobre Imagens de Referência Gemini
Proporções de Aspecto de Saída Suportadas
Os modelos de imagem Gemini suportam 14 proporções de aspecto, cobrindo praticamente todos os cenários de uso comuns:
| Proporção de Aspecto | Usos Típicos | Cenários Ideais |
|---|---|---|
| 1:1 | Avatares de redes sociais, imagens quadradas de produtos | Instagram, miniaturas de produtos |
| 16:9 | Exibição horizontal, imagens para blogs | Banners de web, imagens de capa de artigos |
| 9:16 | Exibição vertical, papéis de parede para celular | Xiaohongshu, capas de Douyin |
| 4:3 | Proporção de tela tradicional | Imagens para PPT, pôsteres tradicionais |
| 3:2 | Proporção padrão para fotografia | Fotografia de produtos, imagens de paisagens |
| 21:9 | Exibição em tela ultra-larga | Pôsteres de filmes, banners de sites |
| 1:4 / 4:1 | Proporções extremas | Imagens longas, infográficos |
Principais Limitações no Uso de Imagens de Referência Gemini
No desenvolvimento prático, as seguintes limitações exigem atenção especial:
- A cota é um limite rígido: Exceder o limite de quantidade para fidelidade de objeto ou consistência de personagem resultará em um erro de API.
- A qualidade da imagem afeta o resultado: Imagens de referência borradas ou severamente obstruídas reduzirão a fidelidade.
- A consistência de personagem não é 100%: Especialmente em casos de mudanças extremas de pose ou grandes diferenças nas condições de iluminação.
- O comando precisa complementar: A imagem de referência é apenas uma entrada visual; o comando deve descrever claramente o conteúdo da imagem e o efeito desejado.
- Mecanismo thoughtSignature: Na edição conversacional, o modelo depende do thoughtSignature da rodada anterior para entender a composição da imagem; este assinatura deve ser mantida durante a edição contínua.
Dica de Desenvolvimento: APIYI (apiyi.com) oferece suporte a toda a série de modelos de imagem Gemini, incluindo gemini-3.1-flash-image-preview e gemini-3-pro-image-preview. Você pode invocá-los usando a interface compatível com OpenAI, sem necessidade de adaptação adicional.
Perguntas Frequentes
Q1: 14 imagens de referência são suportadas por ambos os modelos?
Não exatamente. 14 é o limite total para o Gemini 3.1 Flash Image Preview (10 objetos + 4 personagens). O limite total para o Gemini 3 Pro Image Preview é, na verdade, 11 imagens (6 objetos + 5 personagens). Ao escolher um modelo, você precisa decidir com base nas suas necessidades específicas de cota.
Q2: É possível usar apenas imagens de fidelidade de objeto, sem imagens de consistência de personagem?
Sim. Esses dois tipos de imagens de referência são independentes, e você pode usar apenas um deles. Por exemplo, em cenários de e-commerce, geralmente são necessárias apenas imagens de fidelidade de objeto, sem envolver consistência de personagem. Nesse caso, o modelo Flash pode receber até 10 imagens de objeto. Você pode testar rapidamente os efeitos de diferentes configurações através da APIYI (apiyi.com).
Q3: O que fazer se a consistência de personagem não for boa?
O Google reconhece oficialmente que a consistência de personagem não é 100% confiável atualmente. Sugestões: (1) Use imagens de referência frontais de alta definição; (2) Descreva detalhadamente as características do personagem no comando; (3) Gere várias imagens candidatas e faça uma seleção manual; (4) Tente testar os modelos Flash e Pro simultaneamente na APIYI (apiyi.com) para comparar os efeitos de consistência.
Q4: Como diferenciar imagens de fidelidade de objeto de imagens de consistência de personagem?
A principal diferença está na semântica: uma imagem de fidelidade de objeto é um "item" (sapatos, bolsas, relógios, etc.) que você deseja reproduzir com precisão no resultado gerado, enquanto uma imagem de consistência de personagem é uma "pessoa/personagem" cujo visual você deseja manter consistente em diferentes cenários. Na invocação da API, ambas são entradas de imagem comuns, e o modelo entende o papel de cada imagem através da descrição no comando. Recomenda-se indicar claramente relações de referência como "este sapato", "este personagem" no comando.
Resumo
Pontos-chave da funcionalidade de 14 imagens de referência do Gemini:
- Cota dividida em duas categorias: O limite de 14 imagens é composto por imagens de fidelidade de objeto e imagens de consistência de personagem, cada uma com seu próprio limite independente.
- Diferenças entre os dois modelos: O Flash tende à fidelidade de objeto (10 imagens), enquanto o Pro foca na consistência de personagem (5 imagens).
- O cenário define a escolha: Escolha Flash para exibição de produtos, Pro para histórias de personagens e distribua conforme a necessidade para cenários mistos.
- A consistência de personagem requer validação: Não é 100% perfeita, é recomendável testar em pequenos lotes antes de gerar em massa.
Compreender a lógica de alocação de cotas é crucial para usar eficientemente a funcionalidade de múltiplas imagens de referência do Gemini. Sugerimos testar rapidamente os efeitos reais dos modelos Flash e Pro através do APIYI (apiyi.com). A plataforma oferece cotas gratuitas e uma interface unificada, facilitando a comparação e a escolha da solução mais adequada para o seu cenário.
Referências
-
Documentação de Geração de Imagens do Google Gemini: Descrição oficial da funcionalidade de múltiplas imagens de referência.
- Link:
ai.google.dev/gemini-api/docs/image-generation - Descrição: Inclui especificações detalhadas da API e exemplos de código para as 14 imagens de referência.
- Link:
-
Cartão do Modelo Gemini 3.1 Flash Image Preview: Descrição das capacidades e limitações do modelo.
- Link:
deepmind.google/models/model-cards/gemini-3-1-flash-image/ - Descrição: Especificações técnicas e parâmetros de desempenho do modelo de imagem Flash.
- Link:
-
Guia do Desenvolvedor Gemini 3: Documentação completa de desenvolvimento para a série de modelos Gemini 3.
- Link:
ai.google.dev/gemini-api/docs/gemini-3 - Descrição: Guia de desenvolvimento que abrange capacidades multimodais como texto, imagem e vídeo.
- Link:
Autor: Equipe Técnica APIYI
Discussão Técnica: Sinta-se à vontade para discutir dicas de uso das múltiplas imagens de referência do Gemini na seção de comentários. Mais informações estão disponíveis no centro de documentação do APIYI: docs.apiyi.com
