Note de l'auteur : Analyse approfondie de la fonctionnalité des 14 images de référence de Gemini 3.1 Flash Image Preview et Gemini 3 Pro Image Preview, pour maîtriser l'utilisation correcte de la fidélité des objets et de la cohérence des personnages, ainsi que les stratégies d'allocation de quota.
Les modèles d'images Gemini prennent en charge l'utilisation mixte d'un maximum de 14 images de référence pour la génération d'images. Cependant, de nombreux développeurs ne connaissent pas clairement les règles d'allocation de ce quota de 14 images. Cet article détaillera les deux capacités fondamentales : la fidélité des objets (Object Fidelity) et la cohérence des personnages (Character Consistency), pour vous aider à comprendre et à utiliser efficacement la fonctionnalité multi-images de référence de Gemini.
Valeur clé : Après avoir lu cet article, vous maîtriserez la logique d'allocation du quota de 14 images de référence, les différences entre les deux modèles, et les meilleures pratiques pour vos projets réels.

Points clés de la fonctionnalité des 14 images de référence de Gemini
Google a introduit la capacité de mélange de plusieurs images de référence dans les modèles d'images de la série Gemini 3, permettant aux développeurs de transmettre jusqu'à 14 images de référence dans une seule requête de génération. Ces 14 images ne sont pas une simple "limite de quantité", mais sont précisément divisées en deux catégories fonctionnelles, chacune assumant des tâches de maintien visuel différentes.
| Point clé | Description | Valeur |
|---|---|---|
| Quota total de 14 images | Somme maximale des images de fidélité des objets + images de cohérence des personnages | Capacité de référence visuelle maximale par requête |
| Fidélité des objets (Object Fidelity) | Assure une reproduction haute fidélité d'objets spécifiques dans l'image générée | Images de produits, présentations de marchandises, matériel de marque |
| Cohérence des personnages (Character Consistency) | Maintient l'apparence du personnage cohérente dans différents scénarios | Histoires continues, IP de marque, marketing de personnages |
| Quotas différents pour les deux modèles | Les proportions d'allocation diffèrent entre Flash et Pro | Choisir le modèle approprié en fonction des besoins |
Explication détaillée des deux catégories fonctionnelles des images de référence Gemini
La fidélité des objets (Object Fidelity) consiste à intégrer des objets spécifiques des images de référence avec une haute fidélité dans l'image finale générée. Par exemple, si vous téléchargez une photo de baskets rouges, le modèle reproduira précisément les détails d'apparence de ces chaussures dans l'image de scène générée – y compris la couleur, la forme, la texture, l'emplacement du logo, etc. C'est crucial pour des scénarios tels que les images de produits e-commerce ou la génération de matériel de marque.
La cohérence des personnages (Character Consistency) se concentre sur les personnes ou les personnages. Lorsque vous téléchargez une image de référence d'un personnage, le modèle peut générer de nouvelles images de ce personnage dans différents arrière-plans, poses et conditions d'éclairage, tout en maintenant la cohérence des éléments visuels clés tels que les traits du visage, la coiffure et les vêtements. C'est très utile pour des scénarios comme les illustrations de récits continus, le marketing de mascottes de marque ou la conception de personnages de jeux.
Comprendre la distinction entre ces deux catégories est essentiel pour utiliser correctement les 14 images de référence. Elles ne sont pas mutuellement exclusives ; elles peuvent être utilisées ensemble dans une même requête, mais chacune a sa propre limite de quantité.
Comparaison des quotas d'images de référence entre les deux modèles Gemini
Bien que Gemini 3.1 Flash Image Preview et Gemini 3 Pro Image Preview prennent tous deux en charge la fonctionnalité de plusieurs images de référence, ils présentent des différences significatives dans l'attribution des quotas.

| Dimension de capacité | Gemini 3.1 Flash Image Preview | Gemini 3 Pro Image Preview |
|---|---|---|
| Limite totale d'images de référence | 14 images | 11 images |
| Limite d'images de fidélité d'objet | Max 10 images | Max 6 images |
| Limite d'images de cohérence de personnage | Max 4 images | Max 5 images |
| Accent sur la fidélité d'objet | Plus fort (10 images) | Plus faible (6 images) |
| Accent sur la cohérence de personnage | Plus faible (4 images) | Plus fort (5 images) |
| Vitesse de génération | Plus rapide (niveau Flash) | Plus lent (niveau Pro) |
| Scénarios applicables | Images de produits en grande quantité, scènes multi-objets | Histoires multi-personnages, interactions complexes de personnages |
Points clés pour comprendre l'attribution des quotas d'images de référence Gemini
Un point clé que de nombreux développeurs ont tendance à confondre est le suivant : 14 images de référence ne signifie pas une attribution arbitraire. Prenons l'exemple de Gemini 3.1 Flash Image Preview :
- Vous pouvez télécharger au maximum 10 images de fidélité d'objet + 4 images de cohérence de personnage = 14 images.
- Mais vous ne pouvez pas télécharger 14 images de fidélité d'objet et 0 image de cohérence de personnage (la limite de fidélité d'objet est de 10 images).
- Et vous ne pouvez pas télécharger 0 image de fidélité d'objet et 14 images de cohérence de personnage (la limite de cohérence de personnage est de 4 images).
En d'autres termes, 14 est la valeur maximale théorique, qui n'est atteinte que si vous utilisez simultanément les deux types d'images de référence et que chacun atteint sa limite.
Il en va de même pour Gemini 3 Pro Image Preview : un maximum de 6 + 5 = 11 images, et non 14. La limite totale du modèle Pro est en fait de 11 images.
Conseil de sélection : Si votre scénario est principalement axé sur la présentation de produits (nécessitant de nombreuses références d'objets), il est recommandé de choisir Gemini 3.1 Flash Image Preview, qui offre plus de quotas pour la fidélité d'objet. Si votre scénario est axé sur des histoires de personnages (nécessitant une cohérence entre plusieurs personnages), le quota de 5 personnages de Gemini 3 Pro Image Preview est plus avantageux. Vous pouvez tester les deux modèles simultanément via APIYI (apiyi.com) pour comparer rapidement les résultats.
Démarrage rapide avec les 14 images de référence Gemini
Exemple minimaliste
Voici le code de base pour la génération d'images avec plusieurs images de référence en utilisant Gemini 3.1 Flash Image Preview :
from google import genai
from google.genai import types
from PIL import Image
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
# Charge les images de référence d'objet (max 10)
shoe = Image.open("red-shoe.png")
bag = Image.open("leather-bag.png")
# Charge les images de référence de personnage (max 4)
character = Image.open("brand-mascot.png")
prompt = "Create a product showcase scene featuring this red shoe and leather bag, with the brand mascot character standing next to them in a modern retail environment."
response = client.models.generate_content(
model="gemini-3.1-flash-image-preview",
contents=[prompt, shoe, bag, character],
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
),
)
Voir le code complet de génération avec plusieurs images de référence
from google import genai
from google.genai import types
from PIL import Image
import base64
import os
# Initialise le client
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
def generate_with_references(
prompt: str,
object_images: list = None,
character_images: list = None,
aspect_ratio: str = "16:9",
model: str = "gemini-3.1-flash-image-preview"
):
"""
Génère une image en utilisant plusieurs images de référence
Args:
prompt: L'invite de génération
object_images: Liste des chemins d'images de fidélité d'objet (Flash max 10)
character_images: Liste des chemins d'images de cohérence de personnage (Flash max 4)
aspect_ratio: Le rapport d'aspect de sortie
model: Le nom du modèle
"""
contents = [prompt]
# Ajoute les images de référence d'objet
if object_images:
for img_path in object_images:
contents.append(Image.open(img_path))
# Ajoute les images de référence de personnage
if character_images:
for img_path in character_images:
contents.append(Image.open(img_path))
response = client.models.generate_content(
model=model,
contents=contents,
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
),
),
)
# Extrait l'image générée
for part in response.candidates[0].content.parts:
if part.inline_data and part.inline_data.mime_type.startswith("image/"):
image_data = base64.b64decode(part.inline_data.data)
with open("output.png", "wb") as f:
f.write(image_data)
print("Image enregistrée : output.png")
# Exemple d'utilisation : Scénario de produit e-commerce
generate_with_references(
prompt="Ces produits placés sur un présentoir blanc minimaliste pour une photographie de produit professionnelle",
object_images=["shoe.png", "bag.png", "watch.png"],
character_images=["model-person.png"],
aspect_ratio="16:9"
)
Conseil : Obtenez une clé API via APIYI (apiyi.com) pour tester rapidement les modèles d'images Gemini. La plateforme prend en charge l'invocation unifiée des API pour Gemini 3.1 Flash Image Preview et Gemini 3 Pro Image Preview.
Scénarios d'application des images de référence Gemini et meilleures stratégies d'allocation
La stratégie d'allocation des 14 images de référence varie considérablement selon les scénarios métier. Voici les configurations recommandées pour 5 scénarios typiques :
| Scénario | Modèle recommandé | Nb d'images d'objet | Nb d'images de personnage | Total images de référence | Description |
|---|---|---|---|---|---|
| Collections de produits e-commerce | Flash | 8-10 | 0 | 8-10 | Affichage de plusieurs produits dans le même cadre |
| Histoires de personnages de marque | Pro | 2-3 | 4-5 | 6-8 | Personnages en aventure dans différents scénarios |
| Produit + Ambassadeur | Flash | 5-6 | 2-3 | 7-9 | Personnage tenant/présentant le produit |
| Conception de personnages de jeu | Pro | 3-4 | 4-5 | 7-9 | Scènes d'interaction entre plusieurs personnages |
| Aménagement de scènes d'intérieur | Flash | 8-10 | 0 | 8-10 | Combinaison de plusieurs meubles/objets de décoration |
Pratique des images de référence Gemini pour les scénarios de produits e-commerce
L'e-commerce est le scénario d'application le plus direct pour la fonctionnalité multi-images de référence. De manière traditionnelle, vous devriez photographier chaque produit individuellement dans un décor, ce qui est coûteux et rend difficile l'uniformisation du style. Grâce à la capacité de fidélité des objets de Gemini, vous pouvez utiliser les images de produits sur fond blanc comme référence pour générer des images de scène au style unifié en une seule fois.
Il est recommandé d'utiliser Gemini 3.1 Flash Image Preview, car il prend en charge jusqu'à 10 images de fidélité d'objet, ce qui est suffisant pour couvrir une collection de produits d'une même catégorie. De plus, la vitesse de génération de niveau Flash est mieux adaptée aux besoins de production en grande quantité.
Pratique des images de référence Gemini pour les scénarios d'histoires de personnages
Si vous avez besoin de générer une série d'illustrations d'histoires pour un IP de marque ou un personnage de jeu, la cohérence des personnages est une exigence essentielle. Gemini 3 Pro Image Preview prend en charge jusqu'à 5 images de cohérence des personnages, ce qui permet de maintenir l'apparence de 5 personnages indépendants simultanément.
Il est important de noter que la cohérence des personnages n'est pas encore parfaite à 100 %. La documentation officielle de Google indique également : "character consistency is not always perfect between input images and generated output images". En pratique, il est conseillé de :
- Fournir des images de référence de personnages claires, de face et avec un éclairage uniforme.
- Décrire clairement les caractéristiques clés de chaque personnage dans l'invite.
- Effectuer une sélection et un ajustement manuel des résultats générés.
Conseil pratique : Il est recommandé de commencer par des tests en petit volume via APIYI apiyi.com pour confirmer que l'effet de cohérence des personnages répond à vos exigences avant de procéder à une génération en masse. La plateforme offre des crédits de test gratuits pour une validation rapide.

Spécifications techniques et considérations pour les images de référence Gemini
Rapports d'aspect de sortie pris en charge
Le modèle d'images Gemini prend en charge 14 rapports d'aspect, couvrant presque tous les scénarios d'utilisation courants :
| Rapport d'aspect | Usages typiques | Scénarios adaptés |
|---|---|---|
| 1:1 | Avatars de réseaux sociaux, images carrées de produits | Instagram, miniatures de produits |
| 16:9 | Affichage horizontal, illustrations de blog | Bannières web, images d'en-tête d'articles |
| 9:16 | Affichage vertical, fonds d'écran mobiles | Couvertures Xiaohongshu, Douyin |
| 4:3 | Rapport d'affichage traditionnel | Illustrations PowerPoint, affiches traditionnelles |
| 3:2 | Rapport standard en photographie | Photographie de produits, paysages |
| 21:9 | Affichage ultra-large | Affiches de films, bannières de sites web |
| 1:4 / 4:1 | Rapports extrêmes | Images longues, infographies |
Limitations clés pour l'utilisation des images de référence Gemini
En développement, les limitations suivantes nécessitent une attention particulière :
- Les quotas sont des limites strictes : Dépasser le nombre maximum d'objets fidèles ou de cohérence de rôle entraînera une erreur API.
- La qualité de l'image affecte le résultat : Des images de référence floues ou fortement obstruées réduiront la fidélité.
- La cohérence de rôle n'est pas à 100 % : Surtout dans les cas de changements de posture extrêmes ou de grandes différences de conditions d'éclairage.
- L'invite doit être adaptée : L'image de référence n'est qu'une entrée visuelle ; l'invite doit décrire clairement le contenu de l'image et l'effet souhaité.
- Mécanisme
thoughtSignature: Dans l'édition conversationnelle, le modèle s'appuie sur lethoughtSignaturede la session précédente pour comprendre la composition de l'image ; ce signature doit être conservé lors des éditions continues.
Conseil de développement : APIYI (apiyi.com) prend en charge toute la série de modèles d'images Gemini, y compris
gemini-3.1-flash-image-previewetgemini-3-pro-image-preview. Vous pouvez les invoquer via une interface compatible OpenAI, sans adaptation supplémentaire.
Questions fréquentes
Q1: Les 14 images de référence sont-elles prises en charge par les deux modèles ?
Pas entièrement. 14 images est la limite totale pour Gemini 3.1 Flash Image Preview (10 objets + 4 rôles). La limite totale pour Gemini 3 Pro Image Preview est en fait de 11 images (6 objets + 5 rôles). Lors du choix du modèle, vous devez décider en fonction de vos besoins spécifiques en matière de quota.
Q2: Peut-on utiliser uniquement des images de fidélité d’objet, sans images de cohérence de rôle ?
Oui. Ces deux types d'images de référence sont indépendants, vous pouvez n'utiliser qu'un seul des deux. Par exemple, les scénarios d'e-commerce ne nécessitent généralement que des images de fidélité d'objet et n'impliquent pas de cohérence de rôle. Dans ce cas, le modèle Flash peut accepter jusqu'à 10 images d'objet. Vous pouvez tester rapidement l'effet des différentes configurations via APIYI (apiyi.com).
Q3: Que faire si la cohérence de rôle n’est pas satisfaisante ?
Google reconnaît officiellement que la cohérence de rôle n'est pas fiable à 100 % actuellement. Il est recommandé de : (1) utiliser des images de référence frontales haute résolution ; (2) décrire en détail les caractéristiques du rôle dans l'invite ; (3) générer plusieurs images candidates et les filtrer manuellement ; (4) essayer de tester simultanément les modèles Flash et Pro sur APIYI (apiyi.com) pour comparer l'effet de cohérence.
Q4: Comment distinguer les images de fidélité d’objet des images de cohérence de rôle ?
La distinction clé réside dans la sémantique : une image de fidélité d'objet est un « objet » (chaussures, sacs, montres, etc.) que vous souhaitez reproduire avec précision dans le résultat généré, tandis qu'une image de cohérence de rôle est une « personne/personnage » dont vous souhaitez maintenir l'apparence constante dans différents scénarios. Lors de l'invocation de l'API, les deux sont des entrées d'image ordinaires, et le modèle comprend le rôle de chaque image grâce à la description dans l'invite. Il est conseillé de marquer explicitement les relations de référence comme « cette chaussure », « ce personnage », etc., dans l'invite.
Résumé
Points clés de la fonctionnalité de 14 images de référence de Gemini :
- Le quota est divisé en deux catégories : la limite de 14 images est composée d'images pour la fidélité des objets et d'images pour la cohérence des personnages, chacune ayant sa propre limite indépendante.
- Les deux modèles présentent des différences : Flash privilégie la fidélité des objets (10 images), tandis que Pro privilégie la cohérence des personnages (5 images).
- Le scénario détermine le choix : Flash pour la présentation de produits, Pro pour les histoires de personnages, et allocation selon les besoins pour les scénarios mixtes.
- La cohérence des personnages nécessite une vérification : elle n'est pas parfaite à 100%, il est donc recommandé de tester d'abord en petits lots avant de générer en masse.
Comprendre la logique d'allocation des quotas est la clé pour utiliser efficacement la fonctionnalité de multiples images de référence de Gemini. Nous vous suggérons de tester rapidement l'efficacité réelle des modèles Flash et Pro via APIYI (apiyi.com). La plateforme offre des quotas gratuits et une interface unifiée, facilitant la comparaison et le choix de la solution la plus adaptée à votre scénario.
Références
-
Documentation Google Gemini sur la génération d'images : Documentation officielle de la fonctionnalité de multiples images de référence.
- Lien :
ai.google.dev/gemini-api/docs/image-generation - Description : Contient les spécifications API détaillées et des exemples de code pour les 14 images de référence.
- Lien :
-
Fiche modèle Gemini 3.1 Flash Image Preview : Description des capacités et des limitations du modèle.
- Lien :
deepmind.google/models/model-cards/gemini-3-1-flash-image/ - Description : Spécifications techniques et paramètres de performance du modèle d'image Flash.
- Lien :
-
Guide du développeur Gemini 3 : Documentation complète de développement pour les modèles de la série Gemini 3.
- Lien :
ai.google.dev/gemini-api/docs/gemini-3 - Description : Couvre le guide de développement des capacités multimodales, y compris le texte, l'image et la vidéo.
- Lien :
Auteur : Équipe technique APIYI
Échanges techniques : N'hésitez pas à discuter des astuces d'utilisation de la fonctionnalité de multiples images de référence de Gemini dans la section des commentaires. Plus de ressources sont disponibles sur le centre de documentation APIYI docs.apiyi.com.
