Lorsque vous utilisez l'API Nano Banana Pro pour le rendu architectural, la génération d'images de produits ou des scènes e-commerce, vous avez peut-être déjà rencontré une situation déconcertante : vous téléchargez deux images de référence, rédigez une invite précise, mais le résultat ressemble à une simple « copie conforme » de l'une des images sources, sans aucune modification selon vos instructions. Ce phénomène s'est multiplié depuis le lancement de Gemini 3.1 Flash Image en février 2026, et les discussions sur le forum Google AI Developers confirment une « instabilité élevée » du modèle Pro dans les scénarios multi-références.
Cet article analyse le mécanisme d'invocation du modèle, illustre le problème avec un cas concret de « rendu de plan architectural vers image finale », détaille les 5 conditions déclenchant le renvoi de l'image originale par Nano Banana Pro, et propose 8 solutions applicables immédiatement. Tous les exemples d'appels sont basés sur la plateforme APIYI (apiyi.com), qui a optimisé la stabilité de la série Gemini 3 Pro Image, facilitant ainsi vos tests avec les invites de correction suggérées.
I. Phénomènes typiques du problème de renvoi de l'image originale par Nano Banana Pro
Prenons un cas réel : un utilisateur travaille sur un rendu de design immobilier. Il télécharge deux images de référence : l'image 1 est un plan architectural (structure en béton, 4,9 Mo) et l'image 2 est le rendu final (façade vitrée, végétation, éclairage crépusculaire, 13,8 Mo). L'invite en chinois simplifié demande : « Rendre l'image 1 en se référant à l'image 2. Couleur : adopter des tons froids et sophistiqués… Style : rendu réaliste commercial typique… ». L'objectif est d'utiliser le style et les matériaux de l'image 2 pour transformer la structure de l'image 1. Résultat : le modèle renvoie une image quasi identique à l'image 2, et la structure de l'image 1 est totalement ignorée.
Ce n'est pas un cas isolé. Sur le forum Google AI Developers, des développeurs signalent que « le sous-échantillonnage des images de référence par le modèle est trop agressif, empêchant la reconnaissance des détails », et notent que le problème s'est intensifié après la sortie de Gemini 3.1 Flash Image. La documentation de dépannage de plateformes tierces comme Replicate, Atlas Cloud ou AI Free API répertorie également des cas similaires de « sortie directe de l'image de référence », bien que les conditions de déclenchement varient légèrement.
1.1 Fréquence d'apparition et portée de l'impact
Le tableau ci-dessous présente la probabilité relative de déclenchement du phénomène où Nano Banana Pro ne modifie pas l'image selon différents scénarios d'utilisation, basée sur les retours de la communauté et les échantillons de surveillance de la plateforme.
| Scénario d'utilisation | Probabilité de déclenchement | Niveau d'impact |
|---|---|---|
| Édition avec une seule image de référence | Faible | Dérive mineure de certains détails |
| Utilisation de deux images (transfert de style) | Moyenne à élevée | Sortie proche d'une des images originales |
| Synthèse multi-images (3+) | Élevée | Le modèle privilégie la dernière image |
| Appels aux heures de pointe (US/EU) | Augmentation notable | Baisse globale de la qualité des détails |
| Scènes sensibles (portraits/marques) | Occasionnel | Refus d'édition ou retour à l'original |
🎯 Conseil de diagnostic : Si vous gérez des activités e-commerce, immobilières ou de produits nécessitant plusieurs images de référence et que vous constatez un taux de « renvoi de l'image originale » supérieur à 10 %, il ne s'agit généralement pas d'une cause unique, mais d'une combinaison de problèmes liés à l'invite, aux paramètres et à l'infrastructure. Nous vous recommandons d'utiliser l'interface unifiée de la plateforme APIYI (apiyi.com) pour comparer les sorties de Nano Banana Pro et Nano Banana 2 avec la même invite, afin d'identifier rapidement si le problème provient du modèle ou de l'invite.
2. Les 5 causes techniques du retour à l'image originale avec Nano Banana Pro

2.1 Cause n°1 : Confusion dans les références de l'invite, le modèle reproduit l'image 2 par défaut
La cause la plus fréquente du retour à l'image originale avec Nano Banana Pro est que les références du type "se référer à l'image 2" dans l'invite sont interprétées par le modèle comme "produire une copie de l'image 2". Le guide officiel des invites de Google DeepMind recommande explicitement d'utiliser des noms sémantiques lors de l'utilisation d'entrées multi-images (par exemple, "le fil de fer", "le bâtiment rendu"), plutôt que des identifiants de position pure comme "image 2".
En anglais, une instruction comme "rendre l'image 1 dans le style de l'image 2" est claire, mais lors du décodage, le modèle privilégie souvent le signal visuel le plus abouti, c'est-à-dire l'image 2 qui est déjà un rendu final. Si la seconde partie de l'invite décrit en détail les tons ou les matériaux de l'image 2, le modèle finit par considérer cette dernière comme la "cible" plutôt que comme une simple référence de style.
2.2 Cause n°2 : Absence de verbes d'édition, le modèle choisit la "reconstruction"
Le mécanisme central de Gemini 2.5 et Gemini 3 Pro Image repose sur la transformation d'images basée sur la compréhension du langage naturel. Si l'invite ne contient pas de verbes d'édition explicites (transform, render, apply, replace, composite, etc.), le modèle a tendance à suivre un chemin de "reconstruction" en cas d'entrées multiples. Il tente alors de reconstruire une image similaire à partir de l'image de référence la plus forte, au lieu d'effectuer une véritable "édition".
Les modèles d'invites recommandés par DataCamp et le blog des développeurs Google suivent généralement ce format : Prenez [l'élément de l'image 1] et placez-le avec/sur [l'élément de l'image 2], ou En utilisant l'image fournie de [sujet], veuillez [ajouter/supprimer/modifier] [élément]. Ces modèles utilisent des verbes clairs pour ancrer "quel élément doit être transformé et lequel sert de référence de style", ce qui manque souvent dans les invites rédigées rapidement.
2.3 Cause n°3 : Conflit de ratio d'aspect, la dernière image domine la sortie
Il existe une règle officielle peu connue pour la gamme Nano Banana : lors d'entrées multi-images, le modèle adopte par défaut le ratio d'aspect de la dernière image de référence. Cette règle est mentionnée dans les tutoriels de DataCamp et sur le blog des développeurs Google, mais elle est souvent négligée lors du développement.
Dans le cas d'un utilisateur, l'image 2 (rendu final) est un rendu 16:9, tandis que l'image 1 (esquisse) est proche du 4:3 et plus petite. En adoptant le ratio de l'image 2, le modèle est géométriquement poussé à déployer la composition de l'image 2 plutôt que de régénérer à partir de l'image 1. Cela se combine souvent avec la cause n°1 pour aboutir à une simple reproduction de l'image 2.
2.4 Cause n°4 : Dégradation de l'infrastructure et repli silencieux aux heures de pointe
Depuis février 2026, Google a fait de Nano Banana 2 l'entrée par défaut dans l'application Gemini, reléguant le modèle Pro dans le menu "trois points → Régénérer". Parallèlement, des phénomènes de repli silencieux vers des modèles plus petits ont été observés sur l'API aux heures de pointe. Comme l'indiquaient des messages sur le forum des développeurs Google AI le 18 mai (la veille de Google I/O), "la qualité de la génération d'images chute immédiatement autour des annonces majeures".
Concrètement, le modèle renvoie toujours un code d'état 200, mais il peut basculer en arrière-plan sur un sous-modèle plus léger ou ignorer certaines étapes de post-traitement, entraînant une perte de détails et une moins bonne adhérence à l'invite. Dans ces conditions, même avec une invite parfaite, la probabilité d'un échec de l'image vers image avec Nano Banana Pro augmente considérablement, se manifestant souvent par un retour à une image proche de l'originale.
2.5 Cause n°5 : Sous-échantillonnage agressif dû à des images de référence trop lourdes
Le même forum des développeurs Google AI souligne que : "le sous-échantillonnage des images de référence par le modèle est parfois trop agressif, empêchant la reconnaissance ou la reproduction des détails". Lorsqu'une image de référence approche ou dépasse 13 Mo, le modèle peut effectuer une mise à l'échelle importante lors du prétraitement interne, rendant les informations structurelles clés (poutres, étiquettes de produits, expressions faciales) floues.
Si les détails de l'image 1 deviennent indiscernables après ce sous-échantillonnage, le modèle s'appuiera naturellement sur l'autre référence, plus "claire", pour la synthèse, aboutissant à une copie de l'image 2. C'est pourquoi le taux d'échec varie énormément selon la résolution des images de référence : beaucoup de développeurs pensent à un problème d'invite, alors qu'en réalité, l'image de référence est devenue "illisible" pour le modèle.
III. 8 solutions pratiques : pour que Nano Banana Pro "édite réellement selon l'image"

L'idée maîtresse pour que Nano Banana Pro conserve l'image originale est simple : ne comptez pas sur le modèle pour deviner vos intentions. Clarifiez tout : quelle est l'image de base, laquelle est la référence, et quelle transformation effectuer. Utilisez également les paramètres d'invocation comme filet de sécurité. Voici 8 points de correction applicables immédiatement, divisés entre l'invite et les paramètres.
3.1 Les 5 points de correction au niveau de l'invite
| N° | Point de correction | Mauvaise pratique | Pratique recommandée |
|---|---|---|---|
| 1 | Ajouter des verbes d'action | "Rendre l'image 1 selon l'image 2" | "Transformez l'image 1 en utilisant l'image 2 comme référence" |
| 2 | Remplacer les numéros par des noms sémantiques | "Image 1, image 2" | "le filaire / le rendu final" |
| 3 | Clarifier les rôles | (Aucune explication) | "utilisez la première comme base structurelle, la seconde comme référence de style" |
| 4 | Décrire l'objectif positivement | "Ne pas transformer en image 2" | "préservez le contour du bâtiment original de la première image" |
| 5 | Combiner avec des exigences de matériaux | "Adopter des tons froids" | "appliquez la façade en verre aux tons froids et la lueur intérieure chaleureuse de l'image 2 sur la structure de l'image 1" |
💡 Modèle d'invite : Pour les tâches à deux images comme le rendu architectural ("structure + style"), utilisez cette structure fixe :
[Verbe d'action] + [référence structurelle de l'image A] + [référence de style/matériau de l'image B] + [contraintes explicites]. Sur la plateforme APIYI (apiyi.com), vous pouvez encapsuler ce modèle dans une invite système, puis effectuer des tests A/B entre Nano Banana Pro et Nano Banana 2 avec un coût d'itération minimal.
3.2 Les 3 points de correction au niveau des paramètres d'invocation
| N° | Point de correction | Explication |
|---|---|---|
| 6 | Contrôler l'ordre d'envoi | Placez l'objet à éditer en dernier pour que le modèle adopte son ratio d'aspect |
| 7 | Limiter la taille de l'image de référence | Compressez chaque image entre 2 et 5 Mo pour éviter un sous-échantillonnage agressif |
| 8 | Spécifier explicitement image_size | Par exemple 1024×1024 ou 1536×1024, pour réduire les conflits de ratio |
Il est important de noter que dans certaines versions de Gemini 3 Pro Image, le paramètre imageSize est parfois ignoré (voir le cas 110458 du forum Google AI Developers). Il est donc conseillé de combiner les points 6 et 8 pour garantir que le ratio final correspond à vos attentes. Si vous définissez uniquement image_size sans ajuster l'ordre d'envoi, le ratio d'aspect pourrait être écrasé par la dernière image dans certaines versions.
IV. Exemple complet d'invocation de l'API d'image vers image Nano Banana Pro
4.1 Exemple erroné : erreurs fréquentes provoquant le renvoi de l'image originale par Nano Banana Pro
Le bloc de code ci-dessous reproduit les échecs rencontrés par les utilisateurs : références confuses dans l'invite, absence de verbes d'action, non-contrôle du ratio d'aspect et images de référence non compressées.
import openai
client = openai.OpenAI(
api_key="your-apiyi-key",
base_url="https://api.apiyi.com/v1"
)
response = client.images.edit(
model="gemini-3-pro-image-preview",
image=[
open("wireframe.jpg", "rb"), # 4.9 Mo
open("rendered.jpg", "rb"), # 13.8 Mo, uploadé en dernier
],
prompt="参照图2渲染图1。色彩: 采用清冷的高级色调。",
size="auto",
n=1,
)
Dans ce scénario multi-images, le modèle considère très probablement rendered.jpg comme le signal dominant, produisant une copie quasi identique à l'image 2. Les trois risques majeurs sont : l'expression chinoise "参照图2" (référer à l'image 2) interprétée comme la sortie cible, l'absence de verbe de transformation, et le réglage size="auto" qui laisse le ratio d'aspect être dicté par la plus grande image.
4.2 Exemple corrigé : pour que Nano Banana Pro effectue réellement une édition basée sur l'image
import openai
client = openai.OpenAI(
api_key="your-apiyi-key",
base_url="https://api.apiyi.com/v1"
)
prompt = (
"Transform the unfinished concrete wireframe structure in the first image "
"into a fully rendered architectural visualization. "
"Use the second image STRICTLY as a STYLE and MATERIAL reference: "
"apply its cool-toned glass facade, warm interior glow, surrounding greenery "
"and dusk lighting onto the structure from the first image. "
"Preserve the building outline, floor count and balcony arrangement "
"exactly as shown in the first image. "
"Do NOT replace the geometry with the second image."
)
response = client.images.edit(
model="gemini-3-pro-image-preview",
image=[
open("rendered_compressed.jpg", "rb"), # Référence de style, compressée à ~3 Mo
open("wireframe_compressed.jpg", "rb"), # Objet à éditer placé en dernier
],
prompt=prompt,
size="1536x1024",
n=1,
)
Quatre changements clés ont été effectués : utilisation de l'anglais pour définir clairement le rôle "transform A using B as reference" ; ajustement de l'ordre d'upload pour que le wireframe (l'objet à éditer) soit la "dernière image" et domine ainsi le ratio d'aspect ; spécification explicite de la taille pour éviter que le mode auto n'hérite de la haute résolution de l'image de référence ; et compression des deux images sous les 5 Mo pour éviter un sous-échantillonnage agressif.
🚀 Conseil pour démarrer rapidement : Les développeurs souhaitant vérifier les résultats peuvent appeler directement Nano Banana Pro et Nano Banana 2 sur APIYI (apiyi.com) avec la même invite. La plateforme propose une interface compatible avec OpenAI, ce qui évite d'écrire du code spécifique pour chaque modèle. Vous obtiendrez vos résultats de test A/B en 5 minutes.
V. FAQ sur l'image vers image avec Nano Banana Pro
Q1 : Pourquoi l'invite modifiée en chinois renvoie-t-elle toujours l'image originale, alors qu'elle fonctionne en anglais ?
La série Gemini analyse la sémantique anglaise de manière plus stable. En chinois, les verbes et les références numériques ("参照图X") sont souvent mal interprétés lors de la tokenisation comme des "instructions de sortie cible". Il est conseillé d'utiliser l'anglais pour les instructions d'édition clés (transform / preserve / apply) et de mélanger les deux langues pour la description de la scène. Cela préserve la finesse de l'expression tout en évitant les malentendus sur les verbes.
Q2 : Est-ce qu'il suffit de réduire toutes les images de référence en dessous de 2 Mo pour résoudre le problème ?
La compression seule ne résout que la cause n°5 (distorsion par sous-échantillonnage), mais pas le conflit entre l'invite et le ratio d'aspect. Il est recommandé d'agir sur trois niveaux : compression + réécriture de l'invite + contrôle de l'ordre d'upload. Pour des volumes importants, vous pouvez effectuer un prétraitement systématique : convertir les images de référence en JPG et les compresser entre 2 et 5 Mo avant l'invocation du modèle.
Q3 : Lequel de Nano Banana Pro ou Nano Banana 2 est le plus adapté à l'édition multi-images ?
| Modèle | Stabilité multi-images | Conservation des détails | Scénarios adaptés |
|---|---|---|---|
| Nano Banana Pro (Gemini 3 Pro Image) | Moyenne (fluctuations récentes) | Élevée | Édition haute qualité, images de marque |
| Nano Banana 2 (Gemini 3.1 Flash Image) | Assez élevée | Moyenne (aspect plastique léger) | Traitement par lots, images e-commerce |
En pratique, si vous avez des exigences très élevées (rendus architecturaux, images produits haute fidélité), vous pouvez utiliser Nano Banana 2 pour une sortie stable, puis Nano Banana Pro pour les finitions. Cette approche "brouillon + finition" permet de concilier stabilité et qualité.
Q4 : Si le modèle renvoie l'image originale, est-ce que réessayer plusieurs fois peut aider ?
S'il s'agit d'une dégradation temporaire de l'infrastructure aux heures de pointe, 1 à 3 tentatives peuvent suffire. Mais s'il s'agit d'un problème lié à l'invite ou aux paramètres, 100 tentatives ne changeront rien. La méthode de diagnostic est simple : si les mêmes paramètres échouent systématiquement à différents moments, le problème vient de l'invite. Si cela fonctionne en dehors des heures de pointe, il s'agissait d'une dégradation temporaire.
Q5 : Cette solution de correction est-elle applicable à d'autres modèles (Flux Kontext, Seedream) ?
La partie concernant la modification de l'invite (nommage sémantique, verbes d'édition, répartition des rôles, description positive) est applicable à tous les modèles d'image vers image courants. Cependant, la règle selon laquelle "la dernière image domine le ratio d'aspect" est spécifique à la série Nano Banana. Flux et Seedream possèdent leurs propres mécanismes de pondération. Si vous travaillez avec plusieurs modèles, l'interface unifiée d'APIYI (apiyi.com) vous permet de maintenir un seul modèle d'invite tout en adaptant les paramètres à chaque modèle.
Résumé
Le retour à l'image originale dans Nano Banana Pro est essentiellement le résultat d'une combinaison de "entrées multi-images + invite vague + fluctuations de l'infrastructure" dans le comportement par défaut du modèle, et non un simple bug. En comprenant la préférence du modèle pour la "dernière image", sa dépendance aux verbes d'édition et sa stratégie de sous-échantillonnage de la résolution pour l'image de référence, vous pouvez couvrir 90 % des scénarios d'échec avec 80 % de modifications de vos invites.
Pour les équipes travaillant sur le rendu architectural, les photos de produits ou le remplissage d'images pour le commerce électronique, nous recommandons de transformer les 8 solutions de correction mentionnées ci-dessus en modèles d'invites et en normes d'invocation, afin de les stabiliser par type d'activité dans vos environnements de production. À long terme, cela réduira considérablement les coûts de relance et le taux de retouche manuelle, permettant ainsi d'exploiter pleinement les capacités de sortie haute qualité de Nano Banana Pro pour vos besoins métier.
Cet article a été rédigé par l'équipe APIYI, spécialisée dans l'implémentation pratique des API de grands modèles de langage. Pour consulter les derniers exemples d'invocation et les données de stabilité de Nano Banana Pro, visitez le site officiel d'APIYI sur apiyi.com.
