Note de l'auteur : Analyse approfondie des limites techniques et des solutions pratiques pour la cohérence des visages avec Nano Banana Pro, couvrant les stratégies d'image de référence, les modèles d'invites, les flux de travail d'édition multi-tours, ainsi que la méthode d'itération haute fréquence à bas coût via APIYI (0,05 $/génération).
Lorsqu'on utilise Nano Banana Pro pour générer des images de mannequins, la plainte la plus courante est : "le visage se déforme tout le temps", "il a l'air mystérieusement bouffi" ou "dès qu'on change de décor, on ne dirait plus la même personne". Ces problèmes ont des solutions, mais il faut d'abord comprendre un postulat essentiel : Nano Banana Pro ne peut pas garantir actuellement une cohérence faciale à 100 % entre différentes générations. Chaque génération réinterprète les traits du visage, ce qui est une limitation intrinsèque à l'architecture du modèle et non le résultat d'une invite mal rédigée.
Valeur ajoutée : Après avoir lu cet article, vous comprendrez la cause profonde des problèmes de cohérence des visages, vous maîtriserez les meilleures pratiques combinant image de référence + structure d'invite + itérations multiples, et vous saurez comment utiliser APIYI pour effectuer des tests répétitifs à seulement 0,05 $/essai afin de trouver la solution optimale.

D'abord, comprenons : pourquoi la cohérence faciale est-elle si difficile ?
| Symptôme | Cause profonde | Résoluble par invite ? |
|---|---|---|
| Le visage semble grossir ou s'élargir | Le modèle réinterprète la structure faciale ; de légers changements d'angle provoquent une dérive des proportions | Amélioration partielle, impossible à éviter totalement |
| Impossible de reconnaître la même personne après un changement de scène | Chaque génération est une inférence indépendante, sans mémoire d'identité persistante | Nécessite des images de référence, l'invite seule ne suffit pas |
| Peau trop "plastique" ou effet cire | Le modèle a tendance à lisser la peau, perdant les détails des pores | Peut être nettement amélioré via des invites négatives |
| Yeux plats ou sans vie | Conflit entre la direction de la lumière et le rendu des reflets oculaires | Améliorable, nécessite des instructions d'éclairage précises |
| Déformation des mains | La structure de la main humaine est complexe, c'est une difficulté commune à tous les modèles d'image | Amélioration partielle |
L'essentiel à savoir : Nano Banana Pro n'est pas conçu spécifiquement pour le verrouillage facial ; ses points forts sont la qualité d'image et le rendu de texte. Comparé à des outils spécialisés dans la cohérence faciale comme Stable Diffusion (avec LoRA), Flux (très réaliste) ou InstantID, Nano Banana Pro présente des limites structurelles. L'amélioration des invites aide, mais ce n'est pas une solution miracle — c'est la combinaison "image de référence + invite + stratégie d'itération" qui permet de maximiser la cohérence.
Limites des capacités de cohérence faciale de Nano Banana Pro
Mécanismes de cohérence supportés officiellement
Nano Banana Pro supporte nativement la cohérence faciale via des images de référence, avec les spécificités techniques suivantes :
- Jusqu'à 14 images de référence : Vous pouvez télécharger jusqu'à 14 images ; la fidélité est maximale avec moins de 6 images.
- Jusqu'à 5 personnes simultanément : Le modèle peut suivre les traits faciaux de 5 personnages maximum dans une seule génération.
- Mécanisme de code latent d'identité : Le modèle mappe le visage sur une "représentation latente stable", conservant les points d'ancrage de l'identité lors du changement de décor.
- Édition Image-to-Image : Après avoir téléchargé une référence, vous pouvez modifier les vêtements, l'arrière-plan ou la pose par commande, sans altérer le visage.
Limites réelles (Évaluation honnête)
Capacité annoncée Expérience réelle
─────────────────────────────────────────
"Verrouiller l'identité" → Légère dérive persistante à chaque génération
"Cohérence multi-scène" → Les changements de lumière/angle déclenchent une réinterprétation
"Support 14 images" → L'effet est réduit si la qualité des références est médiocre
"5 personnes à la fois" → Baisse notable de la cohérence au-delà de 2 personnes
Conclusion : Actuellement, la cohérence faciale de Nano Banana Pro se situe entre "utilisable" et "bonne", mais reste loin de la "perfection". Si votre projet nécessite une précision extrême (comme des portraits de célébrités sous licence ou un usage médico-légal), il est conseillé de combiner cet outil avec des solutions professionnelles.

4 techniques d'amélioration essentielles
Technique 1 : Stratégie de l'image de référence (La plus importante)
La qualité de l'image de référence est le facteur déterminant pour la cohérence du visage, bien plus important que l'invite.
| Élément de l'image | Standard recommandé | À éviter |
|---|---|---|
| Résolution | 1024×1024 ou plus | Images floues de moins de 512px |
| Éclairage | Lumière frontale uniforme, sans ombres latérales marquées | Contre-jour, ombres fortes sur un côté |
| Angle | Une photo de face + une à 45° de profil | Utiliser un seul angle unique |
| Obstruction | Visage entièrement visible, sans lunettes ni chapeau | Mains devant le visage, cheveux cachant les yeux |
| Expression | Expression neutre et naturelle | Expressions exagérées (affecte la perception de la structure faciale) |
Établir une bibliothèque de références à 360° (recommandé pour le e-commerce) :
Structure du dossier de référence :
model_ref/
├── front_neutral.jpg # Face, expression neutre
├── front_smile.jpg # Face, sourire
├── side_left_45.jpg # Profil gauche 45°
├── side_right_45.jpg # Profil droit 45°
└── three_quarter.jpg # Profil 3/4 (composition la plus courante)
Lors de chaque génération, téléchargez 2 à 3 images de référence (face + l'angle le plus proche de la composition cible). Ne changez pas la combinaison d'images de référence à chaque fois.
Technique 2 : Optimisation de la structure de l'invite
L'ajout d'instructions explicites de préservation du visage est le moyen le plus direct d'améliorer les résultats via l'invite :
❌ Mauvaise formulation (sans instruction de préservation) :
"A young Asian woman wearing a red dress, studio lighting, 4K"
✅ Bonne formulation (avec instructions complètes) :
"A young Asian woman wearing a red dress, studio lighting, 4K.
Preserve exact facial structure, eye shape, jawline, and skin texture
from reference image. Realistic skin with visible pores and texture,
not smooth or plastic. Natural face proportions, slim face shape.
Sharp eyes with natural highlights."
Invite spécifique pour le problème du "visage qui s'empâte" :
Ajouts à l'invite positive :
"slim face, defined jawline, natural facial proportions,
realistic bone structure, angular cheekbones"
Concepts négatifs (à préciser en fin d'invite pour éviter ces effets) :
Avoid: "fat face, round puffy cheeks, bloated face,
overly smooth skin, plastic skin, waxy appearance,
airbrushed, over-retouched, flat eyes, doll-like"
Fixer l'angle de composition (crucial) : utilisez la même description de perspective photographique pour chaque génération. Le changement d'angle est l'une des principales causes de la ré-interprétation du visage :
Structure de phrase recommandée :
"3/4 portrait shot, eye-level camera angle,
medium close-up, [focal length: 85mm portrait lens equivalent]"
Technique 3 : Flux de travail d'édition multi-étapes (Image-to-Image)
N'essayez pas d'obtenir un résultat parfait du premier coup. Le flux de travail professionnel suit la logique "du global vers le local" :
Étape 1 : Composition globale
→ Télécharger l'image de référence + invite complète
→ Générer 3 à 5 variantes, choisir celle dont les proportions faciales sont les plus proches
Étape 2 : Peaufinage du visage (Image-to-Image)
→ Utiliser le meilleur résultat de l'étape précédente comme nouvelle image d'entrée
→ L'invite se concentre sur le visage : "Refine face detail,
sharpen eyes, maintain exact facial structure,
improve skin texture realism. Keep everything
else unchanged."
Étape 3 : Retouche locale (si nécessaire)
→ Retoucher séparément les mains, les cheveux, etc.
→ Invite : "Fix hands to have 5 fingers,
natural hand pose. Keep face and body unchanged."
🚀 Itération à bas coût : Un flux de travail multi-étapes signifie qu'une série d'images peut nécessiter 5 à 15 appels API. En passant par APIYI (apiyi.com), chaque appel ne coûte que 0,05 $. Le coût total pour une série complète de photos de mannequin est maîtrisé entre 0,25 $ et 0,75 $, soit une économie de plus de 79 % par rapport aux 1,20 $ – 3,60 $ du site officiel.
Technique 4 : Fixer les paramètres de génération (Niveau API)
Lors d'itérations par lots via l'API, maintenir la cohérence des paramètres suivants aide à réduire la dérive aléatoire :
import google.generativeai as genai
import base64
genai.configure(
api_key="VOTRE_CLE_APIYI",
# Point d'accès APIYI, 0,05 $/appel
client_options={"api_endpoint": "vip.apiyi.com"}
)
model = genai.GenerativeModel("gemini-3-pro-image-preview")
# Modèle d'invite fixe pour la cohérence faciale
FACE_CONSISTENCY_PROMPT = """
Fashion model in {outfit}, {scene}.
Preserve exact facial structure, eye shape, jawline, and skin texture
from reference image. Natural slim face proportions, defined cheekbones.
Realistic skin with visible pores, not airbrushed or plastic.
Sharp clear eyes with natural highlights. 3/4 portrait shot,
eye-level, 85mm portrait lens equivalent.
Avoid: fat face, puffy cheeks, overly smooth skin, flat eyes.
4K resolution, {aspect_ratio} aspect ratio.
"""
def generate_with_face_ref(
reference_image_path: str,
outfit: str,
scene: str,
output_path: str,
aspect_ratio: str = "2:3"
):
"""
Génère une image de mannequin en conservant la cohérence du visage via une image de référence.
Appel via APIYI (apiyi.com), 0,05 $/appel.
"""
# Lecture de l'image de référence
with open(reference_image_path, "rb") as f:
ref_data = base64.b64encode(f.read()).decode()
prompt = FACE_CONSISTENCY_PROMPT.format(
outfit=outfit, scene=scene, aspect_ratio=aspect_ratio
)
response = model.generate_content(
[
{
"inline_data": {
"mime_type": "image/jpeg",
"data": ref_data
}
},
prompt
],
generation_config=genai.GenerationConfig(
response_modalities=["IMAGE"],
resolution="4K",
aspect_ratio=aspect_ratio
)
)
for part in response.candidates[0].content.parts:
if part.inline_data and part.inline_data.mime_type.startswith("image/"):
with open(output_path, "wb") as f:
f.write(base64.b64decode(part.inline_data.data))
return output_path
return None
# Génération par lots pour différents scénarios (avec la même image de référence)
scenes = [
{"outfit": "white linen blazer", "scene": "minimalist studio, white background", "output": "model_studio.png"},
{"outfit": "casual denim jacket", "scene": "urban street, natural daylight", "output": "model_street.png"},
{"outfit": "elegant evening gown", "scene": "hotel lobby, warm ambient light", "output": "model_evening.png"},
]
for s in scenes:
result = generate_with_face_ref(
reference_image_path="model_ref/front_neutral.jpg",
outfit=s["outfit"],
scene=s["scene"],
output_path=s["output"]
)
print(f"{'✓' if result else '✗'} {s['output']}")
# 3 images, coût total APIYI : 0,15 $
Note : Dans le code,
vip.apiyi.comest le point d'accès d'APIYI (apiyi.com). Il est totalement compatible avec le format natif de Google Gemini, aucune conversion de format n'est nécessaire.
Bibliothèque de modèles d'invites
Voici des modèles d'invites complets organisés par style de prise de vue, prêts à être copiés et utilisés :
Modèle A : Mannequin e-commerce (fond blanc/uni)
[Reference image: front-facing portrait of model]
Fashion model wearing {description_vêtement}, posed naturally against a clean
white studio background. Professional e-commerce product photography.
FACE PRESERVATION (critical):
- Preserve exact facial structure, bone geometry, and proportions
from reference image
- Maintain original eye shape, eyelid fold, and iris color
- Keep original jawline definition and chin shape
- Realistic skin texture with visible pores, natural micro-details
- Slim natural face shape matching reference — avoid any widening
PHOTOGRAPHY SETTINGS:
- 3/4 portrait shot, eye-level camera angle
- 85mm portrait lens equivalent, shallow depth of field
- Soft diffused studio lighting, Rembrandt lighting setup
- Model facing slightly left, engaging with camera
AVOID: fat face, puffy cheeks, bloated jaw, plastic skin,
airbrushed appearance, flat emotionless eyes, wax figure look.
Resolution: 4K, aspect ratio: 2:3
Modèle B : Scène de vie / Mannequin extérieur
[Reference image: front-facing portrait of model]
Young woman in {description_scène}, wearing {description_vêtement}.
Lifestyle photography style, candid natural pose.
IDENTITY LOCK:
- This is the SAME person as in the reference image
- Preserve all facial features: eye shape, nose bridge width,
lip shape, jawline, cheekbone height
- Do not alter face geometry in any way
- Natural skin tone and texture, no over-smoothing
ENVIRONMENT: {détails_environnement}, natural daylight, golden hour lighting
POSE: {description_pose}, natural relaxed posture
QUALITY: editorial fashion photography, shot on full-frame camera,
natural color grading.
NEGATIVE: overweight appearance, fat face, double chin,
plastic surgery look, uncanny valley, distorted anatomy.
Resolution: 4K, aspect ratio: 4:5
Modèle C : Peaufinage multi-étapes (Image-to-Image)
[Input: previous generation result that needs face refinement]
Refine and improve the face in this image ONLY.
Do not change: background, clothing, body position, lighting.
FACE IMPROVEMENTS NEEDED:
1. Slim the face shape slightly, reduce cheek width by 10-15%
2. Sharpen the jawline definition
3. Add more realistic skin texture (visible pores, subtle imperfections)
4. Improve eye clarity — add natural catch lights, deepen iris color
5. Soften any plastic or over-retouched appearance
Keep all other elements 100% identical to the input image.
This is a targeted face-only refinement pass.
Resolution: 4K, same aspect ratio as input.
Liste d'autocontrôle de la qualité de l'image de référence
Avant de télécharger votre image de référence, utilisez cette liste pour évaluer si elle répond aux exigences :
| Point de contrôle | Critère | Méthode de jugement rapide |
|---|---|---|
| Résolution | ≥ 1024×1024 px | Vérifier les propriétés du fichier |
| Proportion du visage | Le visage occupe plus d'un tiers de l'image | À l'œil nu ; les images trop petites donnent de mauvais résultats |
| Uniformité de l'éclairage | Pas de lumière latérale forte, les deux yeux sont clairement visibles | Vérifier si un côté du visage est trop sombre |
| Angle | Face ou profil à 45° maximum | L'effet diminue considérablement au-delà de 60° de profil |
| Obstruction | Pas de cheveux, lunettes ou chapeaux masquant les zones clés du visage | Confirmer que les yeux, le nez et la bouche sont visibles |
| Expression | Naturelle, neutre ou sourire | Éviter les expressions exagérées (rire montrant les gencives, froncement de sourcils, etc.) |
| Arrière-plan | Simple, contraste marqué avec le visage | Un fond uni est idéal |
| Netteté | Détails du visage (cils, sourcils) bien définis | Vérifier en zoomant à 200 % |
Barème de notation :
- 8 points validés → Excellente qualité, cohérence du visage maximisée.
- 5 à 7 points validés → Utilisable, mais il peut y avoir une certaine dérive dans le résultat.
- Moins de 5 points → Il est conseillé de changer d'image de référence, sinon même la meilleure invite aura un impact limité.
💡 Conseil pratique : Avant de lancer une production en série, je vous suggère de générer 3 à 5 images de test avec une seule image de référence. Évaluez manuellement si la cohérence répond à vos besoins métier avant de passer à l'échelle. Via la phase de test sur APIYI apiyi.com, le coût total n'est que de 0,15 $ à 0,25 $, ce qui représente un risque très faible.
Comparaison comparative de la cohérence du visage entre les outils d'IA
| Outil | Cohérence du visage | Réalisme | Difficulté de personnalisation | Scénarios adaptés |
|---|---|---|---|---|
| Nano Banana Pro | ★★★☆☆ (Assistance par image) | ★★★★★ | Faible (support natif) | E-commerce/Mode, dérive mineure acceptable |
| Midjourney V7 | ★★☆☆☆ | ★★★★☆ | Moyenne (nécessite des astuces) | Création artistique, pas adapté à une cohérence stricte |
| Flux (Dev/Pro) | ★★★★☆ | ★★★★★ | Moyenne | Portraits réalistes, besoins de haute cohérence |
| Stable Diffusion + LoRA | ★★★★★ | ★★★☆☆ | Élevée (nécessite un entraînement) | Cohérence extrême, personnages spécifiques fixes |
| InstantID / IP-Adapter | ★★★★★ | ★★★★☆ | Élevée (nécessite un déploiement) | Verrouillage facial professionnel, niveau vérification d'identité |
| DALL-E 3 | ★★★☆☆ | ★★★★☆ | Faible | Exécution précise des invites, cohérence moyenne |
💡 Conseil de sélection : Si votre scénario métier tolère une dérive faciale de 5 à 15 % (comme pour du changement de tenue de mannequins e-commerce), Nano Banana Pro combiné aux techniques de cet article est la solution la plus rentable. Si vous avez besoin d'une cohérence absolue (le même personnage identique sur 100 images), je vous recommande d'utiliser des outils spécialisés comme Stable Diffusion + LoRA ou InstantID, que vous pouvez tester et alterner facilement via l'interface multi-modèles d'APIYI apiyi.com.
Workflow complet pour les mannequins d'e-commerce
La particularité du secteur de l'e-commerce est la nécessité de maintenir la cohérence d'un même mannequin à travers plusieurs tenues × plusieurs décors, tout en générant des images rapidement et en masse.
Workflow recommandé
Phase 1 : Établir une bibliothèque de références (travail ponctuel)
1. Préparer 3 à 5 photos de référence de haute qualité du mannequin
- Face, expression neutre, 1024×1024 minimum
- Profil à 45° (gauche et droite)
- Profil 3/4 (le plus utilisé pour l'exposition de vêtements)
2. Nommer les fichiers de manière uniforme et les stocker dans un dossier fixe
3. Utiliser systématiquement le même groupe de références pour chaque appel API
Phase 2 : Génération du modèle (version finale initiale)
1. Télécharger 2 images de référence (face + profil 3/4)
2. Utiliser l'invite de conservation complète + la description du vêtement cible
3. Générer 5 à 10 variantes
4. Sélectionner manuellement les 1 ou 2 images les plus proches du standard
5. Utiliser ces images validées comme "références de base" pour les cycles suivants
Phase 3 : Changement de tenue en masse (mise à l'échelle)
# Génération en masse basée sur la référence validée, $0.05 par image via APIYI
outfits = ["Qipao rouge", "Costume blanc", "Jean décontracté", "Robe de soirée"]
for outfit in outfits:
generate_with_face_ref(
reference_image_path="approved_ref.png", # Référence validée
outfit=outfit,
...
)
Phase 4 : Contrôle qualité et sélection
Vérifiez les points suivants après chaque lot :
□ La forme du visage est-elle proche de la référence ? (Focus sur les pommettes et la mâchoire)
□ Les yeux sont-ils expressifs ? Les reflets sont-ils naturels ?
□ La texture de la peau est-elle réaliste ? (Pas d'effet "cire")
□ Les mains sont-elles normales ? (5 doigts, pose naturelle)
□ Pour les échecs, effectuez une retouche image-à-image (img2img) séparée
🎯 Estimation des coûts : Pour 100 photos de mannequins e-commerce (incluant 20 % de rejets à refaire), le coût total via APIYI (apiyi.com) est d'environ 6 $, contre 28,8 $ sur le site officiel, soit une économie de 79 %.

Contrôle des coûts d'API pour les itérations par lots
Dans la production d'images de mannequins, l'itération est inévitable. Voici une comparaison des coûts estimés selon différentes échelles :
| Échelle de production | Nombre total d'appels (itérations incluses) | Coût APIYI | Coût officiel Google | Économies |
|---|---|---|---|---|
| Test à petite échelle (10 images) | ~30 fois | 1,50 $ | 7,20 $ | 5,70 $ |
| Projet de taille moyenne (50 images) | ~150 fois | 7,50 $ | 36,00 $ | 28,50 $ |
| E-commerce à grande échelle (200 images) | ~600 fois | 30,00 $ | 144,00 $ | 114,00 $ |
| Maintenance mensuelle (itérations continues) | ~2000 fois | 100,00 $ | 480,00 $ | 380,00 $ |
Astuces pour contrôler les coûts :
- Testez d'abord en résolution 2K : Confirmez que les proportions du visage vous conviennent avant de passer en 4K pour économiser sur les coûts d'itération (chez APIYI, le prix est de 0,05 $ que ce soit en 1K, 2K ou 4K).
- Appels concurrents par lots : Utilisez
asynciopour lancer 5 à 10 requêtes simultanément afin de réduire le temps de production globale. - Mise en cache locale du traitement de l'image de référence : Évitez de relire et d'encoder l'image de référence à chaque fois.
import asyncio
import google.generativeai as genai
import base64
genai.configure(
api_key="YOUR_APIYI_KEY",
client_options={"api_endpoint": "vip.apiyi.com"} # APIYI, 0,05 $/appel
)
model = genai.GenerativeModel("gemini-3-pro-image-preview")
# Encodage préalable de l'image de référence (évite les E/S répétées)
with open("model_ref/front_neutral.jpg", "rb") as f:
REF_IMAGE_DATA = base64.b64encode(f.read()).decode()
async def generate_one(prompt: str, output_path: str) -> bool:
"""Génération asynchrone unique"""
try:
loop = asyncio.get_event_loop()
response = await loop.run_in_executor(
None,
lambda: model.generate_content(
[
{"inline_data": {"mime_type": "image/jpeg", "data": REF_IMAGE_DATA}},
prompt
],
generation_config=genai.GenerationConfig(
response_modalities=["IMAGE"],
resolution="4K",
aspect_ratio="2:3"
)
)
)
for part in response.candidates[0].content.parts:
if part.inline_data and part.inline_data.mime_type.startswith("image/"):
with open(output_path, "wb") as f:
f.write(base64.b64decode(part.inline_data.data))
return True
except Exception as e:
print(f" Erreur : {e}")
return False
async def batch_generate(tasks: list) -> None:
"""Génération par lots concurrents, limite de 5 requêtes simultanées"""
sem = asyncio.Semaphore(5)
async def with_sem(t):
async with sem:
ok = await generate_one(t["prompt"], t["output"])
print(f"{'✓' if ok else '✗'} {t['output']}")
await asyncio.gather(*[with_sem(t) for t in tasks])
# Exemple d'utilisation
tasks = [
{"prompt": "Model in red dress, white background... [Conserver l'invite complète]", "output": f"out_{i:03d}.png"}
for i in range(20)
]
asyncio.run(batch_generate(tasks))
# Génération concurrente de 20 images, coût total APIYI : 1,00 $
💰 Résumé des coûts : En passant par l'accès APIYI apiyi.com, même avec de nombreuses itérations, vous pouvez maintenir le coût d'une série de photos de mannequin en dessous de 1 $, ce qui est bien inférieur au coût d'un photographe professionnel ou d'un abonnement à des outils d'IA spécialisés.
Questions Fréquentes
Q1 : Mon invite est déjà très détaillée, pourquoi le visage est-il encore déformé ?
L'invite n'est qu'une partie de la solution. L'absence d'image de référence est la cause principale. Sans image de référence, Nano Banana Pro "invente" un visage à chaque fois, et les traits faciaux sont totalement aléatoires. Ce n'est pas un problème d'invite.
Étapes de résolution :
- Préparez 1 à 2 images de référence de haute qualité (face, 1024px+, éclairage uniforme).
- Utilisez l'interface "image-to-image" pour envoyer simultanément l'image de référence et l'invite.
- Ajoutez explicitement dans l'invite : "Preserve exact facial structure from reference image".
Via l'interface image-to-image d'APIYI apiyi.com, la méthode d'envoi de l'image de référence et l'appel sont identiques au code présenté dans cet article.
Q2 : J’utilise une image de référence mais le visage semble trop « bouffi », quelles invites négatives spécifiques puis-je utiliser ?
Le problème du "visage large" survient généralement lorsque le modèle accentue trop la zone des joues lors du rendu. Voici une combinaison d'invites négatives ciblées :
À ajouter à la fin de l'invite (pour décrire les effets à éviter) :
Avoid generating: fat face, round puffy cheeks, bloated facial features,
chubby chin, double chin, wide jaw, swollen face appearance.
Maintain: slim face shape, defined angular jawline, high cheekbones,
natural facial bone structure matching reference image.
Vérifiez également votre image de référence : si elle est prise en contre-plongée (du bas vers le haut), le modèle aura tendance à élargir la zone de la mâchoire. Une image de référence prise à hauteur d'yeux donnera de meilleurs résultats.
Q3 : Entre Nano Banana Pro et Stable Diffusion, lequel est le plus adapté pour la production de mannequins par lots ?
Les deux répondent à des besoins différents :
| Dimension | Nano Banana Pro + APIYI | Stable Diffusion + LoRA |
|---|---|---|
| Cohérence du visage | Assistée par image de référence, légères variations possibles | Très élevée, presque totalement verrouillée |
| Facilité de prise en main | Très simple, appel API direct | Élevée, nécessite l'entraînement d'un modèle LoRA |
| Coût par image | 0,05 $ (APIYI) | Nécessite son propre GPU ou une plateforme payante |
| Qualité d'image | 4K native, qualité premium | Dépend du modèle de base et de la qualité du LoRA |
| Vitesse par lots | Cloud, disponible immédiatement | Limitée par la puissance du GPU local |
| Scénarios adaptés | Itérations rapides, exigences de cohérence moyennes | Personnages fixes, exigences de cohérence extrêmes |
Conclusion : Choisissez Nano Banana Pro + APIYI apiyi.com pour un démarrage rapide et des besoins de cohérence modérés. Optez pour Stable Diffusion + LoRA si vos personnages sont fixes et que la cohérence doit être absolue.
Résumé
Points clés concernant la cohérence des visages avec Nano Banana Pro :
- Reconnaître les limites : Nano Banana Pro ne peut pas garantir une cohérence faciale à 100 % entre les différentes générations. C'est une limitation structurelle de l'architecture et non un problème lié à vos invites.
- Priorité à l'image de référence : L'utilisation d'images de référence de haute qualité (1024px+, éclairage uniforme, angles multiples) est le moyen le plus efficace d'améliorer les résultats, bien plus que les invites elles-mêmes.
- Renforcement par les invites : Intégrez des instructions de préservation explicites (
Preserve facial structure) et des descriptions négatives (Avoid fat face, plastic skin). - Itérations multiples : Procédez du global vers le local. Utilisez le meilleur résultat de la session précédente comme image de référence pour la suivante afin de converger progressivement vers le résultat souhaité.
Il n'existe pas encore de solution parfaite, mais le combo image de référence + invite + itérations multiples permet de faire passer la cohérence d'un niveau "inacceptable" à un niveau "prêt pour un usage commercial". Nous vous recommandons de passer par APIYI (apiyi.com) à 0,05 $/appel pour permettre des itérations fréquentes à moindre coût et trouver ainsi la combinaison d'invites optimale.
Ressources complémentaires
-
Guide complet sur la cohérence des personnages avec Nano Banana Pro
- Lien :
wavespeed.ai/blog/posts/google-nano-banana-pro-complete-guide-2026 - Description : Inclut les limites du nombre d'images de référence et des explications détaillées sur la fonction Face Lock.
- Lien :
-
Réparer les problèmes de visages flous ou déformés sur Nano Banana Pro
- Lien :
skywork.ai/blog/how-to-fix-nano-banana-faces-softness-hands-eyes-guide-2025 - Description : Bibliothèque d'invites négatives et cas pratiques de réparation par itérations.
- Lien :
-
Génération d'images de mode e-commerce avec Nano Banana Pro
- Lien :
glbgpt.com/hub/how-to-create-ai-generated-fashion-images-for-ecommerce-using-nano-banana-pro - Description : Workflow complet pour la production en série de mannequins pour l'e-commerce.
- Lien :
-
Documentation d'accès à la plateforme APIYI
- Lien :
docs.apiyi.com - Description : Méthode d'accès au format natif Gemini et instructions d'utilisation de l'interface Image-to-Image.
- Lien :
Auteur : Équipe technique
Échanges techniques : N'hésitez pas à partager votre expérience sur l'ajustement de la cohérence faciale dans les commentaires. Pour plus d'astuces sur la génération d'images par IA, visitez la communauté technique d'APIYI (apiyi.com).
