|

Behebung des Problems der Rückgabe des Originalbildes bei Nano Banana Pro: Diagnose von 5 Hauptursachen + 8 praktische Reparaturlösungen

Wenn Sie die Nano Banana Pro API für Haus-Renderings, Produkt-Platzierungen oder E-Commerce-Szenen nutzen, sind Sie vielleicht schon auf ein verwirrendes Phänomen gestoßen: Sie laden zwei Referenzbilder hoch, formulieren die Eingabeaufforderung präzise, aber das Ergebnis sieht aus wie eine exakte Kopie eines der Referenzbilder – eine Bearbeitung gemäß Ihren Anweisungen findet nicht statt. Seit der Veröffentlichung von Gemini 3.1 Flash Image im Februar 2026 tritt dieses Verhalten gehäuft auf, und Diskussionen im Google AI Developers Forum bestätigen eine „hohe Instabilität“ der Pro-Modelle bei Szenarien mit mehreren Referenzbildern.

Dieser Artikel analysiert den Modellaufruf-Mechanismus anhand eines realen Beispiels („Architektur-Drahtgittermodell + fertiges Rendering“) und erläutert die 5 Hauptursachen für das „Zurückgeben des Originalbildes“ bei Nano Banana Pro sowie 8 direkt umsetzbare Lösungen. Alle Beispiele basieren auf der Plattform APIYI (apiyi.com), die den Gemini 3 Pro Image-Modellreihen eine verbesserte Stabilität verleiht und sich ideal für Tests mit den hier vorgeschlagenen Korrektur-Eingabeaufforderungen eignet.

1. Typische Symptome des Problems: Nano Banana Pro gibt das Originalbild zurück

Betrachten wir einen realen Fall: Ein Nutzer möchte ein Haus-Rendering erstellen und lädt zwei Referenzbilder hoch – Bild 1 ist ein unfertiges Drahtgittermodell (Betonrohbau, 4,9 MB), Bild 2 ist das fertige Rendering (Glasfassade, Begrünung, Abendlicht, 13,8 MB). Die Eingabeaufforderung lautet: „Rendere Bild 1 basierend auf Bild 2. Farbgebung: kühle, hochwertige Töne… Stil: typisch kommerzieller, realistischer Architektur-Stil…“. Das Ziel ist es, den Stil und die Materialien von Bild 2 auf die Struktur von Bild 1 zu übertragen. Das Ergebnis: Das Modell liefert ein Bild, das fast identisch mit Bild 2 ist; die Strukturinformationen aus Bild 1 fehlen fast vollständig.

Dies ist kein Einzelfall. Im Google AI Developers Forum berichten Entwickler, dass „das Modell die Referenzbilder so aggressiv herunterrechnet, dass Details nicht mehr erkannt werden“, und weisen darauf hin, dass sich das Problem seit der Veröffentlichung von Gemini 3.1 Flash Image verschärft hat. Auch Fehlerbehebungsdokumentationen von Drittanbietern wie Replicate, Atlas Cloud oder AI Free API verzeichnen ähnliche Fälle, bei denen das Modell einfach das Referenzbild „durchreicht“.

1.1 Häufigkeit und Auswirkungen

Die folgende Tabelle zeigt die relative Wahrscheinlichkeit des Phänomens, dass Nano Banana Pro das Bild nicht bearbeitet, basierend auf Community-Feedback und Stichproben.

Anwendungsszenario Auftretenswahrscheinlichkeit Ausmaß
Bearbeitung mit einem Referenzbild Niedrig Nur geringe Detailabweichungen
Zwei Referenzbilder (Stiltransfer) Mittel bis Hoch Ausgabe ähnelt einem der Originale
Mehrere Bilder (3+) Hoch Modell bevorzugt das letzte Bild
Spitzenzeiten (USA/EU) Deutlich erhöht Qualität der Details sinkt
Sensible Szenen (Personen/Marken) Gelegentlich Bearbeitung verweigert oder Rückfall

🎯 Diagnose-Empfehlung: Wenn Sie im E-Commerce-, Architektur- oder Produktbereich mit mehreren Referenzbildern arbeiten und die „Rückgabe des Originalbildes“ in über 10 % der Fälle auftritt, liegt dies meist an einer Kombination aus Eingabeaufforderung, Parametern und Infrastruktur. Wir empfehlen, über die einheitliche Schnittstelle von APIYI (apiyi.com) die Unterschiede zwischen Nano Banana Pro und Nano Banana 2 bei identischer Eingabeaufforderung zu vergleichen, um schnell festzustellen, ob das Problem auf Modell- oder Prompt-Ebene liegt.

2. Die 5 technischen Gründe für die Rückgabe des Originalbildes bei Nano Banana Pro

nano-banana-pro-returns-original-image-troubleshooting-de 图示

2.1 Grund 1: Unklare Referenzen in der Eingabeaufforderung führen zur Duplizierung von "Bild 2"

Der häufigste Grund, warum Nano Banana Pro das Originalbild zurückgibt, liegt darin, dass Referenzen wie "siehe Bild 2" in der Eingabeaufforderung vom Modell als "Erstelle eine Kopie von Bild 2" interpretiert werden. Die offiziellen Richtlinien von Google DeepMind für Eingabeaufforderungen empfehlen bei der Verwendung mehrerer Bilder explizit semantische Bezeichnungen (z. B. "das Drahtgittermodell", "das gerenderte Gebäude") anstelle von rein positionsbezogenen Bezeichnungen wie "Bild 2".

Die Anweisung "Rendere Bild 1 unter Bezugnahme auf Bild 2" wird englischsprachig oft als "render image 1 in the style of image 2" interpretiert. Das Modell priorisiert beim Dekodieren jedoch das visuelle Signal mit der höchsten Vollständigkeit – also Bild 2, das bereits als fertiges Rendering vorliegt. Wenn die Eingabeaufforderung zudem detaillierte Beschreibungen zu Farbtönen oder Materialien von Bild 2 enthält, betrachtet das Modell Bild 2 leicht als "Zielausgabe" statt als bloße Stilvorlage.

2.2 Grund 2: Fehlende Bearbeitungsverben führen zur "Rekonstruktion"

Der Kernmechanismus von Gemini 2.5 und Gemini 3 Pro Image basiert auf einer bildbasierten Transformation durch natürliches Sprachverständnis. Fehlen in der Eingabeaufforderung klare Bearbeitungsverben (wie transform, render, apply, replace, composite etc.), neigt das Modell bei mehreren Eingabebildern dazu, den Pfad der "Rekonstruktion" zu wählen. Es erstellt also basierend auf dem stärksten Signal ein ähnliches Bild, anstatt eine echte "Bearbeitung" vorzunehmen.

Offizielle Vorlagen von DataCamp und dem Google Developers Blog empfehlen: Take the [element from image 1] and place it with/on the [element from image 2] oder Using the provided image of [subject], please [add/remove/modify] [element]. Diese Vorlagen verwenden klare Verben, um festzulegen, welches Bild das zu bearbeitende Objekt ist und welches als Stilreferenz dient – ein Aspekt, der bei Eingabeaufforderungen oft vernachlässigt wird.

2.3 Grund 3: Konflikt beim Seitenverhältnis, das letzte Bild dominiert

Die Nano Banana-Serie folgt einer wenig beachteten Regel: Bei der Eingabe mehrerer Bilder übernimmt das Modell standardmäßig das Seitenverhältnis des letzten Referenzbildes. Diese Regel wird in DataCamp-Tutorials und im Google Developers Blog erwähnt, in der Praxis jedoch oft übersehen.

Im Nutzerbeispiel ist Bild 2 (das fertige Rendering) ein 16:9-Format, während Bild 1 (das Drahtgittermodell) eher 4:3 entspricht und kleiner ist. Wenn das Modell das Seitenverhältnis von Bild 2 übernimmt, lässt sich die Komposition von Bild 2 geometrisch leichter auf die Leinwand übertragen, anstatt auf Basis von Bild 1 neu zu generieren. Dies verstärkt oft den Effekt aus Grund 1 und führt dazu, dass "Bild 2 direkt ausgegeben wird".

2.4 Grund 4: Infrastruktur-Downgrades und stille Rückgriffe zu Spitzenzeiten

Seit Februar 2026 hat Google Nano Banana 2 in der Gemini-App als Standardeingang festgelegt, während das Pro-Modell in das Menü "Drei Punkte → Regenerate" verschoben wurde. Parallel dazu kam es auf API-Ebene zu stillen Rückgriffen (Fallbacks) während der Spitzenzeiten. Beiträge im Google AI Developers Forum vom 18. Mai (dem Tag vor der Google I/O) wiesen direkt darauf hin, dass die "Qualität der Bilderzeugung rund um große Veröffentlichungen sofort sinkt".

Dies äußert sich so: Das Modell gibt zwar weiterhin einen 200-Statuscode zurück, wechselt aber intern möglicherweise auf ein kleineres Teilmodell oder überspringt Teile der Nachbearbeitung, was zu Detailverlusten und einer geringeren Einhaltung der Eingabeaufforderung führt. In solchen Fällen steigt die Wahrscheinlichkeit, dass der Nano Banana Pro Bild-zu-Bild-Prozess fehlschlägt, selbst bei standardkonformen Eingabeaufforderungen – oft mit dem Ergebnis, dass das Originalbild zurückgegeben wird.

2.5 Grund 5: Zu große Referenzbilder lösen aggressives Downsampling aus

Derselbe Beitrag im Google AI Developers Forum weist darauf hin: "Das Modell führt ein zu aggressives Downsampling der Referenzbilder durch, sodass Details nicht mehr erkannt oder reproduziert werden können." Wenn ein Referenzbild eine Größe von etwa 13 MB erreicht oder überschreitet, führt das Modell in der internen Vorverarbeitung möglicherweise eine starke Skalierung durch, wodurch wichtige strukturelle Informationen (wie Gebäudeträger, Produktetiketten oder Gesichtsausdrücke) bis zur Unkenntlichkeit komprimiert werden.

Wenn die Details von Bild 1 nach dem Downsampling kaum noch erkennbar sind, verlässt sich das Modell bei der Synthese natürlich auf das andere, "klarere" Referenzbild, was zu einer Kopie von Bild 2 führt. Dies erklärt, warum dieselbe Eingabeaufforderung bei unterschiedlichen Auflösungen des Referenzbildes so unterschiedliche Erfolgsraten aufweist – viele Entwickler halten es für ein Problem der Eingabeaufforderung, dabei ist das Referenzbild schlichtweg "nicht scharf genug".

III. 8 praktische Korrekturmaßnahmen: Damit Nano Banana Pro wirklich „bildbasiert bearbeitet“

nano-banana-pro-returns-original-image-troubleshooting-de 图示

Der Kernansatz, um zu verhindern, dass Nano Banana Pro das Originalbild zurückgibt, besteht darin, sich nicht darauf zu verlassen, dass das Modell Ihre Absicht errät. Stattdessen sollten Sie klar definieren, „welches Bild die Basis ist, welches als Referenz dient und welche Transformation durchgeführt werden soll“, und dies durch entsprechende Aufrufparameter absichern. Im Folgenden finden Sie 8 direkt umsetzbare Korrekturpunkte, unterteilt in Eingabeaufforderung (Prompt) und Parameter.

3.1 5 Korrekturpunkte für die Eingabeaufforderung

Nr. Korrekturpunkt Falsche Schreibweise Empfohlene Schreibweise
1 Bearbeitungsverb hinzufügen "Rendere Bild 1 basierend auf Bild 2" "Transform image 1 using image 2 as reference"
2 Semantische Benennung statt Nummern "Bild 1, Bild 2" "the wireframe / the finished rendering"
3 Rollenverteilung klären (keine Angabe) "use the first as structure base, the second as style reference"
4 Ziel positiv beschreiben "Nicht wie Bild 2 werden" "preserve the original building outline from the first image"
5 Spezifische Materialanforderungen "Kühle Töne verwenden" "apply the cool-toned glass facade and warm interior glow from image 2 onto the structure from image 1"

💡 Prompt-Vorlage: Für Aufgaben mit zwei Bildern wie „Struktur + Stil“ bei Gebäuderenderings empfiehlt sich folgende Vorlagenstruktur: [Aktionsverb] + [Strukturreferenz aus Bild A] + [Stil-/Materialreferenz aus Bild B] + [explizite Einschränkungen]. Auf der Plattform APIYI (apiyi.com) können Sie diese Vorlage als systemseitige Eingabeaufforderung speichern, um Nano Banana Pro und Nano Banana 2 einheitlich per A/B-Test zu vergleichen – bei minimalem Iterationsaufwand.

3.2 3 Korrekturpunkte für die Aufrufparameter

Nr. Korrekturpunkt Erläuterung
6 Upload-Reihenfolge steuern Das „zu bearbeitende Objekt“ zuletzt hochladen, damit das Modell dessen Seitenverhältnis übernimmt
7 Referenzbildgröße begrenzen Einzelbilder auf 2-5 MB komprimieren, um aggressives Downsampling zu vermeiden
8 Explizite Angabe von image_size Z. B. 1024×1024 oder 1536×1024, um Konflikte beim Seitenverhältnis zu reduzieren

Ergänzend sei angemerkt, dass es bei Gemini 3 Pro Image in einigen Versionen Berichte gibt, dass der Parameter image_size ignoriert wird (siehe Google AI Developers Forum, Fall 110458). Daher sollten Korrekturpunkt 6 und 8 in der Regel kombiniert werden, um sicherzustellen, dass das endgültige Seitenverhältnis den Erwartungen entspricht. Wenn nur image_size festgelegt, aber die Upload-Reihenfolge nicht angepasst wurde, kann das Seitenverhältnis in einigen Versionen dennoch durch das zuletzt hochgeladene Bild überschrieben werden.

IV. Vollständiges Beispiel für den Bild-zu-Bild-API-Aufruf von Nano Banana Pro

4.1 Fehlerhaftes Beispiel: Schreibweise, die häufig dazu führt, dass Nano Banana Pro das Originalbild zurückgibt

Der folgende Aufruf reproduziert das Scheitern in einem Nutzerszenario: unklare Referenzierung in der Eingabeaufforderung, fehlende Bearbeitungs-Verben, fehlende Kontrolle über das Seitenverhältnis und unkomprimierte Referenzbilder.

import openai

client = openai.OpenAI(
    api_key="your-apiyi-key",
    base_url="https://api.apiyi.com/v1"
)

response = client.images.edit(
    model="gemini-3-pro-image-preview",
    image=[
        open("wireframe.jpg", "rb"),    # 4.9 MB
        open("rendered.jpg", "rb"),     # 13.8 MB, als letztes hochgeladen
    ],
    prompt="参照图2渲染图1。色彩: 采用清冷的高级色调。",
    size="auto",
    n=1,
)

Bei dieser Schreibweise interpretiert das Modell in Szenarien mit mehreren Bildern rendered.jpg mit hoher Wahrscheinlichkeit als primäres Signal und gibt eine Kopie aus, die dem Originalbild 2 nahekommt. Die drei Hauptrisiken sind: Die chinesische Anweisung "参照图2" (Referenz auf Bild 2) wird als Zielausgabe missverstanden, es fehlen Transformations-Verben und bei size="auto" wird das Seitenverhältnis vom größten Bild dominiert.

4.2 Korrigiertes Beispiel: Nano Banana Pro zur korrekten Bildbearbeitung bewegen

import openai

client = openai.OpenAI(
    api_key="your-apiyi-key",
    base_url="https://api.apiyi.com/v1"
)

prompt = (
    "Transform the unfinished concrete wireframe structure in the first image "
    "into a fully rendered architectural visualization. "
    "Use the second image STRICTLY as a STYLE and MATERIAL reference: "
    "apply its cool-toned glass facade, warm interior glow, surrounding greenery "
    "and dusk lighting onto the structure from the first image. "
    "Preserve the building outline, floor count and balcony arrangement "
    "exactly as shown in the first image. "
    "Do NOT replace the geometry with the second image."
)

response = client.images.edit(
    model="gemini-3-pro-image-preview",
    image=[
        open("rendered_compressed.jpg", "rb"),   # Stil-Referenz, komprimiert auf ~3 MB
        open("wireframe_compressed.jpg", "rb"),  # Zu bearbeitendes Objekt steht an letzter Stelle
    ],
    prompt=prompt,
    size="1536x1024",
    n=1,
)

Hier gibt es vier entscheidende Änderungen: Klare Definition der Rollenverteilung auf Englisch ("transform A using B as reference"); Anpassung der Upload-Reihenfolge, damit das Wireframe (das zu bearbeitende Objekt) als "letztes Bild" das Seitenverhältnis bestimmt; explizite Angabe der size, um zu verhindern, dass der auto-Modus die hohe Auflösung des Referenzbildes übernimmt; Komprimierung beider Bilder auf unter 5 MB, um eine aggressive Herunterskalierung zu vermeiden.

🚀 Tipp für den schnellen Einstieg: Entwickler, die die Korrekturen validieren möchten, können direkt auf APIYI (apiyi.com) Nano Banana Pro und Nano Banana 2 mit derselben Eingabeaufforderung aufrufen. Die Plattform bietet eine einheitliche, OpenAI-kompatible Schnittstelle, sodass kein modell-spezifischer Code erforderlich ist und A/B-Vergleichsergebnisse in 5 Minuten vorliegen.

V. Häufige Fragen (FAQ) zur Bild-zu-Bild-Funktion von Nano Banana Pro

Q1: Warum gibt das Modell bei einer chinesischen Eingabeaufforderung das Originalbild zurück, bei einer englischen aber nicht?

Die Gemini-Serie ist bei der semantischen Analyse von Englisch stabiler. Chinesische Verben und Referenznummern ("参照图X") werden bei der Tokenisierung leicht als "Zielausgabe-Anweisung" missverstanden. Es wird empfohlen, wichtige Bearbeitungsbefehle (transform / preserve / apply) auf Englisch zu verfassen und Szenenbeschreibungen gemischt zu verwenden. So bleibt die Ausdrucksstärke erhalten, während Fehlinterpretationen vermieden werden.

Q2: Reicht es aus, alle Referenzbilder auf unter 2 MB zu verkleinern?

Die reine Komprimierung lindert nur das Problem der Herunterskalierung (Punkt 5), löst aber nicht den Konflikt zwischen Eingabeaufforderung und Seitenverhältnis. Empfohlen wird eine dreistufige Anpassung: Komprimierung + Neuschreiben der Eingabeaufforderung + Kontrolle der Upload-Reihenfolge. Bei hohem Volumen empfiehlt sich eine Vorverarbeitung, bei der Bilder in JPG konvertiert und auf 2-5 MB komprimiert werden.

Q3: Welches Modell eignet sich besser für die Bearbeitung mehrerer Bilder: Nano Banana Pro oder Nano Banana 2?

Modell Stabilität bei mehreren Bildern Detailerhalt Geeignete Szenarien
Nano Banana Pro (Gemini 3 Pro Image) Mittel (schwankend) Hoch Hochwertige Einzelbildbearbeitung, Markenbilder
Nano Banana 2 (Gemini 3.1 Flash Image) Höher Mittel (leicht plastisch) Batch-Verarbeitung, E-Commerce-Bilder

In der Praxis: Bei extrem hohen Detailanforderungen (Architektur-Rendering, High-Fidelity-Produktbilder) kann man mit Nano Banana 2 ein stabiles Ergebnis erzielen und dieses mit Nano Banana Pro verfeinern. Dieser "Entwurf + Feinschliff"-Ansatz kombiniert Stabilität mit Qualität.

Q4: Lässt sich das Problem der "Originalbild-Ausgabe" durch wiederholte Versuche lösen?

Bei kurzzeitigen Infrastruktur-Engpässen helfen 1-3 Wiederholungen. Wenn jedoch die Eingabeaufforderung oder die Parameter fehlerhaft sind, führen auch 100 Versuche zum gleichen Ergebnis. Die Diagnose ist einfach: Treten bei identischen Parametern zu verschiedenen Zeiten Fehler auf, liegt es an der Eingabeaufforderung. Normalisiert sich das Verhalten nach Stoßzeiten, war es nur eine temporäre Überlastung.

Q5: Ist diese Korrekturstrategie auch auf andere Modelle (Flux Kontext, Seedream) übertragbar?

Die Anpassungen an der Eingabeaufforderung (semantische Benennung, Bearbeitungs-Verben, Rollenverteilung, positive Beschreibung) gelten für alle gängigen Bild-zu-Bild-Modelle. Die Regel "letztes Bild bestimmt das Seitenverhältnis" ist jedoch spezifisch für die Nano Banana-Serie. Flux und Seedream haben eigene Mechanismen für die Gewichtung von Referenzbildern. Bei plattformübergreifenden Projekten ermöglicht die einheitliche Schnittstelle von APIYI (apiyi.com), eine einzige Vorlage für die Eingabeaufforderung zu pflegen und diese über Parameter an verschiedene Modelle anzupassen.

Zusammenfassung

Dass Nano Banana Pro das Originalbild zurückgibt, ist im Wesentlichen das Ergebnis einer Kombination aus „Multimodal-Input + vager Eingabeaufforderung + Infrastrukturschwankungen“ im Standardverhalten des Modells und kein reiner Fehler. Wenn man die Präferenz des Modells für das „letzte Bild“, die Abhängigkeit von Bearbeitungsoperatoren und die Downsampling-Strategie für Referenzbilder versteht, lassen sich 90 % der Fehlerszenarien mit 80 % Anpassung der Eingabeaufforderung beheben.

Für Teams, die in Bereichen wie Immobilien-Rendering, Produktfotografie oder E-Commerce-Bildgenerierung tätig sind, empfehlen wir, die oben genannten 8 Lösungsansätze als Vorlagen für Eingabeaufforderungen und Aufrufstandards zu etablieren und diese in der Produktionsumgebung je nach Geschäftstyp zu fixieren. Langfristig senkt dies die Kosten für erneute Durchläufe sowie die manuelle Nachbearbeitungsrate erheblich und ermöglicht es, das hochwertige Output-Potenzial von Nano Banana Pro effektiv für geschäftliche Anforderungen zu nutzen.


Dieser Artikel wurde vom APIYI-Team zusammengestellt, das sich auf die praktische Implementierung von APIs für große Sprachmodelle konzentriert. Für die neuesten Aufrufbeispiele und Stabilitätsdaten zu Nano Banana Pro besuchen Sie die offizielle APIYI-Website unter apiyi.com.

Ähnliche Beiträge