Anmerkung des Autors: Eine tiefgehende Analyse der 14 Referenzbild-Funktionen von Gemini 3.1 Flash Image Preview und Gemini 3 Pro Image Preview, um den korrekten Einsatz von Objekt-Fidelity und Charakterkonsistenz sowie Strategien zur Kontingentverteilung zu verstehen.
Die Gemini Bildmodelle unterstützen die gemischte Verwendung von bis zu 14 Referenzbildern für die Bilderzeugung. Viele Entwickler sind sich jedoch der Regeln für die Zuweisung dieses 14-Bilder-Kontingents nicht bewusst. Dieser Artikel wird die beiden Kernfunktionen Objekt-Fidelity (Object Fidelity) und Charakterkonsistenz (Character Consistency) detailliert erläutern, um Ihnen zu helfen, die Gemini Multi-Referenzbild-Funktion korrekt zu verstehen und effizient zu nutzen.
Kernwert: Nach dem Lesen dieses Artikels werden Sie die Logik der Kontingentverteilung für die 14 Referenzbilder, die Unterschiede zwischen den beiden Modellen sowie Best Practices für reale Projekte beherrschen.

Gemini 14 Referenzbild-Funktion: Kernpunkte
Google hat in den Gemini 3 Bildmodellen die Fähigkeit zur gemischten Verwendung mehrerer Referenzbilder eingeführt, die es Entwicklern ermöglicht, bis zu 14 Referenzbilder in einer einzigen Bilderzeugungsanfrage zu übergeben. Diese 14 Bilder sind nicht einfach eine „Obergrenze“, sondern präzise in zwei Funktionskategorien unterteilt, die jeweils unterschiedliche Aufgaben zur visuellen Beibehaltung erfüllen.
| Kernpunkt | Beschreibung | Wert |
|---|---|---|
| 14 Gesamt-Kontingent | Summe der Objekt-Fidelity-Bilder + Charakterkonsistenz-Bilder | Maximale visuelle Referenzkapazität pro Anfrage |
| Objekt-Fidelity (Object Fidelity) | Stellt sicher, dass bestimmte Gegenstände im generierten Bild hochgradig originalgetreu wiedergegeben werden | Produktbilder, Warenpräsentation, Markenmaterial |
| Charakterkonsistenz (Character Consistency) | Behält das Aussehen des Charakters in verschiedenen Szenarien bei | Fortlaufende Geschichten, Marken-IP, Charakter-Marketing |
| Unterschiedliches Kontingent für beide Modelle | Es gibt Unterschiede in der Zuweisungsquote für Flash und Pro | Wählen Sie das passende Modell je nach Bedarf |
Detaillierte Erklärung der beiden Funktionskategorien von Gemini Referenzbildern
Objekt-Fidelity (Object Fidelity) bedeutet, dass bestimmte Gegenstände aus den Referenzbildern mit hoher Originaltreue in das endgültig generierte Bild integriert werden. Wenn Sie beispielsweise ein Foto eines roten Sportschuhs hochladen, wird das Modell die visuellen Details dieses Schuhs – einschließlich Farbe, Form, Textur, Logo-Position usw. – im generierten Szenenbild präzise wiedergeben. Dies ist entscheidend für Szenarien wie E-Commerce-Produktbilder oder die Erstellung von Markenmaterialien.
Charakterkonsistenz (Character Consistency) konzentriert sich auf Personen oder Charaktere. Wenn Sie ein Referenzbild eines Charakters hochladen, kann das Modell neue Bilder dieses Charakters in verschiedenen Hintergründen, Posen und Lichtverhältnissen erzeugen, während gleichzeitig die Konsistenz der Gesichtsmerkmale, Frisur, Kleidung und anderer wichtiger visueller Elemente gewahrt bleibt. Dies ist äußerst nützlich in Szenarien wie Illustrationen für fortlaufende Geschichten, Marketing für Markenmaskottchen oder Charakterdesign für Spiele.
Das Verständnis des Unterschieds zwischen diesen beiden Kategorien ist die Voraussetzung für die korrekte Verwendung der 14 Referenzbilder. Sie schließen sich nicht gegenseitig aus, sondern können in derselben Anfrage gemischt verwendet werden, haben jedoch jeweils eigene Mengenobergrenzen.
Gemini Referenzbild-Modellkontingent-Vergleich
Obwohl Gemini 3.1 Flash Image Preview und Gemini 3 Pro Image Preview beide die Funktion mehrerer Referenzbilder unterstützen, gibt es erhebliche Unterschiede in der Kontingentverteilung.

| Fähigkeitsdimension | Gemini 3.1 Flash Image Preview | Gemini 3 Pro Image Preview |
|---|---|---|
| Gesamtes Referenzbild-Limit | 14 Bilder | 11 Bilder |
| Limit für Objekttreue-Bilder | Max. 10 Bilder | Max. 6 Bilder |
| Limit für Charakterkonsistenz-Bilder | Max. 4 Bilder | Max. 5 Bilder |
| Fokus Objekttreue | Stärker (10 Bilder) | Schwächer (6 Bilder) |
| Fokus Charakterkonsistenz | Schwächer (4 Bilder) | Stärker (5 Bilder) |
| Generierungsgeschwindigkeit | Schneller (Flash-Niveau) | Langsamer (Pro-Niveau) |
| Anwendbare Szenarien | Große Mengen Produktbilder, Szenen mit mehreren Objekten | Geschichten mit mehreren Charakteren, komplexe Charakterinteraktionen |
Wichtige Punkte zum Verständnis der Gemini Referenzbild-Kontingentverteilung
Ein entscheidender Punkt, den viele Entwickler leicht verwechseln, ist: 14 Referenzbilder bedeuten nicht, dass sie beliebig zugewiesen werden können. Am Beispiel von Gemini 3.1 Flash Image Preview:
- Sie können maximal 10 Objekttreue-Bilder + 4 Charakterkonsistenz-Bilder = 14 Bilder hochladen.
- Sie können aber nicht 14 Objekttreue-Bilder und 0 Charakterkonsistenz-Bilder hochladen (das Limit für Objekttreue beträgt 10 Bilder).
- Und Sie können auch nicht 0 Objekttreue-Bilder und 14 Charakterkonsistenz-Bilder hochladen (das Limit für Charakterkonsistenz beträgt 4 Bilder).
Mit anderen Worten: 14 ist der theoretische Maximalwert, der nur dann erreicht wird, wenn Sie beide Arten von Referenzbildern gleichzeitig verwenden und deren jeweilige Obergrenzen ausschöpfen.
Für Gemini 3 Pro Image Preview gilt dasselbe: maximal 6 + 5 = 11 Bilder, nicht 14. Das Gesamtlimit des Pro-Modells beträgt tatsächlich 11 Bilder.
Auswahl-Empfehlung: Wenn Ihr Szenario hauptsächlich Produktpräsentationen umfasst (viele Artikel als Referenz benötigen), empfiehlt sich Gemini 3.1 Flash Image Preview, da es mehr Kontingent für Objekttreue bietet. Wenn Ihr Szenario hauptsächlich Charaktergeschichten umfasst (mehrere Charaktere müssen konsistent bleiben), ist das Gemini 3 Pro Image Preview mit seinen 5 Charakterkontingenten vorteilhafter. Über APIYI apiyi.com können Sie beide Modelle gleichzeitig testen und die Ergebnisse schnell vergleichen.
Gemini: Schneller Einstieg in 14 Referenzbilder
Minimalbeispiel
Hier ist der grundlegende Code für die Generierung mit mehreren Referenzbildern unter Verwendung von Gemini 3.1 Flash Image Preview:
from google import genai
from google.genai import types
from PIL import Image
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
# Referenzbilder für Objekte laden (max. 10 Bilder)
shoe = Image.open("red-shoe.png")
bag = Image.open("leather-bag.png")
# Referenzbilder für Charaktere laden (max. 4 Bilder)
character = Image.open("brand-mascot.png")
prompt = "Create a product showcase scene featuring this red shoe and leather bag, with the brand mascot character standing next to them in a modern retail environment."
response = client.models.generate_content(
model="gemini-3.1-flash-image-preview",
contents=[prompt, shoe, bag, character],
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
),
)
Vollständigen Code zur Generierung mit mehreren Referenzbildern anzeigen
from google import genai
from google.genai import types
from PIL import Image
import base64
import os
# Client initialisieren
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
def generate_with_references(
prompt: str,
object_images: list = None,
character_images: list = None,
aspect_ratio: str = "16:9",
model: str = "gemini-3.1-flash-image-preview"
):
"""
Bilder mit mehreren Referenzbildern generieren
Args:
prompt: Die Eingabeaufforderung für die Generierung
object_images: Liste der Pfade zu Objekttreue-Bildern (Flash max. 10 Bilder)
character_images: Liste der Pfade zu Charakterkonsistenz-Bildern (Flash max. 4 Bilder)
aspect_ratio: Das Ausgabeformat
model: Der Modellname
"""
contents = [prompt]
# Objektreferenzbilder hinzufügen
if object_images:
for img_path in object_images:
contents.append(Image.open(img_path))
# Charakterreferenzbilder hinzufügen
if character_images:
for img_path in character_images:
contents.append(Image.open(img_path))
response = client.models.generate_content(
model=model,
contents=contents,
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
),
),
)
# Generiertes Bild extrahieren
for part in response.candidates[0].content.parts:
if part.inline_data and part.inline_data.mime_type.startswith("image/"):
image_data = base64.b64decode(part.inline_data.data)
with open("output.png", "wb") as f:
f.write(image_data)
print("Bild gespeichert: output.png")
# Anwendungsbeispiel: E-Commerce-Produktszenario
generate_with_references(
prompt="Professionelle Produktfotografie dieser Produkte auf einem minimalistischen weißen Messestand",
object_images=["shoe.png", "bag.png", "watch.png"],
character_images=["model-person.png"],
aspect_ratio="16:9"
)
Empfehlung: Über APIYI apiyi.com erhalten Sie einen API-Schlüssel, um Gemini Bildmodelle schnell zu testen. Die Plattform unterstützt die einheitliche API-Aufrufe für Gemini 3.1 Flash Image Preview und Gemini 3 Pro Image Preview.
Gemini Anwendungsszenarien für Referenzbilder und optimale Zuweisungsstrategien
Die Zuweisungsstrategie für 14 Referenzbilder variiert stark je nach Geschäftsszenario. Hier sind Empfehlungen für 5 typische Szenarien:
| Szenario | Empfohlenes Modell | Anzahl Objektbilder | Anzahl Charakterbilder | Gesamt-Referenzbilder | Beschreibung |
|---|---|---|---|---|---|
| E-Commerce-Produktsammlung | Flash | 8-10 | 0 | 8-10 | Mehrere Produkte in einem Bild |
| Markencharakter-Geschichten | Pro | 2-3 | 4-5 | 6-8 | Charaktere erleben Abenteuer in verschiedenen Szenen |
| Produkt + Testimonial | Flash | 5-6 | 2-3 | 7-9 | Charakter hält/präsentiert Produkt |
| Spielecharakter-Design | Pro | 3-4 | 4-5 | 7-9 | Interaktionsszenen mit mehreren Charakteren |
| Einrichtungsszenarien | Flash | 8-10 | 0 | 8-10 | Kombination aus mehreren Möbeln/Dekorationen |
Gemini Referenzbilder in E-Commerce-Produktszenarien
E-Commerce ist das direkteste Anwendungsszenario für die Multi-Referenzbild-Funktion. Auf herkömmliche Weise müssten Sie für jedes Produkt separate Szenenbilder aufnehmen, was kostspielig ist und eine einheitliche Stilgebung erschwert. Mit der Objekttreue-Fähigkeit von Gemini können Sie Weißhintergrundbilder mehrerer Produkte als Referenz verwenden, um auf einmal Szenenbilder in einem einheitlichen Stil zu generieren.
Wir empfehlen die Verwendung von Gemini 3.1 Flash Image Preview, da es bis zu 10 Objekttreue-Bilder unterstützt, was ausreicht, um eine Produktsammlung einer Kategorie abzudecken. Gleichzeitig ist die Generierungsgeschwindigkeit des Flash-Modells besser für die Anforderungen der Massenproduktion geeignet.
Gemini Referenzbilder in Charaktergeschichten-Szenarien
Wenn Sie eine Reihe von Story-Illustrationen für eine Marken-IP oder einen Spielecharakter generieren müssen, ist die Charakterkonsistenz die zentrale Anforderung. Gemini 3 Pro Image Preview unterstützt bis zu 5 Charakterkonsistenz-Bilder und kann gleichzeitig das konsistente Aussehen von 5 unabhängigen Charakteren beibehalten.
Es ist zu beachten, dass die Charakterkonsistenz derzeit nicht 100% perfekt ist. Die offizielle Google-Dokumentation weist auch darauf hin: "character consistency is not always perfect between input images and generated output images". In der Praxis wird empfohlen:
- Klare, frontale und gleichmäßig beleuchtete Charakter-Referenzbilder bereitstellen.
- Die Schlüsselmerkmale jedes Charakters in der Eingabeaufforderung klar beschreiben.
- Die generierten Ergebnisse manuell überprüfen und feinabstimmen.
Praxistipp: Es wird empfohlen, zunächst kleine Mengen über APIYI apiyi.com zu testen, um sicherzustellen, dass die Charakterkonsistenz den Anforderungen entspricht, bevor eine Massengenerierung durchgeführt wird. Die Plattform bietet kostenlose Testkontingente zur schnellen Validierung.

Gemini Referenzbilder: Technische Spezifikationen und Hinweise
Unterstützte Ausgabe-Seitenverhältnisse
Die Gemini-Bildmodelle unterstützen 14 Seitenverhältnisse, die nahezu alle gängigen Anwendungsfälle abdecken:
| Seitenverhältnis | Typische Verwendung | Geeignete Szenarien |
|---|---|---|
| 1:1 | Social-Media-Profilbilder, quadratische Produktbilder | Instagram, Produkt-Thumbnails |
| 16:9 | Querformat-Darstellung, Blog-Bilder | Web-Banner, Artikel-Header-Bilder |
| 9:16 | Hochformat-Darstellung, Handy-Hintergrundbilder | Xiaohongshu, Douyin-Cover |
| 4:3 | Traditionelles Anzeigeformat | PPT-Bilder, traditionelle Poster |
| 3:2 | Standard-Fotografie-Verhältnis | Produktfotografie, Landschaftsbilder |
| 21:9 | Ultrawide-Darstellung | Filmplakate, Website-Banner |
| 1:4 / 4:1 | Extreme Verhältnisse | Lange Bilder, Infografiken |
Wichtige Einschränkungen bei der Verwendung von Gemini Referenzbildern
Bei der tatsächlichen Entwicklung sind die folgenden Einschränkungen besonders zu beachten:
- Kontingente sind feste Obergrenzen: Das Überschreiten der maximalen Anzahl für Objekttreue oder Charakterkonsistenz führt zu einem API-Fehler.
- Bildqualität beeinflusst das Ergebnis: Unscharfe oder stark verdeckte Referenzbilder verringern die Wiedergabetreue.
- Charakterkonsistenz ist nicht 100%ig: Insbesondere bei extremen Haltungsänderungen oder großen Unterschieden in den Lichtverhältnissen.
- Eingabeaufforderung muss angepasst werden: Referenzbilder sind nur visuelle Eingaben; die Eingabeaufforderung muss den Bildinhalt und die gewünschten Effekte klar beschreiben.
- thoughtSignature-Mechanismus: Bei der dialogorientierten Bearbeitung verlässt sich das Modell auf die
thoughtSignatureder vorherigen Runde, um die Bildkomposition zu verstehen. Bei fortlaufender Bearbeitung muss diese Signatur beibehalten werden.
Entwicklungstipp: APIYI apiyi.com unterstützt die gesamte Gemini-Bildmodellreihe, einschließlich
gemini-3.1-flash-image-previewundgemini-3-pro-image-preview. Sie können diese über die OpenAI-kompatible Schnittstelle aufrufen, ohne zusätzliche Anpassungen vornehmen zu müssen.
Häufig gestellte Fragen
F1: Werden 14 Referenzbilder von beiden Modellen unterstützt?
Nicht ganz. 14 Bilder ist die Gesamtobergrenze für Gemini 3.1 Flash Image Preview (10 Objekte + 4 Charaktere). Die Gesamtobergrenze für Gemini 3 Pro Image Preview beträgt tatsächlich 11 Bilder (6 Objekte + 5 Charaktere). Bei der Modellauswahl müssen Sie Ihre spezifischen Kontingentanforderungen berücksichtigen.
F2: Kann ich nur Objekttreue-Bilder verwenden und keine Charakterkonsistenz-Bilder?
Ja, das ist möglich. Diese beiden Referenzbildtypen sind unabhängig voneinander, Sie können nur einen davon verwenden. Im E-Commerce-Bereich werden beispielsweise oft nur Objekttreue-Bilder benötigt, ohne dass es um Charakterkonsistenz geht. In diesem Fall kann das Flash-Modell maximal 10 Objektbilder verarbeiten. Über APIYI apiyi.com können Sie schnell die Effekte verschiedener Konfigurationen testen.
F3: Was tun, wenn die Charakterkonsistenz nicht gut funktioniert?
Google hat offiziell zugegeben, dass die Charakterkonsistenz derzeit nicht 100% zuverlässig ist. Empfehlungen: (1) Verwenden Sie hochauflösende Referenzbilder von vorne; (2) Beschreiben Sie die Charaktermerkmale detailliert in der Eingabeaufforderung; (3) Generieren Sie mehrere Kandidatenbilder und wählen Sie manuell aus; (4) Versuchen Sie, sowohl das Flash- als auch das Pro-Modell gleichzeitig auf APIYI apiyi.com zu testen, um die Konsistenzeffekte zu vergleichen.
F4: Wie unterscheidet man zwischen Objekttreue-Bildern und Charakterkonsistenz-Bildern?
Der Hauptunterschied liegt in der Semantik: Ein Objekttreue-Bild ist ein "Gegenstand" (Schuhe, Taschen, Uhren usw.), den Sie im generierten Ergebnis präzise wiederhergestellt haben möchten. Ein Charakterkonsistenz-Bild ist eine "Person/Figur", deren Aussehen Sie in verschiedenen Szenarien konsistent halten möchten. Bei API-Aufrufen sind beide normale Bildeingaben, und das Modell versteht die Rolle jedes Bildes durch die Beschreibung in der Eingabeaufforderung. Es wird empfohlen, in der Eingabeaufforderung explizit Verweise wie "this shoe" oder "this character" zu verwenden.
Zusammenfassung
Die Kernpunkte der Gemini-Funktion für 14 Referenzbilder:
- Kontingent in zwei Kategorien: Die Obergrenze von 14 Bildern setzt sich aus Bildern zur Objekttreue und Bildern zur Rollenkonsistenz zusammen, wobei jede Kategorie eine eigene Obergrenze hat.
- Unterschiede zwischen den beiden Modellen: Flash bevorzugt Objekttreue (10 Bilder), Pro bevorzugt Rollenkonsistenz (5 Bilder).
- Szenario bestimmt die Wahl: Für Produktpräsentationen Flash wählen, für Charaktergeschichten Pro, bei gemischten Szenarien nach Bedarf zuweisen.
- Rollenkonsistenz muss überprüft werden: Nicht 100% perfekt, es wird empfohlen, zuerst kleine Chargen zu testen, bevor in großen Mengen generiert wird.
Das Verständnis der Kontingentverteilungslogik ist entscheidend für die effiziente Nutzung der Gemini Multireferenzbild-Funktion. Es wird empfohlen, die tatsächliche Leistung der Modelle Flash und Pro schnell über APIYI apiyi.com zu testen. Die Plattform bietet kostenlose Kontingente und eine einheitliche Schnittstelle, was den Vergleich und die Auswahl der für Ihr Szenario am besten geeigneten Lösung erleichtert.
Referenzen
-
Google Gemini Bilderzeugungs-Dokumentation: Offizielle Beschreibung der Multireferenzbild-Funktion
- Link:
ai.google.dev/gemini-api/docs/image-generation - Beschreibung: Enthält detaillierte API-Spezifikationen und Codebeispiele für die 14 Referenzbilder.
- Link:
-
Gemini 3.1 Flash Image Preview Modellkarte: Beschreibung der Modellfähigkeiten und -beschränkungen
- Link:
deepmind.google/models/model-cards/gemini-3-1-flash-image/ - Beschreibung: Technische Spezifikationen und Leistungsparameter des Flash Bildmodells.
- Link:
-
Gemini 3 Entwicklerhandbuch: Vollständige Entwicklerdokumentation für die Gemini 3 Modellreihe
- Link:
ai.google.dev/gemini-api/docs/gemini-3 - Beschreibung: Ein Entwicklerhandbuch, das multimodale Funktionen für Text, Bilder und Videos abdeckt.
- Link:
Autor: APIYI Technik-Team
Technischer Austausch: Gerne können Sie im Kommentarbereich Tipps zur Nutzung der Gemini Multireferenzbild-Funktion diskutieren. Weitere Informationen finden Sie im APIYI Dokumentationszentrum unter docs.apiyi.com.
