Autorenhinweis: Tiefgehende Analyse der Token-Verbrauchsunterschiede bei Nano Banana 2, wenn response_modalities auf IMAGE gesetzt wird (nur Bildrückgabe). Zerlegung der Abrechnungsregeln für Bild-, Text- und Denk-Tokens. Vorschlag der optimalen Kosteneinsparungskonfiguration.

Beim Aufruf von Nano Banana 2 zur Bilderzeugung gibt es zwei Möglichkeiten, den Parameter response_modalities zu setzen: ["Text", "Image"] (Standard) und ["Image"] (nur Bild). Eine naheliegende Frage ist: Wie viele Token und Kosten kann man sparen, wenn man nur Bilder zurückgibt?
Kernnutzen: Nach dem Lesen dieses Artikels verstehst du die Abrechnungsregeln für die drei Arten von Ausgabe-Tokens bei Nano Banana 2 (Bild/Text/Denken) vollständig, weißt genau, wie viel Geld response_modalities=["Image"] tatsächlich spart, und kennst die wirklich effektiven Strategien zur Kosteneinsparung.
Drei Arten von Ausgabe-Tokens und deren Abrechnungsregeln für Nano Banana 2
Die Abrechnung der Ausgabe von Nano Banana 2 erfolgt nicht nach einem einfachen "Einheitspreis", sondern ist in drei separat berechnete Token-Typen unterteilt:
| Token-Typ | Preis pro Token | Erläuterung | Kann durch Parameter entfernt werden? |
|---|---|---|---|
| Bild-Ausgabe-Token | $60,00 / M Tokens | Für die Bilderzeugung verbrauchte Token, machen >95% der Kosten aus | ❌ Nein (Kernausgabe) |
| Text-Ausgabe-Token | $3,00 / M Tokens | Textbeschreibungen/Bildunterschriften | ✅ Ja, durch Setzen von ["Image"] |
| Denk-Token (Thinking) | $3,00 / M Tokens | Für den internen Modell-Rückschlussprozess verbraucht | ❌ Werden immer erzeugt, können nicht deaktiviert werden |
| Eingabe-Token | $0,50 / M Tokens | Dein Prompt-Text und Referenzbilder | ⚠️ Kann durch Optimierung der Prompt-Länge reduziert werden |
Bild-Token sind der mit Abstand größte Kostenfaktor bei Nano Banana 2
Wichtige Zahl: Der Preis für Bild-Ausgabe-Token liegt bei $60/M, während Text- und Denk-Token nur $3/M kosten – Bild-Token sind 20-mal teurer.
| Auflösung | Bild-Ausgabe-Token | Bildkosten | Anteil an den Gesamtausgabekosten |
|---|---|---|---|
| 512px | ~747 | ~$0,045 | ~95% |
| 1K (Standard) | ~1.120 | ~$0,067 | ~96% |
| 2K | ~1.680 | ~$0,101 | ~97% |
| 4K | ~2.520 | ~$0,151 | ~97% |
🔑 Kernaussage: Bild-Token machen 95-97% der Ausgabekosten aus. Text- und Denk-Token zusammen machen nur 3-5% aus. Selbst wenn die Textausgabe komplett entfernt wird, ist die Ersparnis daher sehr begrenzt.
Token-Vergleich der beiden Einstellungen für response_modalities

Einstellung ["Text", "Image"] — Standardmodus
Standardmäßig gibt Nano Banana 2 ein Bild plus eine Textbeschreibung zurück. Das Modell "denkt" zuerst (Thinking) und gibt dann eine Textbeschreibung und das Bild aus.
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-3.1-flash-image-preview",
contents="Generiere eine Katze in einem Raumanzug",
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"], # Standard: Text + Bild
)
)
Ausgabeinhalt: Eine Textbeschreibung (z.B. "Dies ist eine orange Katze in einem Raumanzug…") + 1 Bild
Token-Verbrauchsaufteilung (am Beispiel 1K-Auflösung):
- Denk-Token: ~200-800 (variiert je nach Komplexität des Prompts)
- Text-Ausgabe-Token: ~50-200
- Bild-Ausgabe-Token: ~1.120
Einstellung ["Image"] — Nur-Bild-Modus
Hier wird nur das Bild zurückgegeben, keine Textbeschreibung.
response = client.models.generate_content(
model="gemini-3.1-flash-image-preview",
contents="Generiere eine Katze in einem Raumanzug",
config=types.GenerateContentConfig(
response_modalities=["Image"], # Nur Bild, kein Text
)
)
Ausgabeinhalt: Nur 1 Bild, keine Textbeschreibung
Token-Verbrauchsaufteilung (am Beispiel 1K-Auflösung):
- Denk-Token: ~200-800 (werden weiterhin erzeugt und berechnet)
- Text-Ausgabe-Token: 0 (wurden entfernt ✅)
- Bild-Ausgabe-Token: ~1.120 (unverändert)
Kostenvergleich der beiden Modi für Nano Banana 2
| Vergleichspunkt | ["Text", "Image"] Standard | ["Image"] Nur Bild | Unterschied |
|---|---|---|---|
| Bild-Token (~1.120) | $0,0672 | $0,0672 | 0 (unverändert) |
| Denk-Token (~500) | $0,0015 | $0,0015 | 0 (unverändert) |
| Text-Token (~100) | $0,0003 | $0 | Ersparnis $0,0003 |
| Gesamtkosten pro Bild (1K) | ~$0,069 | ~$0,069 | Ersparnis ~0,4% |
⚠️ Fazit:
response_modalities=["Image"]spart zwar die Text-Ausgabe-Token ein. Da diese aber nur $3/M kosten und in geringer Anzahl anfallen (ca. 50-200), beträgt die tatsächliche Ersparnis pro Bild nur etwa $0,0001-$0,0006 und ist damit vernachlässigbar.
Warum können Thinking Tokens bei Nano Banana 2 nicht eingespart werden?
Dies ist der am häufigsten übersehene Punkt bei den Nano Banana 2-Kosten: Thinking Tokens werden immer generiert und immer berechnet, unabhängig davon, ob Sie den Denkprozess einsehen oder nicht.
Die offizielle Google-Dokumentation stellt klar:
Thinking tokens werden berechnet, unabhängig davon, ob
includeThoughtsauftrueoderfalsegesetzt ist, da der Denkprozess standardmäßig immer stattfindet.
Das bedeutet:
includeThoughts=True: Sie sehen den Denkprozess, Kosten fallen anincludeThoughts=False: Sie sehen den Denkprozess nicht, Kosten fallen trotzdem an- Der Abrechnungssatz für Thinking Tokens: $3/M (identisch mit Textausgabe)
Nano Banana 2 unterstützt zwei Thinking-Stufen:
| Thinking-Stufe | Einstellungsweise | Thinking Token-Verbrauch | Bildqualität | Empfohlene Anwendung |
|---|---|---|---|---|
| minimal | Standard | ~200-500 | Für die meisten Szenarien ausreichend | Tägliche Bilderzeugung |
| high | thinking_level="high" |
~500-2000 | Besser für komplexe Szenarien | Mehrere Charaktere/präzise Komposition |
💡 Optimierungstipp: Wenn Sie keine extrem hohe Bildqualität benötigen, behalten Sie die Standardeinstellung
minimalbei. Die Stufehigherhöht den Thinking Token-Verbrauch um Hunderte bis Tausende. Obwohl der Einzelpreis niedrig ist ($3/M), summiert sich dies bei Batch-Verarbeitung.
Wirklich effektive Strategien zur Kostenersparnis bei Nano Banana 2
Wenn response_modalities=["Image"] kaum spart, welche Strategien sind dann wirklich effektiv?

| Sparstrategie | Einsparung | Konkrete Maßnahme | Empfehlung |
|---|---|---|---|
| Passende Auflösung wählen | Bis zu 70% | 4K→512px reduziert Kosten von $0.151 auf $0.045 | ⭐⭐⭐⭐⭐ |
| APIYI pro Bild nutzen | Bis zu 70% | $0.045/Bild (inkl. 4K), unabhängig von der Auflösung | ⭐⭐⭐⭐⭐ |
| APIYI nach Volumen nutzen | Bis zu 63% | Niedrige Auflösung nur $0.018/Bild (512px) | ⭐⭐⭐⭐⭐ |
| Google Batch API | 50% | Offline-Batch-Verarbeitung, Bild-Tokens zum halben Preis | ⭐⭐⭐⭐ |
| Thinking minimal | 2-5% | Standard-Thinking-Stufe beibehalten | ⭐⭐⭐ |
| response_modalities=["Image"] | ~0.4% | Textausgabe entfernen | ⭐ |
Preisvergleich für Nano Banana 2 bei verschiedenen Auflösungen auf verschiedenen Plattformen
| Auflösung | Google offiziell | APIYI pro Bild | APIYI nach Volumen | Maximale Ersparnis |
|---|---|---|---|---|
| 512px | $0.045 | $0.045 | $0.018 | 60% |
| 1K | $0.067 | $0.045 | $0.025 | 63% |
| 2K | $0.101 | $0.045 | $0.03 | 70% |
| 4K | $0.151 | $0.045 | $0.045 | 70% |
🎯 Beste Praxis: Wenn Ihr Anwendungsfall 1K anstelle von 4K zulässt, sparen Sie direkt 55%. Kombiniert mit der Volumenabrechnung von APIYI (apiyi.com) kostet 1K-Auflösung nur $0.025/Bild – das sind 83% Ersparnis gegenüber den offiziellen $0.151 für 4K. Die Plattform bietet auch ein kostenloses Bildgenerierungstesttool AI 图片大师: imagen.apiyi.com, mit dem Sie ohne Code schnell die Ergebnisse verschiedener Auflösungen überprüfen können.
Optimale Konfiguration für Nano Banana 2 über APIYI
Basierend auf der vorherigen Analyse ist hier die empfohlene optimale Konfiguration:
import requests
import base64
API_KEY = "your-apiyi-api-key"
ENDPOINT = "https://api.apiyi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent"
headers = {
"Content-Type": "application/json",
"x-goog-api-key": API_KEY
}
payload = {
"contents": [{"parts": [{"text": "一只穿宇航服的猫咪,数字艺术风格"}]}],
"generationConfig": {
"responseModalities": ["IMAGE"], # Nur Bild, spart Text-Token
"imageConfig": {
"aspectRatio": "1:1",
"imageSize": "1K" # Auflösung nach Bedarf wählen - das ist der Schlüssel zur Kosteneinsparung
}
}
}
response = requests.post(ENDPOINT, headers=headers, json=payload, timeout=120)
result = response.json()
image_data = result["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
with open("output.png", "wb") as f:
f.write(base64.b64decode(image_data))
Empfehlung: Bei der Nutzung von Nano Banana 2 über APIYI (apiyi.com) kostet die pro-Aufruf-Abrechnung $0,045/Bild unabhängig von der Auflösung. Die nutzungsbasierte Abrechnung beginnt bei nur $0,018/Bild. Die native Google-Format-Unterstützung ermöglicht eine nahtlose Migration ohne Anpassungskosten.
Häufig gestellte Fragen
Q1: Werden Denk-Token noch generiert, wenn response_modalities=[„Image“] gesetzt ist?
Ja. Der Denkprozess (Thinking) von Nano Banana 2 ist standardmäßig aktiviert und kann nicht deaktiviert werden. Egal ob Sie response_modalities auf ["Image"] oder ["Text", "Image"] setzen, und unabhängig davon, ob includeThoughts auf true oder false steht – Denk-Token werden immer generiert und berechnet. Die gute Nachricht: Denk-Token werden zum Text-Tarif von $3/M abgerechnet, was deutlich günstiger ist als der Bild-Token-Tarif von $60/M.
Q2: Welchen Sinn hat dann die Einstellung [„Image“] überhaupt?
Es gibt zwei Hauptvorteile: Erstens reduziert es die Netzwerkübertragungsmenge – ohne Textantworten erfolgt die Antwortverarbeitung schneller. Zweitens vereinfacht es die Code-Logik, da keine zusätzliche Textverarbeitung erforderlich ist. Die Kosteneinsparung liegt zwar unter 1%, aber in Szenarien mit reinen Bildausgaben (wie der Massenproduktion von Assets) ist der direkte Zugriff auf das Bild praktischer.
Q3: Welches Abrechnungsmodell bei APIYI ist kostengünstiger: pro Aufruf oder nutzungsbasiert?
Das hängt von Ihrer typischen Auflösung ab. Die pro-Aufruf-Abrechnung kostet $0,045/Bild unabhängig von der Auflösung und eignet sich für Szenarien mit häufig benötigten 2K/4K-Bildern. Die nutzungsbasierte Abrechnung berechnet flexibel nach Token-Verbrauch, wobei niedrige Auflösungen (512px) nur $0,018/Bild kosten – ideal für die Massenerstellung niedrigauflösender Bilder. Bei APIYI (apiyi.com) können Sie nach der Registrierung beide Abrechnungsmodelle nutzen.
Zusammenfassung
Die Kernpunkte der Kostenanalyse für response_modalities bei Nano Banana 2:
- Bild-Token sind der absolute Kostentreiber: Der Preis von $60/M für Bildausgaben macht 95-97% der Gesamtausgabekosten aus, während Text- und Denk-Token zusammen nur 3-5% ausmachen.
["Image"]spart kaum etwas: Es eliminiert nur die Textausgabe-Token und spart etwa $0.0003 pro Bild (weniger als 0,5%).- Denk-Token können nicht vermieden werden: Sie werden immer erzeugt und berechnet ($3/M), unabhängig von der
response_modalities-Einstellung. - Echte Einsparungen durch Auflösung und Plattform: Die Wahl der richtigen Auflösung kann bis zu 70% sparen, und die Nutzung von APIYI kann weitere 63% sparen.
Wir empfehlen, Nano Banana 2 über APIYI (apiyi.com) aufzurufen. Dort kostet ein Bild mit bis zu 4K Auflösung $0,045 pro Aufruf. Bei volumenbasierter Abrechnung sinkt der Preis auf bis zu $0,018 pro Bild. Die Plattform hat keine Beschränkungen für gleichzeitige Aufrufe, unterstützt das native Google-Format und bietet ein kostenloses Bildgenerierungstool unter imagen.apiyi.com.
📚 Referenzen
-
Google Gemini API Preisgestaltungsseite: Offizielle Preisliste für Nano Banana 2 Token
- Link:
ai.google.dev/gemini-api/docs/pricing - Beschreibung: Zeigt die aktuellen Preise für Bild-, Text- und Denk-Token.
- Link:
-
Google AI Bildgenerierungsdokumentation: Erklärung des Parameters
response_modalities- Link:
ai.google.dev/gemini-api/docs/image-generation - Beschreibung: Offizielle Dokumentation zur Konfiguration der Modi
["Image"]und["Text","Image"].
- Link:
-
Google AI Token-Zähldokumentation: Verständnis der Token-Zusammensetzung und Abrechnung
- Link:
ai.google.dev/gemini-api/docs/tokens - Beschreibung: Erklärt den Zusammenhang zwischen der Anzahl der Bildausgabe-Token und der Auflösung.
- Link:
-
APIYI Nano Banana 2 Dokumentation: Details zu den beiden Abrechnungsmodellen (pro Aufruf/volumenbasiert)
- Link:
docs.apiyi.com/en/api-capabilities/nano-banana-2-image - Beschreibung: Erläutert die Abrechnungsmodelle und Aufrufmethoden der APIYI-Plattform.
- Link:
Autor: APIYI Technikteam
Technischer Austausch: Diskutieren Sie gerne in den Kommentaren. Weitere Ressourcen finden Sie im APIYI Dokumentationszentrum unter docs.apiyi.com.
