Das Erstellen von Bildern mit einem OpenClaw AI Agent ist eine Funktion, die viele Entwickler implementieren möchten. In diesem Artikel zeigen wir Ihnen, wie Sie in 5 Schritten einen benutzerdefinierten Skill für OpenClaw erstellen und die Nano Banana Pro Bilderzeugungs-API anbinden, um einen vollständigen Workflow vom Chat-Befehl bis zur automatischen Bildausgabe zu realisieren.
Kernwert: Nach der Lektüre dieses Artikels werden Sie die Methode zur Erstellung benutzerdefinierter Skills in OpenClaw beherrschen. Sie lernen, wie Sie über die Plattform APIYI Nano Banana Pro für Text-zu-Bild, Bildbearbeitung und Stapelverarbeitung anbinden, um Ihrem AI Agent professionelle Bilderzeugungsfunktionen zu verleihen.

Nano Banana Pro Bilder-API: Überblick über die Kernfunktionen
Bevor wir mit der Integration beginnen, schauen wir uns an, welche Fähigkeiten Nano Banana Pro Ihrem OpenClaw Agent verleiht.
Nano Banana Pro (offizieller Name: Gemini 3 Pro Image Preview) ist ein von Google DeepMind entwickeltes professionelles KI-Bilderzeugungsmodell. Es basiert auf Gemini 3 Pro und gilt in der Branche als „das beste Modell für die Erzeugung von Bildern mit korrektem Rendering und klar lesbarem Text“.
Nano Banana Pro Kerntechnische Parameter
| Fähigkeit | Parameter | Beschreibung |
|---|---|---|
| Textrendering | Fehlerrate < 10% | Branchenführende Genauigkeit bei einzeiligem Text |
| Ausgabeauflösung | 1K / 2K / 4K | Native hohe Auflösung, keine Nachbearbeitung erforderlich |
| Referenzbilder | Bis zu 14 Bilder | Unterstützt Multi-Bild-Synthese und Gesichtskonsistenz |
| Gesichtskonsistenz | Bis zu 5 Charaktere | Konsistente Gesichter über verschiedene Szenen hinweg |
| Thinking Mode | Thinking Process | Visualisierung komplexer Kompositionslogik |
| Search Grounding | Google Suche | Generierung von Visualisierungen basierend auf Echtzeitdaten |
🎯 Integrations-Tipp: Für Nano Banana Pro ist offiziell eine ausländische Kreditkarte für Google Cloud erforderlich, was eine hohe Hürde darstellt. Wir empfehlen den Zugriff über die Plattform APIYI (apiyi.com). Dort gibt es einen Einheitspreis von 0,05 $ pro Bild (80 % günstiger als der offizielle 4K-Preis), Unterstützung für Alipay/WeChat Pay und keine Notwendigkeit für eine ausländische Karte.
Vollständige Architektur der OpenClaw-Skill-Integration in Nano Banana Pro
Das Verständnis der Gesamtarchitektur hilft Ihnen dabei, die nachfolgende Konfiguration besser durchzuführen.

Warum die Integration über APIYI wählen?
| Vergleichsaspekt | Direkte Google-Verbindung | Über APIYI (apiyi.com) |
|---|---|---|
| 4K-Einzelpreis | $0,24 / Bild | $0,05 / Bild (80 % Rabatt) |
| Zahlungsmethode | Ausländische Kreditkarte | Alipay / WeChat Pay / USDT |
| API-Format | Natives Google SDK | Kompatibel mit nativem Gemini-Format |
| Netzanforderungen | VPN/Proxy erforderlich | Direkte Verbindung (innerhalb Chinas) |
| Concurrency-Limit | Durch Quota begrenzt | Unbegrenzte Concurrency, RPM 2000+ |
| Großkundenrabatte | Keine | Bis zu 20 % Bonus bei Aufladung |
Schritt 1: Erstellen der OpenClaw-Skill-Verzeichnisstruktur
# Erstellen der Skill-Verzeichnisstruktur
mkdir -p ~/.openclaw/skills/nano-banana-pro/scripts
cd ~/.openclaw/skills/nano-banana-pro
touch SKILL.md scripts/generate.py scripts/edit.py
Schritt 2: Erstellen der SKILL.md Definitionsdatei
SKILL.md ist die Kerndatei, mit der OpenClaw Ihren Skill erkennt und aufruft. Sie besteht aus YAML-Frontmatter-Metadaten und Markdown-Anweisungen.
---
name: nano-banana-pro
description: Generate and edit images using Nano Banana Pro (Gemini 3 Pro Image) via APIYI platform. Supports text-to-image, image editing, multi-image composition, and batch processing.
version: 1.0.0
metadata:
openclaw:
requires:
env:
- APIYI_API_KEY
bins:
- python3
primaryEnv: APIYI_API_KEY
emoji: "🎨"
---
# Nano Banana Pro Bilderzeugungs-Skill
## Funktionen
- **Text-zu-Bild**: Erzeugen Sie hochwertige Bilder (1K/2K/4K) basierend auf Textbeschreibungen.
- **Bildbearbeitung**: Vorhandene Bilder modifizieren, kombinieren oder den Stil ändern.
- **Stapelverarbeitung**: Unterstützung für die gleichzeitige Erzeugung und Bearbeitung mehrerer Bilder.
Verwendung
Bilder generieren
exec python3 scripts/generate.py --prompt "Beschreibung" --aspect-ratio "16:9" --resolution "2K"
Bilder bearbeiten
exec python3 scripts/edit.py --instruction "Bearbeitungsanweisung" --image-url "Bild-URL"
Wichtige Hinweise
- Verwendet das native Gemini API-Format:
/v1beta/models/{model}:generateContent - 4K-Bilder benötigen ca. 60 Sekunden; ein
exec timeout=120wird empfohlen. - Für beste Ergebnisse wird die Verwendung von englischen Eingabeaufforderungen empfohlen.
> 💡 **Entwickler-Tipp**: Nach der Deklaration von `primaryEnv: APIYI_API_KEY` injiziert OpenClaw den API-Schlüssel automatisch in die Skill-Laufzeitumgebung. Ihr Skript kann diesen direkt über Umgebungsvariablen auslesen, ohne dass der Schlüssel fest im Code hinterlegt werden muss.
---
## Schritt 3: Erstellen des Text-zu-Bild-Skripts generate.py
Dies ist das Kernskript. Es empfängt die von OpenClaw übergebenen Parameter und ruft die Nano Banana Pro API auf, um Bilder zu erzeugen.
### Schnelltest mit curl (Natives Gemini-Format)
Verwenden Sie zunächst einen curl-Befehl, um zu prüfen, ob die API erreichbar ist. Dies ist der schnellste Weg zum Testen:
```bash
curl -s -X POST \
"https://api.apiyi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "Authorization: Bearer sk-IHR_APIYI_SCHLÜSSEL" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{"text": "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"}
]
}],
"generationConfig": {
"responseModalities": ["IMAGE"],
"imageConfig": {
"aspectRatio": "16:9",
"imageSize": "2K"
}
}
}' | python3 -c "
import sys, json, base64
data = json.load(sys.stdin)
img_data = data['candidates'][0]['content']['parts'][0]['inlineData']['data']
sys.stdout.buffer.write(base64.b64decode(img_data))
" > gemini-native-image.png
Nach erfolgreicher Ausführung wird die Datei gemini-native-image.png im aktuellen Verzeichnis erstellt.
Python-Skript (Natives Gemini-Format)
#!/usr/bin/env python3
"""Nano Banana Pro Text-zu-Bild-Skript - OpenClaw Skill (Natives Gemini-Format)"""
import os, json, base64, argparse, requests
from datetime import datetime
API_KEY = os.environ.get("APIYI_API_KEY", "")
API_BASE = "https://api.apiyi.com/v1beta/models" # APIYI Native Gemini-Schnittstelle
def generate_image(prompt, aspect_ratio="16:9", resolution="2K"):
url = f"{API_BASE}/gemini-3-pro-image-preview:generateContent"
headers = {
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
}
data = {
"contents": [{"parts": [{"text": prompt}]}],
"generationConfig": {
"responseModalities": ["IMAGE"],
"imageConfig": {
"aspectRatio": aspect_ratio,
"imageSize": resolution
}
}
}
response = requests.post(url, headers=headers, json=data, timeout=120)
response.raise_for_status()
result = response.json()
# Natives Gemini-Format: Extrahiere inlineData aus candidates
parts = result["candidates"][0]["content"]["parts"]
for part in parts:
if "inlineData" in part:
img_bytes = base64.b64decode(part["inlineData"]["data"])
filename = f"nano_banana_{datetime.now().strftime('%Y%m%d_%H%M%S')}.png"
with open(filename, "wb") as f:
f.write(img_bytes)
print(f"Bild generiert: {filename} ({len(img_bytes)/1024:.1f} KB)")
return filename
print("Bilddaten konnten nicht extrahiert werden")
return None
if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument("--prompt", required=True)
parser.add_argument("--aspect-ratio", default="16:9")
parser.add_argument("--resolution", default="2K", help="Auflösung: 1K/2K/4K")
args = parser.parse_args()
generate_image(args.prompt, args.aspect_ratio, args.resolution)
🚀 Schnellstart: Der obige Code verwendet die native Gemini-Schnittstelle von APIYI (apiyi.com) mit dem Endpunkt
/v1beta/models/{model}:generateContent. Die Antwortstruktur ist vollständig identisch mit der offiziellen Google-API. Erstellen Sie einfach einen API-Schlüssel im APIYI-Dashboard unter api.apiyi.com, um loszulegen.
Schritt 4: Erstellen des Bildbearbeitungs-Skripts edit.py
Nano Banana Pro kann nicht nur Bilder erzeugen, sondern unterstützt auch die Bearbeitung bestehender Bilder.
#!/usr/bin/env python3
"""Nano Banana Pro Bildbearbeitungs-Skript - OpenClaw Skill (Gemini-natives Format)"""
import os, json, base64, argparse, requests
from datetime import datetime
API_KEY = os.environ.get("APIYI_API_KEY", "")
API_BASE = "https://api.apiyi.com/v1beta/models"
def edit_image(instruction, image_url, extra_images=None):
url = f"{API_BASE}/gemini-3-pro-image-preview:generateContent"
headers = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
# Erstellen der multimodalen Parts im Gemini-nativen Format
parts = [{"text": instruction}]
# Bild-URL in Base64-Inline-Daten umwandeln
img_resp = requests.get(image_url, timeout=30)
parts.append({"inlineData": {"mimeType": "image/png",
"data": base64.b64encode(img_resp.content).decode()}})
if extra_images: # Unterstützt die Kombination mehrerer Bilder (maximal 14 Referenzbilder)
for img_url in extra_images[:13]:
r = requests.get(img_url, timeout=30)
parts.append({"inlineData": {"mimeType": "image/png",
"data": base64.b64encode(r.content).decode()}})
data = {
"contents": [{"parts": parts}],
"generationConfig": {"responseModalities": ["IMAGE"]}
}
response = requests.post(url, headers=headers, json=data, timeout=120)
response.raise_for_status()
result_parts = response.json()["candidates"][0]["content"]["parts"]
for part in result_parts:
if "inlineData" in part:
filename = f"edited_{datetime.now().strftime('%Y%m%d_%H%M%S')}.png"
with open(filename, "wb") as f:
f.write(base64.b64decode(part["inlineData"]["data"]))
print(f"Bearbeitung abgeschlossen: {filename}")
return filename
return None
if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument("--instruction", required=True)
parser.add_argument("--image-url", required=True)
parser.add_argument("--extra-images", nargs="*")
args = parser.parse_args()
edit_image(args.instruction, args.image_url, args.extra_images)
Zusammenfassung der Bildbearbeitungsfunktionen
| Bearbeitungstyp | Beispiel-Befehl | Verarbeitungszeit |
|---|---|---|
| Hintergrund ersetzen | "Remove background and add sunset" | ~10 Sek. |
| Stilumwandlung | "Convert to anime style" | ~15 Sek. |
| Elemente hinzufügen | "Add sunglasses to the person" | ~10 Sek. |
| Bildkombination | "Combine these logos and add…" | ~20 Sek. |
| Text hinzufügen | "Add title text: Hello World" | ~10 Sek. |
| Farbanpassung | "Make the image warmer, increase contrast" | ~8 Sek. |
Schritt 5: OpenClaw konfigurieren und testen
API-Schlüssel konfigurieren
Fügen Sie die Skill-Konfiguration in der OpenClaw-Konfigurationsdatei ~/.openclaw/openclaw.json hinzu:
{
"skills": {
"entries": {
"nano-banana-pro": {
"enabled": true,
"apiKey": "sk-Ihr-APIYI-Schlüssel"
}
}
}
}

Skill testen
Senden Sie einen Testbefehl in der Messaging-Plattform, um die Funktion zu überprüfen:
Erzeuge ein Produktbild für E-Commerce im modernen, minimalistischen Stil, weißer Hintergrund, Produkt zentriert.
Überprüfen Sie, ob der Skill korrekt geladen wurde:
openclaw skills list | grep nano-banana
openclaw skills test nano-banana-pro
💰 Kostenoptimierung: Nano Banana Pro bietet über APIYI (apiyi.com) einen Einheitspreis von 0,05 $ pro Bild an, unabhängig von der Auflösung. Wenn Ihr Projekt durchschnittlich mehr als 5.000 Bilder pro Tag verbraucht, können Sie von einem Aufladebonus von bis zu 20 % profitieren, wodurch die Kosten pro Bild auf bis zu 0,04 $ sinken.
Nano Banana Pro API: Kosten- und Leistungsvergleich
Die Wahl der richtigen Zugriffsmethode ist für die langfristige Nutzung entscheidend.

Das obige SVG-Diagramm zeigt einen detaillierten Preisvergleich und die Leistungsmerkmale. Wichtigste Daten: Über APIYI kostet ein einzelnes 4K-Bild mit Nano Banana Pro nur 0,05 $ (etwa 20 % des offiziellen Preises von 0,24 $). Mit Boni für Großkunden sinkt der Preis auf bis zu 0,04 $ pro Bild. Die Plattform verarbeitet täglich über 100.000 Bilder ohne Einschränkungen bei der Anzahl gleichzeitiger Anfragen.
Häufig gestellte Fragen
Q1: Welche Abhängigkeiten müssen für die Anbindung von OpenClaw an Nano Banana Pro installiert werden?
Sie benötigen lediglich Python 3 und die requests-Bibliothek. Wir rufen Nano Banana Pro über die native Gemini-Schnittstelle von APIYI (apiyi.com) auf (/v1beta/models/{model}:generateContent), daher ist die Installation des google-generativeai SDK von Google nicht erforderlich. Ein einfaches pip install requests genügt. Sie können Tests auch direkt mit dem curl-Befehl durchführen, ganz ohne Abhängigkeiten.
Q2: Was tun, wenn OpenClaw bei der Erzeugung von 4K-Bildern eine Zeitüberschreitung (Timeout) meldet?
Die Erzeugung von 4K-Bildern mit Nano Banana Pro dauert etwa 60 Sekunden. In der Bedienungsanleitung der SKILL.md wird empfohlen, für den Skriptaufruf in OpenClaw exec timeout=120 oder exec timeout=180 zu verwenden, um zu verhindern, dass die Aufgabe durch den Standard-Timeout abgebrochen wird.
Q3: Kann Nano Banana Pro durch andere Bilderzeugungsmodelle ersetzt werden?
Ja. Die APIYI-Plattform (apiyi.com) unterstützt gleichzeitig verschiedene Bilderzeugungsmodelle. Sie müssen lediglich den Parameter model in der Datei generate.py ändern, um zu wechseln. Das API-Format bleibt identisch, sodass kein weiterer Code angepasst werden muss.
Q4: Wie lässt sich die Sicherheit von OpenClaw Skills gewährleisten?
Drei entscheidende Maßnahmen: Erstens, injizieren Sie den API-Schlüssel über Umgebungsvariablen und kodieren Sie ihn nicht fest im Skript; zweitens, verwenden Sie nur von Ihnen selbst erstellte Skills und vermeiden Sie die Installation von Bilderzeugungs-Skills aus unbekannten Quellen auf ClawHub (es wurden bereits über 820 bösartige Skills entdeckt); drittens, überprüfen Sie regelmäßig die OpenClaw-Logs auf ungewöhnliche Aufrufe.
Q5: Welche Operationen unterstützt die Bildbearbeitung und wie ist die Qualität?
Nano Banana Pro unterstützt den Austausch von Hintergründen, Stilübertragungen, das Hinzufügen oder Entfernen von Elementen, die Komposition aus mehreren Bildern (bis zu 14 Referenzbilder), Text-Rendering und mehr. Das Text-Rendering ist die größte Stärke: Die Fehlerrate bei einzeiligem Text liegt unter 10 %, was DALL-E 3 und Midjourney weit übertrifft. Über die APIYI-Plattform kosten diese Bearbeitungsfunktionen nur 0,05 $ pro Aufruf und sind in durchschnittlich 10 Sekunden abgeschlossen.
Zusammenfassung
In diesen 5 Schritten haben Sie den vollständigen Prozess gelernt, um einen benutzerdefinierten Skill für OpenClaw zu erstellen und die Nano Banana Pro Bilder-API anzubinden:
- Skill-Verzeichnis erstellen — Standardstruktur mit
SKILL.md+scripts/. - SKILL.md verfassen — Deklaration von Abhängigkeiten, Umgebungsvariablen und Befehlen.
- Text-zu-Bild-Skript schreiben — Aufruf von Nano Banana Pro über die native Gemini-Schnittstelle von APIYI.
- Bearbeitungs-Skript schreiben — Unterstützung für Bildkomposition, Hintergrundtausch und Stilübertragung.
- Konfiguration und Test — Hinterlegen des Schlüssels in der
openclaw.jsonund Funktionsprüfung.
Wir empfehlen die Anbindung von Nano Banana Pro über APIYI (apiyi.com). Profitieren Sie von einem Einheitspreis von 0,05 $/Bild (80 % Ersparnis gegenüber dem offiziellen 4K-Preis) sowie einer einheitlichen Schnittstelle für Claude, GPT-4o, DeepSeek und weitere Modelle. Testen Sie die Ergebnisse kostenlos unter imagen.apiyi.com.
Dieser Artikel wurde vom APIYI-Technikteam verfasst. Wir konzentrieren uns auf die praktische Anbindung von KI-Großsprachmodell-APIs und Tutorials zur Agent-Entwicklung. Weitere technische Leitfäden finden Sie im APIYI Help Center: help.apiyi.com
