Permettre à un OpenClaw AI Agent de générer automatiquement des images est une fonctionnalité que de nombreux développeurs souhaitent implémenter. Cet article vous explique comment créer un Skill personnalisé pour OpenClaw en 5 étapes, en intégrant l'API de génération d'images Nano Banana Pro, afin de mettre en place un flux de travail complet allant de la commande de chat à la création automatique d'images.
Valeur ajoutée : En lisant cet article, vous maîtriserez la méthode de création de Skills personnalisés pour OpenClaw. Vous apprendrez à utiliser la plateforme APIYI pour accéder à Nano Banana Pro afin de réaliser du texte vers image, de l'édition d'images et du traitement par lots, dotant ainsi votre AI Agent de capacités de génération d'images de niveau professionnel.

Aperçu des capacités clés de l'API Nano Banana Pro
Avant de commencer l'intégration, voyons ce que Nano Banana Pro peut apporter à votre OpenClaw Agent.
Nano Banana Pro (nom officiel Gemini 3 Pro Image Preview) est un modèle de génération d'images IA de niveau professionnel lancé par Google DeepMind. Basé sur Gemini 3 Pro, il est considéré par l'industrie comme le « meilleur modèle pour générer des images contenant un rendu de texte correct et clairement lisible ».
Paramètres techniques de Nano Banana Pro
| Capacité | Paramètre | Description |
|---|---|---|
| Rendu de texte | Taux d'erreur < 10% | Précision du texte sur une seule ligne en tête de l'industrie |
| Résolution de sortie | 1K / 2K / 4K | Haute résolution native, sans post-traitement |
| Images de référence | Jusqu'à 14 images | Supporte la synthèse multi-images et la cohérence des personnages |
| Cohérence faciale | Jusqu'à 5 personnages | Visages de personnages cohérents à travers différentes scènes |
| Mode de réflexion | Thinking Process | Visualisation du raisonnement pour les compositions complexes |
| Ancrage de recherche | Google Search | Génération de visualisations basées sur des données en temps réel |
🎯 Conseil d'intégration : L'accès officiel à Nano Banana Pro nécessite de lier une carte de crédit étrangère à Google Cloud, ce qui peut être complexe. Nous vous recommandons de passer par la plateforme APIYI (apiyi.com). Le tarif est unique à 0,05 $/image (soit 80 % de réduction par rapport au prix officiel du 4K), et elle supporte Alipay/WeChat sans besoin de carte étrangère.
Architecture complète de l'intégration du Skill OpenClaw à Nano Banana Pro
Comprendre l'architecture globale vous aidera à mieux configurer la suite.

Pourquoi choisir de passer par APIYI ?
| Comparaison | Connexion directe Google | Via APIYI (apiyi.com) |
|---|---|---|
| Prix unitaire 4K | 0,24 $/image | 0,05 $/image (80 % de réduction) |
| Mode de paiement | Carte de crédit étrangère | Alipay / WeChat Pay / USDT |
| Format d'API | SDK natif Google | Compatible format natif Gemini |
| Exigences réseau | VPN/Proxy requis | Connexion directe (Chine/International) |
| Limites de concurrence | Limité par les quotas | Concurrence illimitée, RPM 2000+ |
| Remises grands comptes | Aucune | Jusqu'à 20 % de bonus sur recharge |
Étape 1 : Créer la structure du répertoire du Skill OpenClaw
# Créer la structure du répertoire du Skill
mkdir -p ~/.openclaw/skills/nano-banana-pro/scripts
cd ~/.openclaw/skills/nano-banana-pro
touch SKILL.md scripts/generate.py scripts/edit.py
Étape 2 : Rédiger le fichier de définition SKILL.md
Le fichier SKILL.md est le document essentiel pour qu'OpenClaw identifie et appelle votre Skill. Il se compose de métadonnées YAML en front matter et d'instructions Markdown.
---
name: nano-banana-pro
description: Generate and edit images using Nano Banana Pro (Gemini 3 Pro Image) via APIYI platform. Supports text-to-image, image editing, multi-image composition, and batch processing.
version: 1.0.0
metadata:
openclaw:
requires:
env:
- APIYI_API_KEY
bins:
- python3
primaryEnv: APIYI_API_KEY
emoji: "🎨"
---
Skill de génération d'images Nano Banana Pro
Fonctionnalités
- Texte vers image : Générez des images de haute qualité (1K/2K/4K) à partir de descriptions textuelles.
- Édition d'images : Modifiez, composez et transformez le style d'images existantes.
- Traitement par lot : Prise en charge de la génération et de l'édition par lot.
Utilisation
Générer une image
exec python3 scripts/generate.py --prompt "votre description" --aspect-ratio "16:9" --resolution "2K"
Modifier une image
exec python3 scripts/edit.py --instruction "instruction de modification" --image-url "URL_de_l_image"
Points d'attention
- Utilise le format natif de l'API Gemini :
/v1beta/models/{model}:generateContent - La génération d'une image 4K prend environ 60 secondes, il est donc conseillé de régler
exec timeout=120. - Il est recommandé d'utiliser des invites en anglais pour obtenir les meilleurs résultats.
💡 Conseil de développement : Une fois
primaryEnv: APIYI_API_KEYdéclaré, OpenClaw injectera automatiquement la clé API dans l'environnement d'exécution du Skill. Votre script peut la lire directement via les variables d'environnement, sans avoir besoin de coder la clé en dur.
Étape 3 : Écrire le script de texte vers image generate.py
C'est le script principal. Il est chargé de recevoir les paramètres transmis par OpenClaw et d'appeler l'API Nano Banana Pro pour générer l'image.
Test rapide avec curl (format natif Gemini)
Commencez par vérifier la connectivité de l'API avec une commande curl, c'est la méthode de test la plus rapide :
curl -s -X POST \
"https://api.apiyi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "Authorization: Bearer sk-votre-clé-APIYI" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{"text": "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"}
]
}],
"generationConfig": {
"responseModalities": ["IMAGE"],
"imageConfig": {
"aspectRatio": "16:9",
"imageSize": "2K"
}
}
}' | python3 -c "
import sys, json, base64
data = json.load(sys.stdin)
img_data = data['candidates'][0]['content']['parts'][0]['inlineData']['data']
sys.stdout.buffer.write(base64.b64decode(img_data))
" > gemini-native-image.png
Une fois l'exécution réussie, un fichier gemini-native-image.png sera généré dans le répertoire courant.
Script Python (format natif Gemini)
#!/usr/bin/env python3
"""Script de texte vers image Nano Banana Pro - OpenClaw Skill (format natif Gemini)"""
import os, json, base64, argparse, requests
from datetime import datetime
API_KEY = os.environ.get("APIYI_API_KEY", "")
API_BASE = "https://api.apiyi.com/v1beta/models" # Interface native Gemini d'APIYI
def generate_image(prompt, aspect_ratio="16:9", resolution="2K"):
url = f"{API_BASE}/gemini-3-pro-image-preview:generateContent"
headers = {
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
}
data = {
"contents": [{"parts": [{"text": prompt}]}],
"generationConfig": {
"responseModalities": ["IMAGE"],
"imageConfig": {
"aspectRatio": aspect_ratio,
"imageSize": resolution
}
}
}
response = requests.post(url, headers=headers, json=data, timeout=120)
response.raise_for_status()
result = response.json()
# Format natif Gemini : extraction de inlineData depuis candidates
parts = result["candidates"][0]["content"]["parts"]
for part in parts:
if "inlineData" in part:
img_bytes = base64.b64decode(part["inlineData"]["data"])
filename = f"nano_banana_{datetime.now().strftime('%Y%m%d_%H%M%S')}.png"
with open(filename, "wb") as f:
f.write(img_bytes)
print(f"Image générée : {filename} ({len(img_bytes)/1024:.1f} KB)")
return filename
print("Impossible d'extraire les données de l'image")
return None
if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument("--prompt", required=True)
parser.add_argument("--aspect-ratio", default="16:9")
parser.add_argument("--resolution", default="2K", help="Résolution : 1K/2K/4K")
args = parser.parse_args()
generate_image(args.prompt, args.aspect_ratio, args.resolution)
🚀 Démarrage rapide : Le code ci-dessus utilise l'interface au format natif Gemini d'APIYI (apiyi.com). Le point de terminaison est
/v1beta/models/{model}:generateContent, et la structure de la réponse est totalement identique à celle de l'API officielle de Google. Créez simplement une clé sur la console APIYI (api.apiyi.com) pour commencer.
Étape 4 : Écrire le script d'édition d'images edit.py
Nano Banana Pro ne se contente pas de générer des images, il permet également de modifier des images existantes.
#!/usr/bin/env python3
"""Script d'édition d'images Nano Banana Pro - Skill OpenClaw (format natif Gemini)"""
import os, json, base64, argparse, requests
from datetime import datetime
API_KEY = os.environ.get("APIYI_API_KEY", "")
API_BASE = "https://api.apiyi.com/v1beta/models"
def edit_image(instruction, image_url, extra_images=None):
url = f"{API_BASE}/gemini-3-pro-image-preview:generateContent"
headers = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}
# Construction des parties (parts) multimodales au format natif Gemini
parts = [{"text": instruction}]
# Conversion de l'URL de l'image en données inline base64
img_resp = requests.get(image_url, timeout=30)
parts.append({"inlineData": {"mimeType": "image/png",
"data": base64.b64encode(img_resp.content).decode()}})
if extra_images: # Prise en charge de la synthèse multi-images (jusqu'à 14 images de référence)
for img_url in extra_images[:13]:
r = requests.get(img_url, timeout=30)
parts.append({"inlineData": {"mimeType": "image/png",
"data": base64.b64encode(r.content).decode()}})
data = {
"contents": [{"parts": parts}],
"generationConfig": {"responseModalities": ["IMAGE"]}
}
response = requests.post(url, headers=headers, json=data, timeout=120)
response.raise_for_status()
result_parts = response.json()["candidates"][0]["content"]["parts"]
for part in result_parts:
if "inlineData" in part:
filename = f"edited_{datetime.now().strftime('%Y%m%d_%H%M%S')}.png"
with open(filename, "wb") as f:
f.write(base64.b64decode(part["inlineData"]["data"]))
print(f"Édition terminée : {filename}")
return filename
return None
if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument("--instruction", required=True)
parser.add_argument("--image-url", required=True)
parser.add_argument("--extra-images", nargs="*")
args = parser.parse_args()
edit_image(args.instruction, args.image_url, args.extra_images)
Résumé des capacités d'édition d'images
| Type d'édition | Exemple d'invite | Temps de traitement |
|---|---|---|
| Remplacement de fond | "Remove background and add sunset" | ~10 s |
| Transfert de style | "Convert to anime style" | ~15 s |
| Ajout d'éléments | "Add sunglasses to the person" | ~10 s |
| Synthèse multi-images | "Combine these logos and add…" | ~20 s |
| Ajout de texte | "Add title text: Hello World" | ~10 s |
| Ajustement des couleurs | "Make the image warmer, increase contrast" | ~8 s |
Étape 5 : Configurer OpenClaw et tester
Configuration de la clé API
Ajoutez la configuration du Skill dans le fichier de configuration OpenClaw ~/.openclaw/openclaw.json :
{
"skills": {
"entries": {
"nano-banana-pro": {
"enabled": true,
"apiKey": "sk-votre-clé-APIYI"
}
}
}
}

Tester le Skill
Envoyez une commande de test dans votre plateforme de messagerie pour vérifier le fonctionnement :
Générer une image de présentation de produit e-commerce de style moderne et minimaliste, fond blanc, produit centré
Vérifiez si le Skill est correctement chargé :
openclaw skills list | grep nano-banana
openclaw skills test nano-banana-pro
💰 Optimisation des coûts : Nano Banana Pro propose un tarif unique de 0,05 $/image via APIYI (apiyi.com), quelle que soit la résolution. Si votre projet consomme plus de 5 000 images par jour en moyenne, vous pouvez bénéficier d'un bonus de recharge allant jusqu'à 20 %, ramenant le coût par image à seulement 0,04 $.
Comparaison des coûts et performances de l'API Nano Banana Pro
Choisir le bon mode d'accès est crucial pour une utilisation à long terme.

Le graphique SVG ci-dessus présente une comparaison détaillée des prix et des paramètres de performance. Donnée clé : en passant par APIYI pour accéder à Nano Banana Pro, le coût d'une seule image 4K n'est que de 0,05 $ (soit 20 % du prix officiel de 0,24 $). Pour les gros clients, ce coût peut descendre jusqu'à 0,04 $/image après bonus de recharge. La plateforme traite plus de 100 000 images par jour sans limite de concurrence.
Questions fréquemment posées
Q1 : Quelles sont les dépendances à installer pour connecter OpenClaw à Nano Banana Pro ?
Vous avez seulement besoin de Python 3 et de la bibliothèque requests. Nous passons par l'interface au format natif Gemini d'APIYI (apiyi.com) (/v1beta/models/{model}:generateContent), ce qui évite d'installer le SDK google-generativeai de Google. Un simple pip install requests suffit. Vous pouvez même tester directement avec une commande curl, sans aucune dépendance.
Q2 : Que faire si OpenClaw affiche un timeout lors de la génération d’images 4K ?
La génération d'images 4K par Nano Banana Pro prend environ 60 secondes. Dans les instructions d'utilisation de votre SKILL.md, il est conseillé d'utiliser exec timeout=120 ou exec timeout=180 pour l'appel du script, afin d'éviter que le délai d'expiration par défaut n'interrompe la tâche.
Q3 : Puis-je remplacer Nano Banana Pro par un autre modèle de génération d’images ?
Tout à fait. La plateforme APIYI (apiyi.com) supporte simultanément plusieurs modèles de génération d'images. Il vous suffit de modifier le paramètre model dans votre fichier generate.py pour changer de modèle ; le format de l'API est strictement identique, aucune autre modification de code n'est nécessaire.
Q4 : Comment garantir la sécurité de mon Skill OpenClaw ?
Voici trois mesures essentielles : premièrement, injectez votre clé API via des variables d'environnement et ne l'écrivez jamais en dur dans le script ; deuxièmement, n'utilisez que les Skills que vous avez créés vous-même et évitez d'installer des compétences de génération d'images de sources inconnues depuis ClawHub (plus de 820 compétences malveillantes y ont déjà été détectées) ; troisièmement, vérifiez régulièrement les journaux d'OpenClaw pour confirmer l'absence d'invocations suspectes.
Q5 : Quelles opérations de retouche d’image sont supportées et quel est le rendu ?
Nano Banana Pro supporte le remplacement d'arrière-plan, le transfert de style, l'ajout ou la suppression d'éléments, la composition multi-images (jusqu'à 14 images de référence), ainsi que le rendu de texte. Le rendu de texte est d'ailleurs son plus grand atout, avec un taux d'erreur sur une seule ligne inférieur à 10 %, ce qui surpasse largement DALL-E 3 et Midjourney. Via la plateforme APIYI, chaque fonction d'édition ne coûte que 0,05 $ et s'exécute en moyenne en 10 secondes.
Conclusion
Grâce aux 5 étapes de ce tutoriel, vous maîtrisez désormais le processus complet pour créer un Skill personnalisé OpenClaw exploitant l'API d'image Nano Banana Pro :
- Création du répertoire du Skill — Structure standard avec
SKILL.md+ dossierscripts/. - Rédaction du SKILL.md — Déclaration des dépendances, des variables d'environnement et des instructions d'utilisation.
- Développement du script de texte vers image — Appel de Nano Banana Pro via l'interface au format natif Gemini d'APIYI.
- Développement du script d'édition — Support de la composition multi-images, du remplacement d'arrière-plan et du transfert de style.
- Configuration et test — Paramétrage de la clé dans
openclaw.jsonet validation des fonctionnalités.
Nous vous recommandons de passer par APIYI (apiyi.com) pour accéder à Nano Banana Pro : vous bénéficierez d'un tarif unique de 0,05 $/image (soit 80 % de réduction par rapport au prix officiel de la 4K), d'une interface unifiée pour Claude, GPT-4o, DeepSeek et bien d'autres, ainsi que d'un essai gratuit sur imagen.apiyi.com.
Cet article a été rédigé par l'équipe technique d'APIYI, spécialisée dans l'intégration des grands modèles de langage et le développement d'Agents. Pour plus de guides techniques, visitez le centre d'aide d'APIYI : help.apiyi.com
