Note de l'auteur : Découvrez en détail le fonctionnement des 5 agents intelligents du cadre d'illustration scientifique PaperBanana et comment les utiliser. Combiné à la solution API économique Nano Banana Pro, ce guide aide les chercheurs à générer efficacement des illustrations pour leurs articles.
Les illustrations méthodologiques et les graphiques statistiques dans les articles de recherche ont toujours été l'une des étapes manuelles les plus chronophages pour les chercheurs. Le cadre d'illustration scientifique PaperBanana a été créé précisément pour résoudre ce problème. Développé conjointement par l'Université de Pékin et Google Cloud AI Research, il convertit automatiquement les descriptions textuelles en illustrations académiques de qualité publication grâce à la collaboration de 5 agents AI spécialisés.
Valeur ajoutée : En lisant cet article, vous maîtriserez le flux de travail complet de PaperBanana, le mécanisme de collaboration de ses 5 agents, et apprendrez comment générer des illustrations académiques de haute qualité via l'API Nano Banana Pro à un prix jusqu'à 80 % inférieur au tarif officiel.

Points clés de l'illustration scientifique avec PaperBanana
| Point clé | Description | Valeur |
|---|---|---|
| Collaboration de 5 agents | Division claire des tâches entre Retriever, Planner, Stylist, Visualizer et Critic | Traitement spécialisé à chaque étape, qualité bien supérieure à une génération par modèle unique |
| 292 benchmarks d'évaluation | Basé sur PaperBananaBench avec des articles de NeurIPS 2025 | Taux de victoire de 72,7 % en test à l'aveugle, dépassant la référence humaine |
| Sortie en mode double | Images pour la méthodologie, code Matplotlib pour les graphiques statistiques | Élimine complètement les problèmes d'hallucinations numériques dans la visualisation de données |
| 3 cycles d'optimisation | L'agent Critic détecte automatiquement les erreurs et guide la régénération | Amélioration de la lisibilité de 12,9 % et de l'esthétique de 6,6 % |
| Propulsé par Nano Banana Pro | Rendu basé sur le modèle Gemini 3 Pro Image | Capacité de génération précise de formes, de lignes de connexion et d'icônes scientifiques |
Détails des 5 agents intelligents de PaperBanana
Le cœur du cadre PaperBanana réside dans la décomposition de la tâche complexe de génération d'illustrations académiques en 5 agents spécialisés et indépendants. Chaque agent est responsable d'une étape spécifique, collaborant pour transformer une description textuelle en une illustration prête pour la publication. L'avantage de cette architecture multi-agents est que chaque étape bénéficie d'un contrôle qualité dédié, plutôt que de dépendre d'un seul modèle pour l'ensemble des tâches.
En pratique, les 5 agents de PaperBanana collaborent selon un flux en deux phases : « planification linéaire + optimisation itérative ». La première phase est réalisée par le Retriever, le Planner et le Stylist pour la recherche de références, la planification du contenu et la définition du style. La seconde phase voit le Visualizer et le Critic entrer dans un cycle de 3 itérations pour améliorer progressivement la fidélité, la concision, la lisibilité et l'esthétique de l'illustration.

Fonctionnement des 5 agents intelligents de PaperBanana pour le dessin scientifique
Agent Retriever : Recherche de références
Le Retriever est le point de départ de PaperBanana. Il recherche dans une base de données de références pré-construite des exemples d'illustrations similaires au contenu de votre article, qui serviront de modèles pour la planification et le style. Ces exemples proviennent de publications de conférences de premier plan, garantissant que le style de sortie respecte les standards de l'édition académique.
Agent Planner : Planification du contenu
L'agent Planner est chargé de convertir les descriptions textuelles de la méthodologie de l'article en un plan d'illustration détaillé. Il utilise l'apprentissage en contexte (In-Context Learning) basé sur les exemples récupérés par le Retriever pour déconstruire des descriptions techniques complexes en schémas de mise en page visuelle structurés — incluant les types d'éléments, les relations spatiales, les modes de connexion et la hiérarchie de l'information.
Agent Stylist : Unification du style
L'agent Stylist extrait des guides de style académique à partir des exemples de référence globaux pour s'assurer que les illustrations générées conservent une cohérence au niveau de la palette de couleurs, du choix des polices et du style des icônes. Cette étape est cruciale lorsque l'article contient plusieurs illustrations : toutes doivent présenter un style visuel unifié.
Agent Visualizer : Rendu d'image
Le Visualizer est le moteur de génération central de PaperBanana. Il utilise le modèle Nano Banana Pro (Gemini 3 Pro Image) pour transformer les descriptions textuelles optimisées en images finales. Il est capable de générer avec précision les éléments complexes courants dans les schémas scientifiques :
- Cadres encodeur-décodeur dans les schémas d'architecture de modèles
- Branches conditionnelles et structures de boucles dans les organigrammes d'algorithmes
- Relations de connexion multi-modules dans les diagrammes de pipeline système
- Icônes et symboles scientifiques spécialisés
Agent Critic : Révision de la qualité
L'agent Critic examine automatiquement la qualité de l'illustration après chaque cycle de génération, en l'évaluant selon quatre dimensions : fidélité du contenu, concision de l'information, lisibilité visuelle et esthétique. Il identifie les problèmes courants tels que le mauvais alignement des lignes de connexion, les erreurs de direction des flèches ou les chevauchements d'éléments, et génère des suggestions de modification pour que le Visualizer puisse s'améliorer lors de l'itération suivante.
| Agent | Responsabilité | Entrée | Sortie |
|---|---|---|---|
| Retriever | Recherche de références | Texte de la méthodologie | Ensemble d'exemples similaires |
| Planner | Planification du contenu | Texte + Exemples de référence | Plan de structure de l'illustration |
| Stylist | Unification du style | Ensemble d'exemples | Guide de style académique |
| Visualizer | Rendu d'image | Plan + Guide de style | Image générée |
| Critic | Révision de la qualité | Image générée + Description originale | Suggestions de modification et score |
🎯 Conseil technique : L'agent Visualizer de PaperBanana s'appuie sur le modèle Nano Banana Pro pour le rendu d'image. Si vous avez besoin d'utiliser Nano Banana Pro de manière indépendante pour vos tests de dessin scientifique, vous pouvez appeler l'API de ce modèle via la plateforme APIYI (apiyi.com). Le prix est de seulement 0,05 $ par image, soit jusqu'à 80 % de réduction par rapport au tarif officiel.
Types d'illustrations supportés par PaperBanana
Le framework PaperBanana supporte deux grandes catégories d'illustrations académiques, utilisant des approches techniques différentes pour garantir la qualité :
Schémas de méthodologie (Methodology Diagrams)
Ce sont les illustrations les plus courantes et les plus complexes dans les articles de recherche. PaperBanana utilise le modèle Nano Banana Pro pour générer directement ces images, supportant les types suivants :
- Architectures de modèles : Visualisation de structures classiques comme Transformer, CNN, GAN, etc.
- Flux d'algorithmes : Étapes d'exécution et branches conditionnelles d'algorithmes complexes.
- Pipelines système : Flux de données et processus de traitement dans des systèmes multi-modules.
- Cadres Encodeur-Décodeur : Structure interne des modèles sequence-to-sequence.
Graphiques statistiques (Statistical Plots)
Pour les graphiques nécessitant une expression numérique précise, PaperBanana adopte une stratégie unique : au lieu de générer directement une image, il génère du code Python Matplotlib exécutable. Cette conception élimine totalement le problème d'hallucination numérique propre à la génération d'images par IA, garantissant que chaque point de données dans les histogrammes ou les graphiques linéaires est exact.
| Type d'illustration | Méthode de génération | Avantage clé | Scénario d'utilisation |
|---|---|---|---|
| Architecture de modèle | Génération d'image Nano Banana Pro | Rendu précis de structures complexes | Section méthodologie (Deep Learning) |
| Flux d'algorithme | Génération d'image Nano Banana Pro | Expression claire des conditions | Articles de conception d'algorithmes |
| Histogramme / Courbe | Génération de code Matplotlib | Zéro erreur numérique | Présentation des résultats expérimentaux |
| Pipeline système | Génération d'image Nano Banana Pro | Relations multi-modules claires | Articles de conception système |

Prise en main rapide de PaperBanana pour l'illustration scientifique
Exemple minimaliste : générer une illustration scientifique avec l'API Nano Banana Pro
Voici la manière la plus simple de générer une illustration scientifique en appelant l'API du modèle Nano Banana Pro :
import openai
client = openai.OpenAI(
api_key="VOTRE_CLÉ_API",
base_url="https://vip.apiyi.com/v1" # Utilisation de l'interface unifiée APIYI
)
response = client.chat.completions.create(
model="nano-banana-pro",
messages=[{
"role": "user",
"content": "Generate a methodology diagram showing a Transformer encoder-decoder architecture with attention mechanism, suitable for an academic paper. Use clean lines, professional color scheme, and labeled components."
}]
)
print(response.choices[0].message.content)
Voir le code complet pour générer des illustrations scientifiques de style PaperBanana
import openai
from typing import Optional
def generate_scientific_figure(
description: str,
style: str = "academic",
diagram_type: str = "methodology",
max_tokens: int = 4096
) -> str:
"""
Utilise Nano Banana Pro pour générer des illustrations scientifiques
Args:
description: Description du contenu de l'illustration (l'anglais donne les meilleurs résultats)
style: Type de style - academic/minimal/detailed
diagram_type: Type d'illustration - methodology/flowchart/architecture
max_tokens: Nombre maximum de tokens en sortie
Returns:
Le résultat de l'illustration générée
"""
client = openai.OpenAI(
api_key="VOTRE_CLÉ_API",
base_url="https://vip.apiyi.com/v1" # Interface unifiée APIYI
)
style_prompts = {
"academic": "professional academic paper style, clean layout, labeled components",
"minimal": "minimalist style, essential elements only, high contrast",
"detailed": "detailed illustration with annotations and legends"
}
prompt = f"""Generate a {diagram_type} diagram for a research paper:
{description}
Style requirements: {style_prompts.get(style, style_prompts['academic'])}
Output: High-resolution image suitable for publication."""
try:
response = client.chat.completions.create(
model="nano-banana-pro",
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens
)
return response.choices[0].message.content
except Exception as e:
return f"Erreur : {str(e)}"
# Exemple d'utilisation : générer un diagramme d'architecture Transformer
result = generate_scientific_figure(
description="A Vision Transformer (ViT) architecture showing patch embedding, "
"multi-head self-attention blocks, and classification head. "
"Include skip connections and layer normalization.",
style="academic",
diagram_type="architecture"
)
print(result)
💰 Optimisation des coûts : En passant par l'API Nano Banana Pro via APIYI (apiyi.com), chaque illustration scientifique ne coûte que 0,05 $, soit une économie de près de 80 % par rapport au tarif officiel de 0,234 $. Cet avantage tarifaire est particulièrement significatif pour les équipes de recherche ayant besoin de générer des illustrations par lots. Nous recommandons également l'outil en ligne Image.apiyi.com pour créer rapidement des illustrations scientifiques sans avoir à coder.
Données d'évaluation de PaperBanana
Le framework d'illustration scientifique PaperBanana affiche d'excellentes performances sur le benchmark PaperBananaBench. Ce benchmark comprend 292 cas de test, tous issus d'illustrations de publications de NeurIPS 2025, couvrant une grande variété de domaines de recherche et de styles graphiques.
Indicateurs d'évaluation clés
| Dimension d'évaluation | Performance PaperBanana | Amélioration vs Référence | Description |
|---|---|---|---|
| Taux de victoire (blind test) | 72,7 % | — | Les évaluateurs humains préfèrent PaperBanana lors des tests en aveugle |
| Simplicité | Amélioration notable | +37,2 % | Suppression des éléments redondants, densité d'information plus élevée |
| Lisibilité | Amélioration notable | +12,9 % | Mise en page claire, hiérarchie de l'information bien définie |
| Esthétique | Amélioration notable | +6,6 % | Choix de couleurs et mise en page plus professionnels |
| Fidélité du contenu | 45,8 % | +2,8 % | Reste inférieur au seuil humain de 50 %, marge de progression possible |
Limites actuelles
Bien que PaperBanana ait réalisé des avancées majeures dans le domaine de l'illustration académique automatisée, certaines limites subsistent :
- Format de sortie : Actuellement, seules les images matricielles (PNG/JPG) sont supportées ; les graphiques vectoriels éditables (SVG/PDF) ne le sont pas encore.
- Relations spatiales : Les modèles de langage éprouvent encore des difficultés à détecter les erreurs de relations spatiales, comme l'orientation des lignes de connexion ou l'alignement des flèches.
- Ajustements fins : Il est impossible de modifier localement une illustration après sa génération ; il faut régénérer l'image entière.
- Fidélité du contenu : Le score de fidélité de 45,8 % indique qu'une vérification humaine reste conseillée pour les schémas complexes.
🎯 Conseil pratique : Pour les illustrations cruciales de vos articles, nous vous suggérons de générer plusieurs versions avec PaperBanana avant de faire une sélection manuelle. En utilisant Nano Banana Pro via la plateforme APIYI (apiyi.com), vous pouvez générer des lots de variantes à moindre coût, réduisant ainsi considérablement le cycle de sélection.
Comparaison des tarifs pour l'illustration scientifique avec Nano Banana Pro
Nano Banana Pro est le modèle de génération d'images sous-jacent de PaperBanana pour l'illustration scientifique. Pour l'utilisation autonome de ce modèle afin de générer des illustrations de recherche, les différences de prix entre les plateformes sont significatives :
| Plateforme | Prix résolution standard | Prix résolution 4K | Cas d'utilisation |
|---|---|---|---|
| API officielle de Google | 0,134 $ / image | 0,234 $ / image | Besoins de connexion directe au niveau entreprise |
| APIYI apiyi.com | 0,05 $ / image | 0,05 $ / image | Équipes de recherche et développeurs individuels (recommandé) |
| Abonnement Google Pro | ~0,007 $ / image (utilisation maximale) | ~0,007 $ / image | Utilisateurs intensifs (19,99 $/mois) |
En utilisant l'API Nano Banana Pro via la plateforme APIYI, non seulement le prix est environ 20 % du tarif officiel, mais elle prend également en charge le format d'interface compatible OpenAI, ce qui permet de basculer sans modifier votre code existant. Pour les équipes de recherche, le coût de génération en masse d'illustrations pour les articles peut être maintenu à un niveau extrêmement bas.
Questions Fréquentes
Q1 : PaperBanana est-il actuellement disponible en open source pour l’illustration scientifique ?
L'article de PaperBanana (arXiv : 2601.23265) et la page d'accueil du projet sont publics, et le dépôt de code se trouve sur GitHub : github.com/dwzhu-pku/PaperBanana. Le code et les jeux de données sont actuellement en cours de préparation pour la publication. En attendant l'open source, vous pouvez utiliser directement l'API Nano Banana Pro pour générer vos illustrations de recherche, accessible rapidement via la plateforme APIYI (apiyi.com).
Q2 : Quelle est la qualité des illustrations scientifiques générées par Nano Banana Pro ?
Nano Banana Pro (Gemini 3 Pro Image) est très performant dans le contexte des illustrations scientifiques. Il prend en charge une sortie haute résolution (jusqu'à 4K) et peut restituer avec précision des architectures de modèles complexes, des schémas de flux et des icônes scientifiques. Dans l'évaluation de PaperBanana, les évaluateurs humains ont préféré les résultats du système dans 72,7 % des cas. Il est conseillé d'utiliser des invites (prompts) en anglais pour obtenir les meilleurs résultats. L'outil en ligne Image.apiyi.com offre une expérience visuelle sans code, idéale pour valider rapidement le rendu des illustrations.
Q3 : Comment commencer rapidement à utiliser Nano Banana Pro pour générer des illustrations scientifiques ?
Voici les étapes recommandées pour commencer rapidement :
- Visitez APIYI (apiyi.com) pour créer un compte, obtenir votre clé API et des crédits gratuits.
- Utilisez les exemples de code fournis dans cet article, remplacez la clé API et vous pourrez effectuer vos appels.
- Ou utilisez directement l'outil de génération en ligne Image.apiyi.com, sans avoir besoin d'écrire de code.
- Il est conseillé de tester d'abord avec un schéma d'architecture simple avant de passer à des diagrammes de systèmes multimodules complexes.
Résumé
Points clés du framework d'illustration scientifique PaperBanana :
- Architecture à 5 agents : Retriever, Planner, Stylist, Visualizer et Critic collaborent pour automatiser la génération d'illustrations académiques à partir de texte.
- Sortie en mode double : Les illustrations méthodologiques utilisent la génération d'images Nano Banana Pro, tandis que les graphiques statistiques sont générés par code Matplotlib, éliminant ainsi totalement les hallucinations numériques.
- Performances de pointe : Un taux de réussite de 72,7 % lors de tests à l'aveugle et une amélioration de 37,2 % de la concision, bien que la fidélité du contenu nécessite toujours une vérification humaine.
- Solution à bas coût : En passant par la plateforme APIYI pour appeler l'API Nano Banana Pro, chaque illustration ne coûte que 0,05 $, soit une réduction de 80 % par rapport au tarif officiel.
PaperBanana représente une avancée majeure dans l'assistance à la recherche par l'IA. Bien que l'automatisation complète des illustrations académiques doive encore surmonter des obstacles liés à la compréhension des relations spatiales, elle permet déjà de réduire considérablement le temps que les chercheurs consacrent à la création graphique.
Nous vous recommandons d'essayer rapidement les capacités d'illustration de Nano Banana Pro via APIYI (apiyi.com). La plateforme propose des crédits gratuits et une interface compatible OpenAI. Vous pouvez également utiliser l'outil en ligne Image.apiyi.com pour générer des images sans aucun code.
📚 Références
⚠️ Format des liens : Tous les liens externes utilisent le format
Nom de la ressource : domain.compour faciliter le copier-coller tout en évitant la perte de poids SEO.
-
Page d'accueil du projet PaperBanana : Page officielle de publication, comprenant le résumé de l'article, des exemples d'illustrations et une démo.
- Lien :
dwzhu-pku.github.io/PaperBanana/ - Description : Pour découvrir les capacités de base et les dernières avancées du framework PaperBanana.
- Lien :
-
Dépôt GitHub PaperBanana : Code source ouvert et jeux de données.
- Lien :
github.com/dwzhu-pku/PaperBanana - Description : Pour accéder au code source de PaperBanana et au benchmark d'évaluation PaperBananaBench.
- Lien :
-
Article PaperBanana : Texte intégral du préprint arXiv.
- Lien :
arxiv.org/abs/2601.23265 - Description : Pour approfondir la conception de l'architecture à 5 agents et la méthodologie d'évaluation.
- Lien :
-
Documentation officielle de Nano Banana Pro : Présentation du modèle par Google DeepMind.
- Lien :
deepmind.google/models/gemini-image/pro/ - Description : Pour comprendre les spécifications techniques et les paramètres de l'API Nano Banana Pro.
- Lien :
-
Génération d'images en ligne Nano Banana Pro via APIYI : Outil de génération d'illustrations scientifiques sans code.
- Lien :
Image.apiyi.com - Description : Générez vos illustrations scientifiques directement dans votre navigateur sans écrire une seule ligne de code.
- Lien :
Auteur : Équipe APIYI
Échanges techniques : N'hésitez pas à partager votre expérience d'utilisation de PaperBanana dans les commentaires. Pour plus d'actualités sur les modèles d'IA, visitez la communauté technique d'APIYI sur apiyi.com.
