Заметка автора: Подробный разбор принципов работы и способов использования 5 агентов фреймворка PaperBanana для научной графики. В сочетании с доступным решением Nano Banana Pro API это поможет исследователям эффективно создавать иллюстрации для статей.
Создание схем методологии и статистических графиков для научных работ всегда было одним из самых трудоемких процессов, требующих ручной работы. Фреймворк PaperBanana был создан именно для решения этой проблемы. Разработанный совместно Пекинским университетом и Google Cloud AI Research, он использует 5 специализированных AI-агентов, которые автоматически превращают текстовые описания в академические иллюстрации уровня топовых журналов.
Основная ценность: Прочитав эту статью, вы освоите полный рабочий процесс PaperBanana, поймете механизм взаимодействия 5 агентов и узнаете, как с помощью Nano Banana Pro API генерировать высококачественную графику по цене в 5 раз ниже официальной.

Ключевые особенности PaperBanana для научной графики
| Особенность | Описание | Ценность |
|---|---|---|
| Коллаборация 5 агентов | Четкое разделение ролей: Retriever, Planner, Stylist, Visualizer, Critic | Специализированная обработка на каждом этапе; качество значительно выше, чем при генерации одной моделью |
| 292 бенчмарка | На основе PaperBananaBench (статьи NeurIPS 2025) | 72.7% побед в слепом тестировании, превосходит человеческий базовый уровень |
| Двойной режим вывода | Изображения для методологии, код Matplotlib для графиков | Полное устранение проблемы «галлюцинаций» в числовых данных при визуализации |
| 3 цикла итерации | Агент Critic автоматически находит ошибки и направляет процесс перегенерации | Читаемость повышается на 12.9%, эстетичность — на 6.6% |
| На базе Nano Banana Pro | Рендеринг с помощью модели Gemini 3 Pro Image | Точная генерация форм, соединительных линий и специфических научных иконок |
Подробный разбор 5 агентов PaperBanana
Суть фреймворка PaperBanana заключается в разделении сложной задачи создания научной иллюстрации на 5 независимых специализированных агентов. Каждый агент отвечает за конкретный этап, и вместе они проходят путь от текстового описания до готовой к публикации графики. Преимущество такой многоагентной архитектуры в том, что за контроль качества на каждом шагу отвечает отдельная модель, а не одна LLM, пытающаяся сделать всё сразу.
В процессе работы 5 агентов PaperBanana следуют двухфазному процессу: «линейное планирование + итеративная оптимизация». На первом этапе Retriever, Planner и Stylist занимаются поиском референсов, планированием контента и настройкой стиля. На втором этапе Visualizer и Critic входят в цикл из 3 итераций, постепенно повышая точность, лаконичность, читаемость и эстетичность изображения.

Принципы работы 5 интеллектуальных агентов PaperBanana для научной графики
Агент Retriever: поиск референсов
Retriever — это отправная точка в создании графики через PaperBanana. Он ищет в предварительно созданной базе данных примеры иллюстраций, похожие на содержание вашей статьи, которые послужат шаблонами для дальнейшего планирования и выбора стиля. Эти примеры берутся из публикаций топовых конференций, что гарантирует соответствие стиля вывода стандартам академических изданий.
Агент Planner: планирование контента
Агент Planner отвечает за преобразование текстового описания методологии из статьи в детальный план иллюстрации. Он использует примеры, найденные агентом Retriever, для обучения в контексте (In-Context Learning), деконструируя сложные технические описания в структурированные схемы визуального макета — включая типы элементов, пространственные отношения, способы соединения и иерархию информации.
Агент Stylist: унификация стиля
Агент Stylist извлекает руководства по академическому стилю из глобальных примеров, гарантируя, что сгенерированные иллюстрации будут единообразны в цветовой гамме, выборе шрифтов, стиле иконок и т. д. Этот шаг особенно важен для сценариев, когда в статье содержится несколько иллюстраций — все они должны иметь единый визуальный стиль.
Агент Visualizer: рендеринг изображений
Visualizer — это основной движок генерации в PaperBanana, который использует модель Nano Banana Pro (Gemini 3 Pro Image) для рендеринга оптимизированных текстовых описаний в финальные изображения. Он способен точно создавать сложные элементы, характерные для научной графики:
- Структуры энкодер-декодер в схемах архитектур моделей
- Условные ветвления и циклы в блок-схемах алгоритмов
- Взаимосвязи модулей в схемах системных пайплайнов
- Специализированные научные иконки и символы
Агент Critic: контроль качества
Агент Critic автоматически проверяет качество иллюстрации после каждого раунда генерации, оценивая его по 4 критериям: соответствие содержанию, лаконичность информации, визуальная читаемость и эстетический эффект. Он выявляет такие распространенные проблемы, как смещение соединительных линий, неверное направление стрелок или перекрытие элементов, и формирует предложения по правкам для Visualizer, чтобы улучшить результат в следующей итерации.
| Агент | Обязанности | Входные данные | Выходные данные |
|---|---|---|---|
| Retriever | Поиск референсов | Текст методологии статьи | Набор похожих примеров графики |
| Planner | Планирование контента | Текст + Примеры референсов | Структурированный план иллюстрации |
| Stylist | Унификация стиля | Набор примеров референсов | Руководство по академическому стилю |
| Visualizer | Рендеринг изображений | План иллюстрации + Стиль | Сгенерированное изображение |
| Critic | Контроль качества | Изображение + Оригинальное описание | Советы по правкам и оценка |
🎯 Технический совет: Агент Visualizer в PaperBanana опирается на модель Nano Banana Pro для рендеринга. Если вам нужно протестировать Nano Banana Pro отдельно для создания научной графики, вы можете вызвать API этой модели через платформу APIYI (apiyi.com). Цена составляет всего $0.05 за изображение, что в 5 раз дешевле официальной стоимости.
Типы графики, поддерживаемые PaperBanana
Фреймворк PaperBanana поддерживает две основные категории академических иллюстраций, используя разные технологические подходы для обеспечения качества:
Методологические схемы (Methodology Diagrams)
Это самый распространенный и сложный тип иллюстраций в научных статьях. PaperBanana использует модель Nano Banana Pro для прямой генерации изображений, поддерживая следующие типы:
- Архитектура моделей: Визуализация классических структур, таких как Transformer, CNN, GAN и др.
- Блок-схемы алгоритмов: Процессы выполнения многошаговых алгоритмов и условные ветвления.
- Схемы системных пайплайнов: Потоки данных и процессы обработки в многомодульных системах.
- Фреймворки энкодер-декодер: Внутренняя структура моделей sequence-to-sequence.
Статистические графики (Statistical Plots)
Для статистических графиков, требующих точного выражения числовых значений, PaperBanana использует уникальную стратегию — вместо прямой генерации изображения создается исполняемый код Python Matplotlib. Такой подход полностью исключает проблему числовых галлюцинаций, свойственную ИИ-генераторам изображений, гарантируя, что каждая точка на гистограмме или графике будет абсолютно точной.
| Тип графики | Способ генерации | Ключевое преимущество | Сценарий использования |
|---|---|---|---|
| Архитектура модели | Генерация Nano Banana Pro | Точный рендеринг сложных структур | Раздел методологии в статьях по Deep Learning |
| Блок-схема алгоритма | Генерация Nano Banana Pro | Четкое выражение ветвлений | Статьи по разработке алгоритмов |
| Гистограммы/Графики | Генерация кода Matplotlib | Нулевая погрешность в данных | Демонстрация результатов экспериментов |
| Системный пайплайн | Генерация Nano Banana Pro | Ясные связи между модулями | Статьи по системному дизайну |

Быстрый старт с PaperBanana для создания научных иллюстраций
Минималистичный пример: генерация научной иллюстрации через Nano Banana Pro API
Ниже представлен самый простой способ вызова модели Nano Banana Pro через API для создания научной иллюстрации:
import openai
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com/v1" # Используем единый интерфейс APIYI
)
response = client.chat.completions.create(
model="nano-banana-pro",
messages=[{
"role": "user",
"content": "Generate a methodology diagram showing a Transformer encoder-decoder architecture with attention mechanism, suitable for an academic paper. Use clean lines, professional color scheme, and labeled components."
}]
)
print(response.choices[0].message.content)
Посмотреть полный код для генерации иллюстраций в стиле PaperBanana
import openai
from typing import Optional
def generate_scientific_figure(
description: str,
style: str = "academic",
diagram_type: str = "methodology",
max_tokens: int = 4096
) -> str:
"""
Использование Nano Banana Pro для генерации научных иллюстраций
Args:
description: Описание содержимого (лучше всего работает на английском)
style: Тип стиля - academic (академический)/minimal (минимализм)/detailed (детальный)
diagram_type: Тип диаграммы - methodology (методология)/flowchart (блок-схема)/architecture (архитектура)
max_tokens: Максимальное количество токенов на выходе
Returns:
Результат генерации иллюстрации
"""
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://vip.apiyi.com/v1" # Единый интерфейс APIYI
)
style_prompts = {
"academic": "professional academic paper style, clean layout, labeled components",
"minimal": "minimalist style, essential elements only, high contrast",
"detailed": "detailed illustration with annotations and legends"
}
prompt = f"""Generate a {diagram_type} diagram for a research paper:
{description}
Style requirements: {style_prompts.get(style, style_prompts['academic'])}
Output: High-resolution image suitable for publication."""
try:
response = client.chat.completions.create(
model="nano-banana-pro",
messages=[{"role": "user", "content": prompt}],
max_tokens=max_tokens
)
return response.choices[0].message.content
except Exception as e:
return f"Error: {str(e)}"
# Пример использования: генерация схемы архитектуры Transformer
result = generate_scientific_figure(
description="A Vision Transformer (ViT) architecture showing patch embedding, "
"multi-head self-attention blocks, and classification head. "
"Include skip connections and layer normalization.",
style="academic",
diagram_type="architecture"
)
print(result)
💰 Оптимизация затрат: Вызывая Nano Banana Pro API через APIYI (apiyi.com), одна научная иллюстрация обойдется вам всего в $0.05. Это почти на 80% дешевле официальной цены в $0.234. Для научных групп, которым нужно генерировать иллюстрации пачками, такая экономия будет очень ощутимой. Также рекомендуем онлайн-инструмент Image.apiyi.com — там можно быстро создавать иллюстрации вообще без кода.
Данные оценки качества научных иллюстраций PaperBanana
Фреймворк PaperBanana показал отличные результаты в бенчмарке PaperBananaBench. Этот тест включает 292 кейса, взятых из реальных иллюстраций к статьям NeurIPS 2025, и охватывает самые разные области исследований и стили оформления.
Ключевые показатели
| Критерий оценки | Результат PaperBanana | Прирост относительно базовой линии | Описание |
|---|---|---|---|
| Победы в «слепом» тесте | 72.7% | — | Рецензенты-люди в слепом тесте чаще выбирали результат PaperBanana |
| Лаконичность | Значительный рост | +37.2% | Удалены лишние элементы, плотность информации выше |
| Читаемость | Значительный рост | +12.9% | Четкая компоновка, понятная иерархия информации |
| Эстетичность | Значительный рост | +6.6% | Более профессиональная цветовая гамма и верстка |
| Точность содержания | 45.8% | +2.8% | Все еще ниже человеческого уровня (50%), есть куда расти |
Текущие ограничения
Несмотря на прорыв в автоматизации создания академических иллюстраций, у PaperBanana есть несколько нюансов, о которых стоит знать:
- Формат вывода: На данный момент поддерживаются только растровые изображения (PNG/JPG), векторная графика (SVG/PDF) пока недоступна.
- Пространственные связи: Модели иногда ошибаются в направлении соединительных линий или выравнивании стрелок.
- Локальная правка: После генерации нельзя поправить только одну деталь — придется перегенерировать всю картинку целиком.
- Точность содержания: Оценка в 45.8% говорит о том, что сложные схемы все же стоит перепроверять вручную.
🎯 Практический совет: Для важных статей рекомендуем генерировать несколько вариантов через PaperBanana, а затем выбирать лучший. Используя платформу APIYI (apiyi.com) для доступа к Nano Banana Pro, можно дешево создавать десятки вариантов, что сильно ускоряет процесс подбора идеальной иллюстрации.
Сравнение цен на создание научных иллюстраций с Nano Banana Pro
Nano Banana Pro — это базовая модель генерации изображений, на которой строится PaperBanana. При самостоятельном использовании этой модели для создания научных иллюстраций цены на разных платформах существенно различаются:
| Платформа | Цена за стандартное разрешение | Цена за 4K разрешение | Сценарии использования |
|---|---|---|---|
| Официальный API Google | $0.134 / изобр. | $0.234 / изобр. | Прямое подключение корпоративного уровня |
| APIYI apiyi.com | $0.05 / изобр. | $0.05 / изобр. | Исследовательские группы и индивидуальные разработчики (рекомендуется) |
| Подписка Google Pro | ~$0.007 / изобр. (при полной загрузке) | ~$0.007 / изобр. | Активные пользователи ($19.99 в месяц) |
Использование Nano Banana Pro через платформу APIYI не только обходится примерно в 5 раз дешевле (всего 20% от официальной цены), но и поддерживает формат интерфейса, совместимый с OpenAI. Это позволяет переключиться на него без изменения существующего кода. Для научных групп стоимость массовой генерации иллюстраций к статьям можно свести к минимуму.
Часто задаваемые вопросы
Q1: Открыт ли исходный код PaperBanana для использования?
Статья PaperBanana (arXiv: 2601.23265) и домашняя страница проекта уже опубликованы, репозиторий находится на GitHub: github.com/dwzhu-pku/PaperBanana. Сейчас код и наборы данных готовятся к релизу. Пока вы ждете открытия исходного кода, можно напрямую использовать Nano Banana Pro API для генерации научных иллюстраций, быстро подключившись через платформу APIYI (apiyi.com).
Q2: Какое качество иллюстраций выдает Nano Banana Pro?
Nano Banana Pro (Gemini 3 Pro Image) отлично показывает себя в создании научных иллюстраций. Модель поддерживает высокое разрешение (до 4K) и способна точно отрисовывать сложные архитектуры моделей, блок-схемы и научные иконки. В тестах PaperBanana в 72,7% случаев эксперты отдавали предпочтение результатам этой системы. Для достижения наилучшего эффекта рекомендуем использовать промпты на английском языке. Онлайн-инструмент Image.apiyi.com предлагает визуальный интерфейс без написания кода (zero-code), что удобно для быстрой проверки результатов.
Q3: Как быстро начать работу с Nano Banana Pro для создания иллюстраций?
Рекомендуем следующие шаги для быстрого старта:
- Зайдите на сайт APIYI (apiyi.com), зарегистрируйтесь и получите API-ключ вместе с бесплатными лимитами.
- Используйте примеры кода из этой статьи, просто подставив свой API-ключ.
- Или воспользуйтесь онлайн-инструментом Image.apiyi.com, чтобы генерировать изображения без написания кода.
- Советуем начать с простых схем архитектуры, а затем переходить к сложным многомодульным системным диаграммам.
Итоги
Основные особенности фреймворка для научной графики PaperBanana:
- Архитектура из 5 агентов: Retriever, Planner, Stylist, Visualizer и Critic распределяют задачи между собой, обеспечивая автоматическую генерацию научных иллюстраций на основе текста.
- Двухрежимный вывод: Иллюстрации методологии создаются с помощью генерации изображений Nano Banana Pro, а статистические графики — через код Matplotlib. Это позволяет полностью исключить «числовые галлюцинации».
- Лидерство в тестах: 72,7% побед в слепом тестировании, лаконичность графики выросла на 37,2%, однако точность содержания всё еще требует контроля со стороны человека.
- Бюджетное решение: Вызывая API Nano Banana Pro через платформу APIYI, вы платите всего $0,05 за каждое изображение — это в 5 раз дешевле официальных расценок.
PaperBanana представляет собой важное направление в развитии ИИ для помощи ученым. Хотя для полной автоматизации научной графики еще нужно преодолеть барьеры в понимании пространственных связей, фреймворк уже сейчас позволяет значительно сократить время, которое исследователи тратят на подготовку иллюстраций.
Рекомендуем попробовать возможности Nano Banana Pro для научной графики через APIYI (apiyi.com). Платформа предоставляет бесплатные лимиты и интерфейс, совместимый с OpenAI. Также можно воспользоваться онлайн-инструментом Image.apiyi.com для создания графики без написания кода.
📚 Справочные материалы
⚠️ Примечание по формату ссылок: Все внешние ссылки указаны в формате
Название: domain.com. Их удобно копировать, но они не являются кликабельными, чтобы избежать потери SEO-веса.
-
Главная страница проекта PaperBanana: Официальная страница с аннотацией статьи, примерами иллюстраций и демо-версией.
- Ссылка:
dwzhu-pku.github.io/PaperBanana/ - Описание: Узнайте больше о ключевых возможностях и последних достижениях фреймворка PaperBanana.
- Ссылка:
-
GitHub-репозиторий PaperBanana: Исходный код и наборы данных.
- Ссылка:
github.com/dwzhu-pku/PaperBanana - Описание: Доступ к исходному коду PaperBanana и бенчмарку PaperBananaBench.
- Ссылка:
-
Статья PaperBanana: Полный текст препринта на arXiv.
- Ссылка:
arxiv.org/abs/2601.23265 - Описание: Глубокое погружение в архитектуру из 5 агентов и методологию оценки.
- Ссылка:
-
Официальная документация Nano Banana Pro: Описание модели от Google DeepMind.
- Ссылка:
deepmind.google/models/gemini-image/pro/ - Описание: Технические характеристики Nano Banana Pro и параметры API.
- Ссылка:
-
Онлайн-генерация изображений Nano Banana Pro на APIYI: Инструмент для создания научной графики без кода.
- Ссылка:
Image.apiyi.com - Описание: Создавайте научные иллюстрации прямо в браузере без написания кода.
- Ссылка:
Автор: APIYI Team
Техническое обсуждение: Приглашаем поделиться опытом использования PaperBanana в комментариях. Больше новостей о моделях ИИ — в техническом сообществе APIYI на apiyi.com.
