Замечали ли вы, что при вызове Nano Banana Pro API для генерации изображений в процессе временно появляются две картинки, прежде чем вы получите финальный результат? Это вовсе не ошибка. Так работает особенность «процесса мышления» (Thinking Process) модели Gemini 3 Pro Image. В этой статье мы подробно разберем технические принципы и практическую ценность этого механизма.
Основные выгоды: Прочитав этот материал, вы поймете, как устроены процессы рассуждения в Nano Banana Pro API, научитесь анализировать временные изображения для оптимизации промптов и узнаете, какую роль играет «подпись мышления» (Thought Signature) в многоэтапных диалогах.

Основная причина появления временных изображений в Nano Banana Pro API
Феномен временных изображений в Nano Banana Pro API связан с архитектурой режима рассуждений Gemini 3 Pro Image. Эта Большая языковая модель использует многошаговую стратегию для решения сложных задач по генерации контента, вместо того чтобы выдавать результат мгновенно.
| Характеристика | Описание | Техническая ценность |
|---|---|---|
| Режим мышления | Встроенный процесс логического вывода, нельзя отключить через API | Обеспечивает точное понимание сложных промптов |
| Генерация временных фото | Создает до 2-х тестовых изображений для проверки композиции и логики | Позволяет визуально отслеживать процесс рассуждения |
| Стратегия финализации | Последнее изображение из «процесса мышления» становится финальным результатом | Оптимизирует качество генерации и согласованность деталей |
| Подпись мышления | Зашифрованное представление процесса рассуждения для многоэтапных диалогов | Сохраняет контекст при последующем редактировании |
Официальное пояснение из документации
Согласно официальной документации Google AI, такое поведение Nano Banana Pro API является штатным:
Модель Gemini 3 Pro Image (Preview) является моделью с развитым мышлением. Она использует процесс рассуждения («мышление») для обработки сложных промптов. Эта функция включена по умолчанию и не может быть деактивирована через API. Модель может генерировать до двух временных изображений для тестирования композиции и логики. Последнее изображение в процессе «мышления» и является итоговым рендером.
Это означает, что когда вы вызываете модель Nano Banana Pro через платформу APIYI (apiyi.com), две временные картинки — это не системный сбой, а подтверждение того, что модель активно проверяет качество своей работы.
Технические принципы процесса рассуждения Nano Banana Pro
Как работают алгоритмы рассуждения
Процесс рассуждения в Nano Banana Pro API строится по следующему техническому маршруту:
- Этап анализа промпта: Модель первым делом разбирает текстовый промпт пользователя, выделяя ключевые элементы, требования к стилю и логику композиции.
- Предварительный тест композиции: Генерируется первое временное изображение для проверки базовой структуры и того, насколько уместно расположены основные элементы.
- Итерация логической оптимизации: На основе первого результата модель корректирует детали и создает второе временное изображение.
- Финальный рендеринг: Опираясь на опыт двух предыдущих тестов, система выдает итоговое высококачественное изображение (обычно это либо само второе изображение, либо его улучшенная версия).

Зачем нужны временные изображения?
Главная ценность механизма генерации временных изображений заключается в снижении процента брака при работе со сложными промптами. Традиционные модели генерации изображений обычно выдают результат «как есть», и если модель что-то не так поняла, пользователю приходится переписывать промпт. Nano Banana Pro же делает внутреннюю проверку и исправляет ошибки еще до того, как показать итоговую картинку.
| Обычные модели | Nano Banana Pro |
|---|---|
| Один вывод, при ошибке нужна ручная доработка | 2 внутренних теста, автоматическая оптимизация |
| Успешность сложных промптов ~60-70% | Успешность сложных промптов повышена до 85-90% |
| Процесс рассуждения скрыт | Временные фото доступны для анализа и отладки |
💡 Технический совет: На практике мы рекомендуем вызывать интерфейсы через платформу APIYI (apiyi.com). Она предоставляет единый API для Nano Banana Pro, DALL-E 3, Stable Diffusion и других популярных моделей. Это поможет быстро проверить гипотезы и сравнить эффективность рассуждений разных моделей.
Как посмотреть процесс рассуждения Nano Banana Pro
Доступ к деталям рассуждения через Python API
API Nano Banana Pro позволяет разработчикам получать доступ к «мыслям» модели и временным изображениям. Вот минималистичный пример реализации:
import google.generativeai as genai
# Настройка API-ключа и базового URL
genai.configure(
api_key="YOUR_API_KEY",
client_options={"api_endpoint": "https://vip.apiyi.com"}
)
# Вызов модели Nano Banana Pro
model = genai.GenerativeModel("gemini-3-pro-image-preview")
response = model.generate_content("Киберпанк-кот в солнцезащитных очках")
# Перебор частей ответа для извлечения процесса рассуждения
for part in response.parts:
if part.thought: # Проверка, является ли часть процессом рассуждения
if part.text:
print(f"Текст рассуждения: {part.text}")
elif image := part.as_image():
image.show() # Показ временного изображения
Посмотреть полный код (с сохранением сигнатуры рассуждения)
import google.generativeai as genai
import json
genai.configure(
api_key="YOUR_API_KEY",
client_options={"api_endpoint": "https://vip.apiyi.com"}
)
model = genai.GenerativeModel("gemini-3-pro-image-preview")
response = model.generate_content("Киберпанк-кот в солнцезащитных очках")
# Список для хранения сигнатур рассуждения (пригодится для правок)
thought_signatures = []
for part in response.parts:
if part.thought:
if part.text:
print(f"Текст рассуждения: {part.text}")
elif image := part.as_image():
image.show()
# Сохранение сигнатуры рассуждения
if hasattr(part, 'thought_signature'):
thought_signatures.append(part.thought_signature)
# Записываем сигнатуры в файл для использования в многоэтапных диалогах
with open("thought_signatures.json", "w") as f:
json.dump(thought_signatures, f)
print(f"Захвачено сигнатур рассуждения: {len(thought_signatures)}")
🚀 Быстрый старт: Для быстрого создания прототипа рекомендуем использовать платформу APIYI (apiyi.com). Там всё работает «из коробки», не нужно возиться со сложными конфигами — за 5 минут можно настроить интеграцию и увидеть полный лог рассуждений модели.
Пример того, что возвращает модель в процессе рассуждения
При обращении к response.parts вы увидите данные примерно такой структуры:
| Поле | Тип | Описание |
|---|---|---|
part.thought |
Boolean | Флаг, указывающий, что этот контент относится к этапу рассуждения |
part.text |
String | Текстовое пояснение логики и шагов модели |
part.as_image() |
Image Object | Промежуточное тестовое изображение |
part.thought_signature |
Encrypted String | Зашифрованный контекст рассуждения (нужен для последующего редактирования) |
Роль сигнатуры мышления (Thought Signature) в многоэтапных диалогах Nano Banana Pro
Что такое сигнатура мышления (Thought Signature)?
Сигнатура мышления — это зашифрованное представление процесса рассуждения, которое API Nano Banana Pro в обязательном порядке возвращает, начиная с серии Gemini 3. Она фиксирует внутреннюю логику того, как модель интерпретировала исходный промпт и генерировала изображение.

Ключевая роль при многоэтапном редактировании
При редактировании изображений или многораундовой генерации роль сигнатуры мышления становится критически важной:
| Сценарий | Без сигнатуры мышления | С сигнатурой мышления |
|---|---|---|
| Изменение локальных деталей | Модель заново анализирует всё изображение, может измениться композиция | Модель вносит точные правки на основе исходной логики рассуждений |
| Генерация вариаций в том же стиле | Консистентность стиля около 60-70% | Консистентность стиля достигает 90%+ |
| Эффективность пакетной правки | Каждый раз требуется полный цикл логического вывода | Повторное использование сигнатуры значительно сокращает время вычислений |
Механизм обязательной верификации API
Согласно официальной документации, начиная с Gemini 3 Pro Image, API проводит строгую проверку всех частей ответа модели. Отсутствие сигнатуры мышления приведет к ошибке 400:
Error 400: Missing thought signature in model parts
Это означает, что при использовании Nano Banana Pro API для многоэтапных диалогов или редактирования картинок вы обязаны:
- Сохранять
thought_signature, полученную при первой генерации. - Передавать эту сигнатуру в последующих запросах через соответствующие параметры.
- Следить за целостностью формата сигнатуры и не изменять её вручную.
💰 Оптимизация затрат: Для проектов, требующих частых итераций и правок, стоит рассмотреть вызов API через платформу APIYI (apiyi.com). Она предлагает гибкие тарифы и более выгодные цены, что отлично подходит для малых команд и индивидуальных разработчиков при проведении многораундовых тестов.
Расчет стоимости временных изображений в Nano Banana Pro
Взимается ли плата за временные изображения?
Согласно официальной документации по ценообразованию Google Cloud, временные изображения не тарифицируются. Вы платите только за итоговое сгенерированное изображение.
| Объект | Платно? | Пояснение |
|---|---|---|
| Временное фото 1 | ❌ Нет | Внутренний тест композиции, не включается в счет пользователя |
| Временное фото 2 | ❌ Нет | Этап оптимизации логики, не включается в счет |
| Итоговое изображение | ✅ Да | Оплачивается по стандартному тарифу |
| Хранение сигнатуры | ❌ Нет | Данные ответа API, никаких дополнительных сборов |
Сравнение стоимости с другими моделями генерации
Несмотря на то, что Nano Banana Pro выполняет внутри себя 2 дополнительных цикла генерации для тестов, реальная стоимость остается на уровне традиционных моделей или даже ниже (благодаря сокращению числа неудачных попыток, требующих перезапуска):
| Модель | Стоимость одной генерации | Среднее число попыток (сложный промпт) | Итоговая реальная стоимость |
|---|---|---|---|
| DALL-E 3 | $0.040 | 1.5 раза | $0.060 |
| Stable Diffusion XL | $0.020 | 2.0 раза | $0.040 |
| Nano Banana Pro | $0.035 | 1.1 раза | $0.039 |
🎯 Совет по выбору: Какую модель выбрать — зависит от ваших конкретных задач и требований к качеству. Мы рекомендуем провести реальные тесты на платформе APIYI (apiyi.com), чтобы подобрать оптимальный вариант. Платформа поддерживает единый интерфейс для вызова множества популярных моделей, что позволяет быстро сравнить стоимость и результат.
Часто задаваемые вопросы
Q1: Почему иногда я вижу только 1 временное изображение вместо 2?
Nano Banana Pro API динамически определяет количество тестов в зависимости от сложности промпта. Для простых промптов (например, «кошка») может потребоваться всего один тест, чтобы достичь стандарта качества, в то время как сложные композиции с множеством элементов (например, «ночной город в стиле киберпанк с летающими машинами на переднем плане и неоновыми вывесками на фоне») обычно проходят полный цикл из двух тестов. Этот механизм определяется моделью автоматически, и им нельзя управлять через параметры API.
Q2: Можно ли отключить процесс «размышления», чтобы ускорить генерацию?
Согласно официальной документации, функция размышления «включена по умолчанию и не может быть деактивирована через API». Это ключевая особенность архитектуры Gemini 3 Pro Image. Если вам нужна более высокая скорость генерации и вы готовы пожертвовать качеством, рассмотрите возможность использования Gemini 3 Flash Image или других моделей генерации изображений без режима размышления. На платформе APIYI apiyi.com можно быстро переключаться между разными моделями для проведения сравнительных тестов.
Q3: Влияет ли размер данных «подписи размышления» (thought signature) на скорость ответа API?
Подпись размышления — это зашифрованная и сжатая строка, размер которой обычно составляет от 200 до 500 байт. Её влияние на скорость ответа API ничтожно (задержка увеличивается менее чем на 10 мс). Напротив, сохранение этой подписи при многоэтапном редактировании позволяет сэкономить 30–50% времени инференса, так как модели не приходится заново анализировать логику композиции всего изображения.
Q4: Совпадает ли разрешение временных изображений с итоговым?
Временные изображения обычно имеют более низкое разрешение (около 60–80% от финального), чтобы ускорить процесс тестирования. Их основная задача — проверка макета композиции и логической обоснованности, а не предоставление высококачественного результата. Финальное отрендеренное изображение создается в полном разрешении с более тонкой проработкой деталей.
Q5: Как понять, какое изображение является финальным?
В ответе API последним объектом part.as_image() и будет финальное изображение. Вы также можете проверить свойство part.thought: для временных изображений значение thought равно True, а для финального — False или None. Рекомендуем добавить в код логику проверки, чтобы сохранять или отображать только те изображения, которые не относятся к стадии размышления.
Резюме
Появление двух временных изображений при вызове Nano Banana Pro API — это работа функции размышления модели Gemini 3 Pro Image, а не системная ошибка. Основные выводы:
- Механизм инференса: Модель генерирует до 2 временных изображений для проверки композиции и логики; последнее из них является финальным результатом.
- Расчет стоимости: Временные изображения бесплатны, вы платите только за финальный результат.
- Подпись размышления: Сохранение и передача подписи размышления в многоэтапных диалогах значительно повышает согласованность и эффективность редактирования.
- Нельзя отключить: Процесс размышления — это встроенная особенность модели, которую невозможно отключить через параметры API.
- Преимущество в качестве: Благодаря этому механизму вероятность успеха при работе со сложными промптами возрастает с 60–70% (у традиционных моделей) до 85–90%.
Рекомендуем воспользоваться платформой APIYI apiyi.com, чтобы лично оценить эффект «размышления» Nano Banana Pro и провести сравнительные тесты с другими моделями генерации изображений.
Автор: Техническая команда
Техническое сообщество: Посетите APIYI apiyi.com для получения документации и примеров лучших практик по API генерации изображений с помощью ИИ.
📚 Справочные материалы
-
Google AI Developers — Nano Banana Image Generation: официальная документация API
- Ссылка:
ai.google.dev/gemini-api/docs/image-generation - Описание: подробное техническое описание механизма процесса «рассуждения» (thinking process)
- Ссылка:
-
Google Cloud — Документация Gemini 3 Pro Image: документация платформы Vertex AI
- Ссылка:
docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/3-pro-image - Описание: руководство по развертыванию и настройке корпоративного уровня
- Ссылка:
-
Google Developers Blog — Обновления Gemini API: официальный блог
- Ссылка:
developers.googleblog.com/new-gemini-api-updates-for-gemini-3/ - Описание: новые возможности и лучшие практики для серии Gemini 3
- Ссылка:
-
Medium — Тестирование Gemini 3 Pro Image: технический обзор от сообщества
- Ссылка:
medium.com/google-cloud/testing-gemini-3-pro-image-f585236ae411 - Описание: примеры реального использования и анализ производительности
- Ссылка:
