|

Полное руководство по подключению API изображений Nano Banana Pro через OpenClaw в 5 шагов

Многие разработчики хотят, чтобы их OpenClaw AI Agent мог автоматически генерировать изображения. В этой статье мы разберем, как за 5 шагов создать кастомный навык (Skill) для OpenClaw и подключить API генерации изображений Nano Banana Pro, реализовав полный рабочий процесс: от текстовой команды в чате до автоматического получения картинки.

Ключевая ценность: После прочтения вы освоите метод создания кастомных навыков в OpenClaw и научитесь через платформу APIYI подключать Nano Banana Pro для генерации изображений по тексту, их редактирования и пакетной обработки. Это наделит вашего AI-агента возможностями профессионального создания визуального контента.

openclaw-nano-banana-pro-image-api-tutorial-ru 图示


Обзор ключевых возможностей Nano Banana Pro API

Прежде чем приступать к интеграции, давайте разберемся, какие возможности Nano Banana Pro добавит вашему OpenClaw Agent.

Nano Banana Pro (официальное название Gemini 3 Pro Image Preview) — это профессиональная модель генерации изображений от Google DeepMind, построенная на базе Gemini 3 Pro. В индустрии она признана «лучшей моделью для создания изображений с корректным и четким читаемым текстом».

Технические параметры Nano Banana Pro

Возможность Параметр Описание
Рендеринг текста Ошибка < 10% Лидирующая в индустрии точность однострочного текста
Разрешение на выходе 1K / 2K / 4K Нативное высокое разрешение без необходимости постобработки
Эталонные изображения До 14 штук Поддержка синтеза нескольких изображений и согласованности персонажей
Согласованность лиц До 5 персонажей Сохранение черт лица персонажа в разных сценах
Режим мышления Thinking Process Визуализация логики построения сложных композиций
Привязка к поиску Google Search Генерация визуализаций на основе актуальных данных в реальном времени

🎯 Совет по подключению: Для официального доступа к Nano Banana Pro требуется привязка зарубежной карты Google Cloud, что довольно сложно. Мы рекомендуем использовать платформу APIYI (apiyi.com). Там действует единая цена $0.05 за изображение (это в 5 раз дешевле официальной цены за 4K), поддерживаются удобные способы оплаты, и зарубежная карта не требуется.


Архитектура интеграции Nano Banana Pro в OpenClaw Skill

Понимание общей архитектуры поможет вам правильно выполнить последующую настройку.

openclaw-nano-banana-pro-image-api-tutorial-ru 图示

Почему стоит выбрать подключение через APIYI

Параметр сравнения Напрямую через Google Через APIYI (apiyi.com)
Цена за 4K $0.24 / шт. $0.05 / шт. (скидка 80%)
Способы оплаты Зарубежная карта Криптовалюта / Локальные методы
Формат API Google Native SDK Совместимость с Gemini Native
Сеть Требуется VPN Прямое подключение
Лимиты (Concurrency) Ограничено квотами Без ограничений, RPM 2000+
Бонусы Нет До +20% при пополнении

Шаг 1: Создаем структуру каталогов для OpenClaw Skill

# Создаем структуру каталогов для Skill
mkdir -p ~/.openclaw/skills/nano-banana-pro/scripts
cd ~/.openclaw/skills/nano-banana-pro
touch SKILL.md scripts/generate.py scripts/edit.py

Шаг 2: Пишем файл определения SKILL.md

SKILL.md — это основной файл, по которому OpenClaw распознает и вызывает ваш Skill. Он состоит из метаданных YAML и инструкций Markdown.

---
name: nano-banana-pro
description: Generate and edit images using Nano Banana Pro (Gemini 3 Pro Image) via APIYI platform. Supports text-to-image, image editing, multi-image composition, and batch processing.
version: 1.0.0
metadata:
  openclaw:
    requires:
      env:
        - APIYI_API_KEY
      bins:
        - python3
    primaryEnv: APIYI_API_KEY
emoji: "🎨"
---

# Навык генерации изображений Nano Banana Pro

Возможности

  • Текст-в-изображение: создание высококачественных изображений (1K/2K/4K) на основе текстовых описаний.
  • Редактирование изображений: изменение, композиция и стилизация существующих изображений.
  • Пакетная обработка: поддержка массовой генерации и редактирования.

Как использовать

Генерация изображения

exec python3 scripts/generate.py --prompt "описание" --aspect-ratio "16:9" --resolution "2K"

Редактирование изображения

exec python3 scripts/edit.py --instruction "инструкция по редактированию" --image-url "URL-адрес изображения"

На что обратить внимание

  • Используйте нативный формат Gemini API: /v1beta/models/{model}:generateContent
  • Генерация 4K-изображений занимает около 60 секунд, поэтому рекомендуем установить exec timeout=120.
  • Для достижения наилучших результатов советуем использовать промпты на английском языке.

> 💡 **Совет для разработчиков**: После объявления `primaryEnv: APIYI_API_KEY`, OpenClaw автоматически внедрит API-ключ в среду выполнения Skill. Ваш скрипт сможет считывать его напрямую из переменных окружения, так что хардкодить ключ не придется.

---

## Шаг 3: Пишем скрипт для генерации изображений по тексту generate.py

Это основной скрипт, который отвечает за прием параметров от OpenClaw и вызов API Nano Banana Pro для генерации изображений.

### Быстрый тест через curl (нативный формат Gemini)

Сначала проверим доступность API с помощью команды curl — это самый быстрый способ тестирования:

```bash
curl -s -X POST \
  "https://api.apiyi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "Authorization: Bearer sk-ваш-API-ключ-APIYI" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        {"text": "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"}
      ]
    }],
    "generationConfig": {
      "responseModalities": ["IMAGE"],
      "imageConfig": {
        "aspectRatio": "16:9",
        "imageSize": "2K"
      }
    }
  }' | python3 -c "
import sys, json, base64
data = json.load(sys.stdin)
img_data = data['candidates'][0]['content']['parts'][0]['inlineData']['data']
sys.stdout.buffer.write(base64.b64decode(img_data))
" > gemini-native-image.png

После успешного выполнения в текущем каталоге будет создан файл gemini-native-image.png.

Python-скрипт (нативный формат Gemini)

#!/usr/bin/env python3
"""Скрипт генерации изображений по тексту для Nano Banana Pro - OpenClaw Skill (нативный формат Gemini)"""
import os, json, base64, argparse, requests
from datetime import datetime

API_KEY = os.environ.get("APIYI_API_KEY", "")
API_BASE = "https://api.apiyi.com/v1beta/models"  # Нативный интерфейс Gemini от APIYI

def generate_image(prompt, aspect_ratio="16:9", resolution="2K"):
    url = f"{API_BASE}/gemini-3-pro-image-preview:generateContent"
    headers = {
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json"
    }
    data = {
        "contents": [{"parts": [{"text": prompt}]}],
        "generationConfig": {
            "responseModalities": ["IMAGE"],
            "imageConfig": {
                "aspectRatio": aspect_ratio,
                "imageSize": resolution
            }
        }
    }
    response = requests.post(url, headers=headers, json=data, timeout=120)
    response.raise_for_status()
    result = response.json()

    # Нативный формат Gemini: извлекаем inlineData из candidates
    parts = result["candidates"][0]["content"]["parts"]
    for part in parts:
        if "inlineData" in part:
            img_bytes = base64.b64decode(part["inlineData"]["data"])
            filename = f"nano_banana_{datetime.now().strftime('%Y%m%d_%H%M%S')}.png"
            with open(filename, "wb") as f:
                f.write(img_bytes)
            print(f"Изображение создано: {filename} ({len(img_bytes)/1024:.1f} KB)")
            return filename
    print("Не удалось извлечь данные изображения")
    return None

if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--prompt", required=True)
    parser.add_argument("--aspect-ratio", default="16:9")
    parser.add_argument("--resolution", default="2K", help="Разрешение: 1K/2K/4K")
    args = parser.parse_args()
    generate_image(args.prompt, args.aspect_ratio, args.resolution)

🚀 Быстрый старт: Приведенный выше код использует нативный интерфейс Gemini от APIYI (apiyi.com). Эндпоинт: /v1beta/models/{model}:generateContent. Структура ответа полностью совпадает с официальной от Google. Просто создайте API-ключ в консоли APIYI: api.apiyi.com и приступайте к работе.


Шаг 4: Пишем скрипт для редактирования изображений edit.py

Nano Banana Pro умеет не только генерировать изображения, но и редактировать уже существующие.

#!/usr/bin/env python3
"""Скрипт редактирования изображений для Nano Banana Pro - OpenClaw Skill (нативный формат Gemini)"""
import os, json, base64, argparse, requests
from datetime import datetime

API_KEY = os.environ.get("APIYI_API_KEY", "")
API_BASE = "https://api.apiyi.com/v1beta/models"

def edit_image(instruction, image_url, extra_images=None):
    url = f"{API_BASE}/gemini-3-pro-image-preview:generateContent"
    headers = {"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"}

    # Формируем мультимодальные части (parts) в нативном формате Gemini
    parts = [{"text": instruction}]
    # Преобразуем URL изображения в данные base64
    img_resp = requests.get(image_url, timeout=30)
    parts.append({"inlineData": {"mimeType": "image/png",
                                  "data": base64.b64encode(img_resp.content).decode()}})
    if extra_images:  # Поддержка композиции из нескольких изображений (до 14 эталонных изображений)
        for img_url in extra_images[:13]:
            r = requests.get(img_url, timeout=30)
            parts.append({"inlineData": {"mimeType": "image/png",
                                          "data": base64.b64encode(r.content).decode()}})

    data = {
        "contents": [{"parts": parts}],
        "generationConfig": {"responseModalities": ["IMAGE"]}
    }
    response = requests.post(url, headers=headers, json=data, timeout=120)
    response.raise_for_status()
    result_parts = response.json()["candidates"][0]["content"]["parts"]
    for part in result_parts:
        if "inlineData" in part:
            filename = f"edited_{datetime.now().strftime('%Y%m%d_%H%M%S')}.png"
            with open(filename, "wb") as f:
                f.write(base64.b64decode(part["inlineData"]["data"]))
            print(f"Редактирование завершено: {filename}")
            return filename
    return None

if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--instruction", required=True)
    parser.add_argument("--image-url", required=True)
    parser.add_argument("--extra-images", nargs="*")
    args = parser.parse_args()
    edit_image(args.instruction, args.image_url, args.extra_images)

Возможности редактирования изображений

Тип редактирования Пример инструкции Время обработки
Замена фона "Remove background and add sunset" ~10 сек
Смена стиля "Convert to anime style" ~15 сек
Добавление элементов "Add sunglasses to the person" ~10 сек
Композиция из нескольких фото "Combine these logos and add…" ~20 сек
Добавление текста "Add title text: Hello World" ~10 сек
Цветокоррекция "Make the image warmer, increase contrast" ~8 сек

Шаг 5: Настройка и тестирование OpenClaw

Настройка API-ключа

Добавьте конфигурацию Skill в файл настроек OpenClaw ~/.openclaw/openclaw.json:

{
  "skills": {
    "entries": {
      "nano-banana-pro": {
        "enabled": true,
        "apiKey": "sk-ваш-API-ключ-APIYI"
      }
    }
  }
}

openclaw-nano-banana-pro-image-api-tutorial-ru 图示

Тестирование Skill

Отправьте тестовую команду в мессенджере для проверки работы:

Сгенерируй изображение товара для маркетплейса в стиле современный минимализм, белый фон, товар по центру

Убедитесь, что Skill загружен правильно:

openclaw skills list | grep nano-banana
openclaw skills test nano-banana-pro

💰 Оптимизация затрат: Nano Banana Pro через APIYI (apiyi.com) стоит фиксированные $0.05 за изображение, независимо от разрешения. Если ваш проект потребляет более 5000 изображений в день, можно получить бонус до 20% при пополнении, что снизит стоимость до $0.04 за штуку.


Сравнение стоимости и производительности Nano Banana Pro API

Выбор правильного способа подключения критически важен для долгосрочного использования.

openclaw-nano-banana-pro-image-api-tutorial-ru 图示

На графике выше представлено детальное сравнение цен и технических характеристик. Ключевой вывод: при использовании Nano Banana Pro через APIYI стоимость одного 4K-изображения составляет всего $0.05 (в 5 раз дешевле официальных $0.24). Для крупных клиентов с учетом бонусов при пополнении цена падает до $0.04 за штуку. Платформа стабильно обрабатывает более 100 000 запросов в день без ограничений на количество одновременных запросов.


Часто задаваемые вопросы

Q1: Какие зависимости нужно установить для подключения OpenClaw к Nano Banana Pro?

Вам понадобятся только Python 3 и библиотека requests. Мы используем нативный интерфейс формата Gemini от APIYI (apiyi.com) по адресу /v1beta/models/{model}:generateContent, поэтому устанавливать SDK от Google (google-generativeai) не нужно. Просто выполните pip install requests. Также вы можете протестировать всё через обычный curl — для этого вообще не нужны никакие зависимости.

Q2: Что делать, если OpenClaw выдает ошибку тайм-аута при генерации 4K-изображений?

Генерация 4K-изображений в Nano Banana Pro занимает около 60 секунд. В инструкции по использованию в SKILL.md мы рекомендуем вызывать скрипт в OpenClaw с параметром exec timeout=120 или exec timeout=180. Это предотвратит прерывание задачи из-за стандартного тайм-аута.

Q3: Можно ли заменить Nano Banana Pro другой моделью генерации изображений?

Да, конечно. Платформа APIYI (apiyi.com) поддерживает множество различных моделей генерации изображений. Вам достаточно просто изменить параметр model в файле generate.py. Формат API полностью идентичен, так что другой код править не придется.

Q4: Как обеспечить безопасность моего OpenClaw Skill?

Есть три ключевых правила: во-первых, передавайте API-ключ через переменные окружения, никогда не прописывайте его прямо в коде скрипта. Во-вторых, используйте только те навыки (Skills), которые создали сами — избегайте установки сомнительных навыков из ClawHub (там уже обнаружили более 820 вредоносных скриптов). В-третьих, периодически проверяйте логи OpenClaw на предмет подозрительных вызовов.

Q5: Какие возможности редактирования изображений поддерживаются и насколько они хороши?

Nano Banana Pro поддерживает замену фона, перенос стиля, добавление или удаление элементов, композицию из нескольких изображений (до 14 эталонных изображений), рендеринг текста и многое другое. Работа с текстом — его главное преимущество: процент ошибок в одной строке текста составляет менее 10%, что значительно лучше показателей DALL-E 3 и Midjourney. Через платформу APIYI одна операция редактирования стоит всего $0.05 и занимает в среднем 10 секунд.


Итоги

Пройдя эти 5 шагов, вы полностью освоили процесс создания кастомного навыка (Skill) для OpenClaw для работы с API изображений Nano Banana Pro:

  1. Создание структуры Skill — стандартная папка с SKILL.md и директорией scripts/.
  2. Написание SKILL.md — описание зависимостей, переменных окружения и команд вызова.
  3. Скрипт текст-в-изображение — вызов Nano Banana Pro через нативный интерфейс Gemini на APIYI.
  4. Скрипт редактирования — поддержка композиции нескольких фото, замены фона и стилизации.
  5. Настройка и тест — прописывание ключа в openclaw.json и проверка работы.

Мы рекомендуем использовать Nano Banana Pro через APIYI (apiyi.com): здесь действует единая цена $0.05 за изображение (в 5 раз дешевле официальной цены за 4K), предоставляется единый интерфейс для Claude, GPT-4o, DeepSeek и других моделей, а оценить качество генерации можно бесплатно на imagen.apiyi.com.


Статья подготовлена технической командой APIYI. Мы пишем о практике внедрения API больших языковых моделей и разработке агентов. Больше руководств ищите в справочном центре APIYI: help.apiyi.com

Похожие записи