API генерации изображений | Лучшие практики API

Освоение функции 14 эталонных изображений Gemini: Полное руководство по точности объектов и согласованности ролей

ОтAPIYI - Stable and affordable AI API 2026年 3月 7日

Примечание автора: Подробный анализ функции 14 эталонных изображений в Gemini 3.1 Flash Image Preview и Gemini 3 Pro Image Preview, освоение правильного использования и стратегий распределения квот для сохранения объектов и согласованности персонажей.

Модели изображений Gemini поддерживают смешанное использование до 14 эталонных изображений для генерации изображений, но многие разработчики не до конца понимают правила распределения этих 14 квот. В этой статье мы подробно разберем две ключевые возможности: сохранение объектов (Object Fidelity) и согласованность персонажей (Character Consistency), чтобы помочь вам правильно понять и эффективно использовать функцию Gemini с несколькими эталонными изображениями.

Ключевая ценность: Прочитав эту статью, вы освоите логику распределения квот для 14 эталонных изображений, сравнительный анализ различий между двумя моделями, а также лучшие практики для реальных проектов.

Ключевые аспекты функции 14 эталонных изображений Gemini

Google представила возможность смешанного использования нескольких эталонных изображений в моделях изображений серии Gemini 3, позволяя разработчикам передавать до 14 эталонных изображений в одном запросе на генерацию. Эти 14 изображений — не просто «максимальное количество»; они точно разделены на две функциональные категории, каждая из которых выполняет свои задачи по сохранению визуальных характеристик.

Ключевой аспект	Описание	Ценность
Общая квота 14 изображений	Максимальная сумма изображений для сохранения объектов + изображений для согласованности персонажей	Максимальная визуальная эталонная способность за один запрос
Сохранение объектов (Object Fidelity)	Обеспечивает высокую точность воспроизведения конкретных предметов в сгенерированном изображении	Изображения продуктов, демонстрация товаров, брендовые материалы
Согласованность персонажей (Character Consistency)	Сохраняет внешний вид персонажа неизменным в различных сценах	Последовательные истории, брендовый IP, маркетинг персонажей
Различные квоты для двух моделей	Существуют различия в пропорциях распределения для Flash и Pro	Выбор подходящей модели в зависимости от потребностей

Подробное описание двух основных функциональных категорий эталонных изображений Gemini

Сохранение объектов (Object Fidelity) означает высокоточное интегрирование конкретных предметов из эталонного изображения в конечное сгенерированное изображение. Например, если вы загрузите фотографию красных кроссовок, модель точно воспроизведет детали внешнего вида этой обуви в сгенерированном изображении сцены — включая цвет, форму, текстуру, расположение логотипа и т.д. Это крайне важно для таких сценариев, как создание изображений товаров для электронной коммерции, генерация брендовых материалов и т.п.

Согласованность персонажей (Character Consistency), в свою очередь, сфокусирована на людях или персонажах. Когда вы загружаете эталонное изображение персонажа, модель может генерировать новые изображения этого персонажа в различных фонах, позах и условиях освещения, сохраняя при этом согласованность ключевых визуальных элементов, таких как черты лица, прическа, одежда и т.д. Это очень полезно в таких сценариях, как иллюстрации для последовательных историй, маркетинг брендовых талисманов, дизайн игровых персонажей и т.п.

Понимание различий между этими двумя категориями является предпосылкой для правильного использования 14 эталонных изображений. Они не являются взаимоисключающими и могут использоваться в одном запросе, но каждая категория имеет свой независимый лимит по количеству.

Сравнение квот на эталонные изображения для двух моделей Gemini

Хотя Gemini 3.1 Flash Image Preview и Gemini 3 Pro Image Preview обе поддерживают функцию нескольких эталонных изображений, у них есть существенные различия в распределении квот.

Параметр	Gemini 3.1 Flash Image Preview	Gemini 3 Pro Image Preview
Общий лимит эталонных изображений	14 изображений	11 изображений
Лимит изображений для точности объектов	Максимум 10 изображений	Максимум 6 изображений
Лимит изображений для согласованности лиц	Максимум 4 изображения	Максимум 5 изображений
Приоритет точности объектов	Выше (10 изображений)	Ниже (6 изображений)
Приоритет согласованности лиц	Ниже (4 изображения)	Выше (5 изображений)
Скорость генерации	Выше (уровень Flash)	Ниже (уровень Pro)
Сценарии применения	Массовые изображения продуктов, сцены с несколькими объектами	Сюжеты с несколькими персонажами, сложное взаимодействие персонажей

Ключевые моменты в понимании распределения квот на эталонные изображения Gemini

Многие разработчики часто путают один ключевой момент: 14 эталонных изображений не означают, что их можно распределять произвольно. Например, для Gemini 3.1 Flash Image Preview:

Вы можете загрузить максимум 10 изображений для точности объектов + 4 изображения для согласованности лиц = 14 изображений.
Но вы не можете загрузить 14 изображений для точности объектов и 0 изображений для согласованности лиц (лимит для точности объектов — 10 изображений).
И не можете загрузить 0 изображений для точности объектов и 14 изображений для согласованности лиц (лимит для согласованности лиц — 4 изображения).

Другими словами, 14 изображений — это теоретический максимум, который достигается только при одновременном использовании обоих типов эталонных изображений, при этом каждый тип должен достичь своего лимита.

Аналогично для Gemini 3 Pro Image Preview: максимум 6 + 5 = 11 изображений, а не 14. Общий лимит для модели Pro фактически составляет 11 изображений.

Рекомендации по выбору: Если ваш сценарий в основном связан с демонстрацией продуктов (требуется много эталонных объектов), рекомендуем выбрать Gemini 3.1 Flash Image Preview, так как она предлагает больше квот для точности объектов. Если ваш сценарий сосредоточен на сюжетах с персонажами (требуется согласованность нескольких персонажей), 5 квот для персонажей в Gemini 3 Pro Image Preview будут более выгодными. Через APIYI apiyi.com вы можете одновременно протестировать обе модели и быстро сравнить результаты.

Быстрый старт с 14 эталонными изображениями Gemini

Простейший пример

Ниже представлен базовый код для генерации с использованием нескольких эталонных изображений в Gemini 3.1 Flash Image Preview:

from google import genai
from google.genai import types
from PIL import Image

client = genai.Client(
    api_key="YOUR_API_KEY",
    http_options={"base_url": "https://vip.apiyi.com/v1"}
)

# Загружаем эталонные изображения объектов (максимум 10)
shoe = Image.open("red-shoe.png")
bag = Image.open("leather-bag.png")

# Загружаем эталонные изображения персонажей (максимум 4)
character = Image.open("brand-mascot.png")

prompt = "Create a product showcase scene featuring this red shoe and leather bag, with the brand mascot character standing next to them in a modern retail environment."

response = client.models.generate_content(
    model="gemini-3.1-flash-image-preview",
    contents=[prompt, shoe, bag, character],
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
    ),
)

Посмотреть полный код для генерации с несколькими эталонными изображениями

from google import genai
from google.genai import types
from PIL import Image
import base64
import os

# Инициализируем клиент
client = genai.Client(
    api_key="YOUR_API_KEY",
    http_options={"base_url": "https://vip.apiyi.com/v1"}
)

def generate_with_references(
    prompt: str,
    object_images: list = None,
    character_images: list = None,
    aspect_ratio: str = "16:9",
    model: str = "gemini-3.1-flash-image-preview"
):
    """
    Генерирует изображение с использованием нескольких эталонных изображений

    Args:
        prompt: Промпт для генерации
        object_images: Список путей к изображениям для точности объектов (Flash до 10)
        character_images: Список путей к изображениям для согласованности лиц (Flash до 4)
        aspect_ratio: Соотношение сторон вывода
        model: Название модели
    """
    contents = [prompt]

    # Добавляем эталонные изображения объектов
    if object_images:
        for img_path in object_images:
            contents.append(Image.open(img_path))

    # Добавляем эталонные изображения персонажей
    if character_images:
        for img_path in character_images:
            contents.append(Image.open(img_path))

    response = client.models.generate_content(
        model=model,
        contents=contents,
        config=types.GenerateContentConfig(
            response_modalities=["TEXT", "IMAGE"],
            image_config=types.ImageConfig(
                aspect_ratio=aspect_ratio,
            ),
        ),
    )

    # Извлекаем сгенерированное изображение
    for part in response.candidates[0].content.parts:
        if part.inline_data and part.inline_data.mime_type.startswith("image/"):
            image_data = base64.b64decode(part.inline_data.data)
            with open("output.png", "wb") as f:
                f.write(image_data)
            print("Изображение сохранено: output.png")

# Пример использования: сценарий для электронной коммерции
generate_with_references(
    prompt="Профессиональная фотосъемка этих продуктов на минималистичном белом стенде",
    object_images=["shoe.png", "bag.png", "watch.png"],
    character_images=["model-person.png"],
    aspect_ratio="16:9"
)

Совет: Получите API-ключ через APIYI apiyi.com, чтобы быстро протестировать модели изображений Gemini. Платформа поддерживает унифицированный вызов API для Gemini 3.1 Flash Image Preview и Gemini 3 Pro Image Preview.

Сценарии применения эталонных изображений Gemini и оптимальные стратегии распределения квот

В разных бизнес-сценариях стратегии распределения 14 эталонных изображений могут сильно отличаться. Ниже представлены рекомендуемые конфигурации для 5 типичных сценариев:

Сценарий	Рекомендуемая модель	Количество объектных изображений	Количество изображений персонажей	Всего эталонных изображений	Описание
Коллекция товаров для электронной коммерции	Flash	8-10	0	8-10	Несколько товаров в одном кадре
Истории брендовых персонажей	Pro	2-3	4-5	6-8	Персонажи в разных приключениях
Продукт + амбассадор бренда	Flash	5-6	2-3	7-9	Персонаж держит/демонстрирует продукт
Дизайн игровых персонажей	Pro	3-4	4-5	7-9	Сцены взаимодействия нескольких персонажей
Подбор интерьера	Flash	8-10	0	8-10	Комбинации мебели/декора

Практика применения эталонных изображений Gemini в сценариях электронной коммерции

Электронная коммерция — это самый прямой сценарий применения функции нескольких эталонных изображений. Традиционно вам пришлось бы снимать сцены для каждого продукта отдельно, что дорого и затрудняет унификацию стиля. Используя способность Gemini сохранять объекты, вы можете использовать изображения нескольких продуктов на белом фоне в качестве эталонных и генерировать сцены в едином стиле за один раз.

Рекомендуется использовать Gemini 3.1 Flash Image Preview, поскольку он поддерживает до 10 эталонных изображений для сохранения объектов, чего достаточно для коллекции товаров одной категории. При этом скорость генерации уровня Flash лучше подходит для нужд массового производства.

Практика применения эталонных изображений Gemini в сценариях историй персонажей

Если вам нужно создать серию иллюстраций для историй бренд IP или игровых персонажей, ключевым требованием будет согласованность персонажей. Gemini 3 Pro Image Preview поддерживает до 5 эталонных изображений для согласованности персонажей, что позволяет одновременно поддерживать визуальную согласованность до 5 независимых персонажей.

Стоит отметить, что согласованность персонажей в настоящее время не является 100% идеальной. В официальной документации Google также указано: "character consistency is not always perfect between input images and generated output images". В реальном использовании рекомендуется:

Предоставлять четкие, фронтальные эталонные изображения персонажей с равномерным освещением.
В промпте четко описывать ключевые особенности каждого персонажа.
Проводить ручной отбор и доработку сгенерированных результатов.

Практический совет: Рекомендуется сначала провести небольшое тестирование через APIYI apiyi.com, чтобы убедиться, что эффект согласованности персонажей соответствует требованиям, а затем приступать к массовой генерации. Платформа предоставляет бесплатный тестовый лимит для быстрой проверки.

Технические характеристики и особенности эталонных изображений Gemini

Поддерживаемые соотношения сторон

Модели Gemini для генерации изображений поддерживают 14 соотношений сторон, охватывающих практически все распространённые сценарии использования:

Соотношение сторон	Типичное использование	Подходящие сценарии
1:1	Аватары для соцсетей, квадратные изображения товаров	Instagram, миниатюры товаров
16:9	Горизонтальный формат, иллюстрации для блогов	Баннеры для сайтов, заглавные изображения статей
9:16	Вертикальный формат, обои для телефонов	Xiaohongshu, обложки TikTok
4:3	Традиционное соотношение	Иллюстрации для PPT, традиционные постеры
3:2	Стандартное соотношение для фотографии	Предметная фотография, пейзажи
21:9	Сверхширокий формат	Кинопостеры, баннеры для сайтов
1:4 / 4:1	Экстремальные соотношения	Длинные изображения, инфографика

Ключевые ограничения при использовании эталонных изображений Gemini

В процессе разработки особенно важно учитывать следующие ограничения:

Квота — это жёсткий лимит: Превышение лимита по количеству объектов или согласованности лиц приведёт к ошибке API.
Качество изображения влияет на результат: Размытые или сильно заслонённые эталонные изображения снижают точность воспроизведения.
Согласованность лиц не гарантируется на 100%: Особенно при экстремальных изменениях позы или значительных различиях в условиях освещения.
Промпт должен дополнять: Эталонное изображение — это только визуальный ввод, в промпте необходимо чётко описывать содержимое изображения и ожидаемый эффект.
Механизм thoughtSignature: В диалоговом редактировании модель полагается на thoughtSignature из предыдущего раунда для понимания композиции изображения; при последовательном редактировании необходимо сохранять эту подпись.

Совет для разработчиков: APIYI (apiyi.com) поддерживает всю линейку моделей Gemini для работы с изображениями, включая gemini-3.1-flash-image-preview и gemini-3-pro-image-preview. Вы можете вызывать их через совместимый с OpenAI API интерфейс, без дополнительной адаптации.

Часто задаваемые вопросы

В1: Оба ли модели поддерживают 14 эталонных изображений?

Не совсем. 14 изображений — это общий лимит для Gemini 3.1 Flash Image Preview (10 объектов + 4 персонажа). Общий лимит для Gemini 3 Pro Image Preview на самом деле составляет 11 изображений (6 объектов + 5 персонажей). При выборе модели необходимо учитывать ваши конкретные требования к квоте.

В2: Можно ли использовать только изображения для точности объектов, не используя изображения для согласованности лиц?

Да, можно. Эти два типа эталонных изображений независимы, и вы можете использовать только один из них. Например, в сценариях электронной коммерции обычно требуются только изображения для точности объектов, без согласованности лиц. В этом случае модель Flash может принимать до 10 изображений объектов. Вы можете быстро протестировать различные конфигурации и их эффекты через APIYI (apiyi.com).

В3: Что делать, если согласованность лиц работает плохо?

Google официально признаёт, что согласованность лиц в настоящее время не является 100% надёжной. Рекомендуется: (1) использовать эталонные изображения высокого разрешения, снятые анфас; (2) подробно описывать характеристики персонажа в промпте; (3) генерировать несколько вариантов и отбирать их вручную; (4) попробовать одновременно протестировать модели Flash и Pro на APIYI (apiyi.com) и сравнить результаты согласованности.

В4: Как отличить изображения для точности объектов от изображений для согласованности лиц?

Ключевое различие заключается в семантике: изображения для точности объектов — это "предметы" (обувь, сумки, часы и т. д.), которые вы хотите точно воспроизвести в сгенерированном результате, а изображения для согласованности лиц — это "персонажи/люди", внешний вид которых вы хотите сохранить неизменным в разных сценах. При вызове API оба типа являются обычными входными изображениями, и модель понимает роль каждого изображения через описание в промпте. Рекомендуется чётко указывать в промпте такие отношения, как "эта обувь", "этот персонаж" и т. д.

Краткое содержание

Ключевые особенности функции Gemini с 14 эталонными изображениями:

Квота делится на две категории: Лимит в 14 изображений состоит из изображений для сохранения точности объектов и изображений для согласованности персонажей, у каждой категории свой независимый лимит.
Различия между двумя моделями: Flash больше ориентирован на точность объектов (10 изображений), а Pro — на согласованность персонажей (5 изображений).
Выбор зависит от сценария: Для демонстрации продуктов выбирайте Flash, для историй с персонажами — Pro, для смешанных сценариев распределяйте по мере необходимости.
Согласованность персонажей требует проверки: Не 100% идеально, рекомендуется сначала провести тестирование на небольших партиях, а затем генерировать массово.

Понимание логики распределения квот — ключ к эффективному использованию функции Gemini с несколькими эталонными изображениями. Рекомендуем быстро протестировать фактическую производительность моделей Flash и Pro через APIYI (apiyi.com). Платформа предоставляет бесплатную квоту и унифицированный интерфейс, что облегчает сравнение и выбор наиболее подходящего решения для вашего сценария.

Ссылки

Документация Google Gemini по генерации изображений: Официальное описание функции с несколькими эталонными изображениями
- Ссылка: ai.google.dev/gemini-api/docs/image-generation
- Описание: Содержит подробные спецификации API и примеры кода для 14 эталонных изображений.
Карточка модели Gemini 3.1 Flash Image Preview: Описание возможностей и ограничений модели
- Ссылка: deepmind.google/models/model-cards/gemini-3-1-flash-image/
- Описание: Технические характеристики и параметры производительности модели Flash для изображений.
Руководство разработчика Gemini 3: Полная документация по разработке моделей серии Gemini 3
- Ссылка: ai.google.dev/gemini-api/docs/gemini-3
- Описание: Руководство по разработке, охватывающее мультимодальные возможности для текста, изображений, видео и многого другого.

Автор: Техническая команда APIYI
Техническое общение: Приглашаем обсудить в комментариях приемы использования функции Gemini с несколькими эталонными изображениями. Дополнительные материалы доступны в Центре документации APIYI docs.apiyi.com.

APIYI - Stable and affordable AI API

Try AI Large Model https://api.apiyi.com for free
Stable and reliable AI LM API aggregation service, Get 300 Millions Tokens for Free~

API генерации изображений | Gemini API

Nano Banana Pro API где самая высокая скорость? Опубликованы данные сравнительного тестирования трех ведущих сервис-провайдеров
ОтAPIYI - Stable and affordable AI API 2026年 1月 19日

Скорость и разница в цене на Nano Banana Pro API — это ключевые показатели, на которые разработчики обращают внимание в первую очередь при выборе провайдера. На рынке представлено множество поставщиков Nano Banana Pro API, но их производительность и стоимость сильно разнятся. В этой статье мы на основе реальных данных сравним трех популярных провайдеров: fal.ai, KIE.ai…

Читайте далее Nano Banana Pro API где самая высокая скорость? Опубликованы данные сравнительного тестирования трех ведущих сервис-провайдеров
API генерации изображений | Flux API

3 шага для подключения API FLUX.2 Pro и Max: практическое руководство по самой мощной модели генерации изображений BFL
ОтAPIYI - Stable and affordable AI API 2026年 2月 6日

Серия FLUX.2 от Black Forest Labs стала одной из самых обсуждаемых моделей генерации изображений в 2025 году. Вопрос о том, как быстро подключить API FLUX.2 Pro и FLUX.2 Max, волнует многих разработчиков и креаторов. В этом руководстве мы дадим полную инструкцию, которая поможет вам выполнить интеграцию всего за 5 минут. Главная ценность: Прочитав эту статью,…

Читайте далее 3 шага для подключения API FLUX.2 Pro и Max: практическое руководство по самой мощной модели генерации изображений BFL
Gemini API | Лучшие практики API

3 способа решения проблем с распознаванием изображений Gemini при вызове через OpenClaw: распространенные ошибки режима совместимости с OpenAI и руководство по настройке нативного формата
ОтAPIYI - Stable and affordable AI API 2026年 3月 17日

title: "Решение ошибки Invalid JSON payload при использовании Gemini в OpenClaw" description: "Разбираемся, почему возникает ошибка Invalid JSON payload при работе с Gemini в OpenClaw, и предлагаем 3 проверенных способа исправления." Использование режима совместимости с OpenAI в OpenClaw для вызова моделей Gemini часто приводит к ошибкам при распознавании изображений — это одна из самых частых…

Читайте далее 3 способа решения проблем с распознаванием изображений Gemini при вызове через OpenClaw: распространенные ошибки режима совместимости с OpenAI и руководство по настройке нативного формата
API генерации изображений | Устранение проблем с AI-моделями

3 ключевых приема настройки для решения проблемы отключений Nano Banana Pro API по тайм-ауту
ОтAPIYI - Stable and affordable AI API 2026年 1月 20日

Часто сталкиваетесь с ошибкой HTTPSConnectionPool Read timed out при вызове Nano Banana Pro API для генерации 4K-изображений? Это происходит из-за того, что стандартные настройки тайм-аута HTTP-клиентов не рассчитаны на длительный инференс, характерный для Nano Banana Pro. В этой статье мы системно разберем 3 основные причины разрыва соединения и предложим оптимальные конфигурации тайм-аута для разных разрешений….

Читайте далее 3 ключевых приема настройки для решения проблемы отключений Nano Banana Pro API по тайм-ауту
Лучшие практики API | Тарификация и оптимизация затрат

Полное сравнение тарификации кэширования промптов GPT и Claude: 5 ключевых различий и реальное влияние на стоимость при наценке за запись 1.25x
ОтAPIYI - Stable and affordable AI API 2026年 5月 9日

Кэширование промптов (Prompt Caching) — это тема, которую в 2026 году не обойдет стороной ни один пользователь API больших языковых моделей. Если вы запускаете RAG-приложение с системным промптом на 8 тысяч токенов, разница в ежемесячном счете с включенным кэшированием и без него может превышать 10 раз. Однако многие разработчики, переключаясь между OpenAI и Anthropic, спотыкаются…

Читайте далее Полное сравнение тарификации кэширования промптов GPT и Claude: 5 ключевых различий и реальное влияние на стоимость при наценке за запись 1.25x
API генерации изображений | Лучшие практики API

Freepik Nano Banana Pro слишком дорого? Сравнение 3 бюджетных альтернатив, вызов API 4K-изображений со скидкой до 80%
ОтAPIYI - Stable and affordable AI API 2026年 1月 25日

Почему Nano Banana Pro от Freepik вызывает такие смешанные чувства? Nano Banana Pro (Google Gemini 3 Pro Image) — одна из самых мощных нейросетей для генерации изображений на сегодняшний день. Благодаря 94%-й точности рендеринга текста и поддержке нативного 4K-вывода, она великолепно справляется с коммерческими задачами: от создания продуктовых фото и постеров до архитектурной визуализации. Многие…

Читайте далее Freepik Nano Banana Pro слишком дорого? Сравнение 3 бюджетных альтернатив, вызов API 4K-изображений со скидкой до 80%