Примечание автора: Подробный анализ функции 14 эталонных изображений в Gemini 3.1 Flash Image Preview и Gemini 3 Pro Image Preview, освоение правильного использования и стратегий распределения квот для сохранения объектов и согласованности персонажей.
Модели изображений Gemini поддерживают смешанное использование до 14 эталонных изображений для генерации изображений, но многие разработчики не до конца понимают правила распределения этих 14 квот. В этой статье мы подробно разберем две ключевые возможности: сохранение объектов (Object Fidelity) и согласованность персонажей (Character Consistency), чтобы помочь вам правильно понять и эффективно использовать функцию Gemini с несколькими эталонными изображениями.
Ключевая ценность: Прочитав эту статью, вы освоите логику распределения квот для 14 эталонных изображений, сравнительный анализ различий между двумя моделями, а также лучшие практики для реальных проектов.

Ключевые аспекты функции 14 эталонных изображений Gemini
Google представила возможность смешанного использования нескольких эталонных изображений в моделях изображений серии Gemini 3, позволяя разработчикам передавать до 14 эталонных изображений в одном запросе на генерацию. Эти 14 изображений — не просто «максимальное количество»; они точно разделены на две функциональные категории, каждая из которых выполняет свои задачи по сохранению визуальных характеристик.
| Ключевой аспект | Описание | Ценность |
|---|---|---|
| Общая квота 14 изображений | Максимальная сумма изображений для сохранения объектов + изображений для согласованности персонажей | Максимальная визуальная эталонная способность за один запрос |
| Сохранение объектов (Object Fidelity) | Обеспечивает высокую точность воспроизведения конкретных предметов в сгенерированном изображении | Изображения продуктов, демонстрация товаров, брендовые материалы |
| Согласованность персонажей (Character Consistency) | Сохраняет внешний вид персонажа неизменным в различных сценах | Последовательные истории, брендовый IP, маркетинг персонажей |
| Различные квоты для двух моделей | Существуют различия в пропорциях распределения для Flash и Pro | Выбор подходящей модели в зависимости от потребностей |
Подробное описание двух основных функциональных категорий эталонных изображений Gemini
Сохранение объектов (Object Fidelity) означает высокоточное интегрирование конкретных предметов из эталонного изображения в конечное сгенерированное изображение. Например, если вы загрузите фотографию красных кроссовок, модель точно воспроизведет детали внешнего вида этой обуви в сгенерированном изображении сцены — включая цвет, форму, текстуру, расположение логотипа и т.д. Это крайне важно для таких сценариев, как создание изображений товаров для электронной коммерции, генерация брендовых материалов и т.п.
Согласованность персонажей (Character Consistency), в свою очередь, сфокусирована на людях или персонажах. Когда вы загружаете эталонное изображение персонажа, модель может генерировать новые изображения этого персонажа в различных фонах, позах и условиях освещения, сохраняя при этом согласованность ключевых визуальных элементов, таких как черты лица, прическа, одежда и т.д. Это очень полезно в таких сценариях, как иллюстрации для последовательных историй, маркетинг брендовых талисманов, дизайн игровых персонажей и т.п.
Понимание различий между этими двумя категориями является предпосылкой для правильного использования 14 эталонных изображений. Они не являются взаимоисключающими и могут использоваться в одном запросе, но каждая категория имеет свой независимый лимит по количеству.
Сравнение квот на эталонные изображения для двух моделей Gemini
Хотя Gemini 3.1 Flash Image Preview и Gemini 3 Pro Image Preview обе поддерживают функцию нескольких эталонных изображений, у них есть существенные различия в распределении квот.

| Параметр | Gemini 3.1 Flash Image Preview | Gemini 3 Pro Image Preview |
|---|---|---|
| Общий лимит эталонных изображений | 14 изображений | 11 изображений |
| Лимит изображений для точности объектов | Максимум 10 изображений | Максимум 6 изображений |
| Лимит изображений для согласованности лиц | Максимум 4 изображения | Максимум 5 изображений |
| Приоритет точности объектов | Выше (10 изображений) | Ниже (6 изображений) |
| Приоритет согласованности лиц | Ниже (4 изображения) | Выше (5 изображений) |
| Скорость генерации | Выше (уровень Flash) | Ниже (уровень Pro) |
| Сценарии применения | Массовые изображения продуктов, сцены с несколькими объектами | Сюжеты с несколькими персонажами, сложное взаимодействие персонажей |
Ключевые моменты в понимании распределения квот на эталонные изображения Gemini
Многие разработчики часто путают один ключевой момент: 14 эталонных изображений не означают, что их можно распределять произвольно. Например, для Gemini 3.1 Flash Image Preview:
- Вы можете загрузить максимум 10 изображений для точности объектов + 4 изображения для согласованности лиц = 14 изображений.
- Но вы не можете загрузить 14 изображений для точности объектов и 0 изображений для согласованности лиц (лимит для точности объектов — 10 изображений).
- И не можете загрузить 0 изображений для точности объектов и 14 изображений для согласованности лиц (лимит для согласованности лиц — 4 изображения).
Другими словами, 14 изображений — это теоретический максимум, который достигается только при одновременном использовании обоих типов эталонных изображений, при этом каждый тип должен достичь своего лимита.
Аналогично для Gemini 3 Pro Image Preview: максимум 6 + 5 = 11 изображений, а не 14. Общий лимит для модели Pro фактически составляет 11 изображений.
Рекомендации по выбору: Если ваш сценарий в основном связан с демонстрацией продуктов (требуется много эталонных объектов), рекомендуем выбрать Gemini 3.1 Flash Image Preview, так как она предлагает больше квот для точности объектов. Если ваш сценарий сосредоточен на сюжетах с персонажами (требуется согласованность нескольких персонажей), 5 квот для персонажей в Gemini 3 Pro Image Preview будут более выгодными. Через APIYI apiyi.com вы можете одновременно протестировать обе модели и быстро сравнить результаты.
Быстрый старт с 14 эталонными изображениями Gemini
Простейший пример
Ниже представлен базовый код для генерации с использованием нескольких эталонных изображений в Gemini 3.1 Flash Image Preview:
from google import genai
from google.genai import types
from PIL import Image
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
# Загружаем эталонные изображения объектов (максимум 10)
shoe = Image.open("red-shoe.png")
bag = Image.open("leather-bag.png")
# Загружаем эталонные изображения персонажей (максимум 4)
character = Image.open("brand-mascot.png")
prompt = "Create a product showcase scene featuring this red shoe and leather bag, with the brand mascot character standing next to them in a modern retail environment."
response = client.models.generate_content(
model="gemini-3.1-flash-image-preview",
contents=[prompt, shoe, bag, character],
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
),
)
Посмотреть полный код для генерации с несколькими эталонными изображениями
from google import genai
from google.genai import types
from PIL import Image
import base64
import os
# Инициализируем клиент
client = genai.Client(
api_key="YOUR_API_KEY",
http_options={"base_url": "https://vip.apiyi.com/v1"}
)
def generate_with_references(
prompt: str,
object_images: list = None,
character_images: list = None,
aspect_ratio: str = "16:9",
model: str = "gemini-3.1-flash-image-preview"
):
"""
Генерирует изображение с использованием нескольких эталонных изображений
Args:
prompt: Промпт для генерации
object_images: Список путей к изображениям для точности объектов (Flash до 10)
character_images: Список путей к изображениям для согласованности лиц (Flash до 4)
aspect_ratio: Соотношение сторон вывода
model: Название модели
"""
contents = [prompt]
# Добавляем эталонные изображения объектов
if object_images:
for img_path in object_images:
contents.append(Image.open(img_path))
# Добавляем эталонные изображения персонажей
if character_images:
for img_path in character_images:
contents.append(Image.open(img_path))
response = client.models.generate_content(
model=model,
contents=contents,
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"],
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
),
),
)
# Извлекаем сгенерированное изображение
for part in response.candidates[0].content.parts:
if part.inline_data and part.inline_data.mime_type.startswith("image/"):
image_data = base64.b64decode(part.inline_data.data)
with open("output.png", "wb") as f:
f.write(image_data)
print("Изображение сохранено: output.png")
# Пример использования: сценарий для электронной коммерции
generate_with_references(
prompt="Профессиональная фотосъемка этих продуктов на минималистичном белом стенде",
object_images=["shoe.png", "bag.png", "watch.png"],
character_images=["model-person.png"],
aspect_ratio="16:9"
)
Совет: Получите API-ключ через APIYI apiyi.com, чтобы быстро протестировать модели изображений Gemini. Платформа поддерживает унифицированный вызов API для Gemini 3.1 Flash Image Preview и Gemini 3 Pro Image Preview.
Сценарии применения эталонных изображений Gemini и оптимальные стратегии распределения квот
В разных бизнес-сценариях стратегии распределения 14 эталонных изображений могут сильно отличаться. Ниже представлены рекомендуемые конфигурации для 5 типичных сценариев:
| Сценарий | Рекомендуемая модель | Количество объектных изображений | Количество изображений персонажей | Всего эталонных изображений | Описание |
|---|---|---|---|---|---|
| Коллекция товаров для электронной коммерции | Flash | 8-10 | 0 | 8-10 | Несколько товаров в одном кадре |
| Истории брендовых персонажей | Pro | 2-3 | 4-5 | 6-8 | Персонажи в разных приключениях |
| Продукт + амбассадор бренда | Flash | 5-6 | 2-3 | 7-9 | Персонаж держит/демонстрирует продукт |
| Дизайн игровых персонажей | Pro | 3-4 | 4-5 | 7-9 | Сцены взаимодействия нескольких персонажей |
| Подбор интерьера | Flash | 8-10 | 0 | 8-10 | Комбинации мебели/декора |
Практика применения эталонных изображений Gemini в сценариях электронной коммерции
Электронная коммерция — это самый прямой сценарий применения функции нескольких эталонных изображений. Традиционно вам пришлось бы снимать сцены для каждого продукта отдельно, что дорого и затрудняет унификацию стиля. Используя способность Gemini сохранять объекты, вы можете использовать изображения нескольких продуктов на белом фоне в качестве эталонных и генерировать сцены в едином стиле за один раз.
Рекомендуется использовать Gemini 3.1 Flash Image Preview, поскольку он поддерживает до 10 эталонных изображений для сохранения объектов, чего достаточно для коллекции товаров одной категории. При этом скорость генерации уровня Flash лучше подходит для нужд массового производства.
Практика применения эталонных изображений Gemini в сценариях историй персонажей
Если вам нужно создать серию иллюстраций для историй бренд IP или игровых персонажей, ключевым требованием будет согласованность персонажей. Gemini 3 Pro Image Preview поддерживает до 5 эталонных изображений для согласованности персонажей, что позволяет одновременно поддерживать визуальную согласованность до 5 независимых персонажей.
Стоит отметить, что согласованность персонажей в настоящее время не является 100% идеальной. В официальной документации Google также указано: "character consistency is not always perfect between input images and generated output images". В реальном использовании рекомендуется:
- Предоставлять четкие, фронтальные эталонные изображения персонажей с равномерным освещением.
- В промпте четко описывать ключевые особенности каждого персонажа.
- Проводить ручной отбор и доработку сгенерированных результатов.
Практический совет: Рекомендуется сначала провести небольшое тестирование через APIYI apiyi.com, чтобы убедиться, что эффект согласованности персонажей соответствует требованиям, а затем приступать к массовой генерации. Платформа предоставляет бесплатный тестовый лимит для быстрой проверки.

Технические характеристики и особенности эталонных изображений Gemini
Поддерживаемые соотношения сторон
Модели Gemini для генерации изображений поддерживают 14 соотношений сторон, охватывающих практически все распространённые сценарии использования:
| Соотношение сторон | Типичное использование | Подходящие сценарии |
|---|---|---|
| 1:1 | Аватары для соцсетей, квадратные изображения товаров | Instagram, миниатюры товаров |
| 16:9 | Горизонтальный формат, иллюстрации для блогов | Баннеры для сайтов, заглавные изображения статей |
| 9:16 | Вертикальный формат, обои для телефонов | Xiaohongshu, обложки TikTok |
| 4:3 | Традиционное соотношение | Иллюстрации для PPT, традиционные постеры |
| 3:2 | Стандартное соотношение для фотографии | Предметная фотография, пейзажи |
| 21:9 | Сверхширокий формат | Кинопостеры, баннеры для сайтов |
| 1:4 / 4:1 | Экстремальные соотношения | Длинные изображения, инфографика |
Ключевые ограничения при использовании эталонных изображений Gemini
В процессе разработки особенно важно учитывать следующие ограничения:
- Квота — это жёсткий лимит: Превышение лимита по количеству объектов или согласованности лиц приведёт к ошибке API.
- Качество изображения влияет на результат: Размытые или сильно заслонённые эталонные изображения снижают точность воспроизведения.
- Согласованность лиц не гарантируется на 100%: Особенно при экстремальных изменениях позы или значительных различиях в условиях освещения.
- Промпт должен дополнять: Эталонное изображение — это только визуальный ввод, в промпте необходимо чётко описывать содержимое изображения и ожидаемый эффект.
- Механизм
thoughtSignature: В диалоговом редактировании модель полагается наthoughtSignatureиз предыдущего раунда для понимания композиции изображения; при последовательном редактировании необходимо сохранять эту подпись.
Совет для разработчиков: APIYI (apiyi.com) поддерживает всю линейку моделей Gemini для работы с изображениями, включая
gemini-3.1-flash-image-previewиgemini-3-pro-image-preview. Вы можете вызывать их через совместимый с OpenAI API интерфейс, без дополнительной адаптации.
Часто задаваемые вопросы
В1: Оба ли модели поддерживают 14 эталонных изображений?
Не совсем. 14 изображений — это общий лимит для Gemini 3.1 Flash Image Preview (10 объектов + 4 персонажа). Общий лимит для Gemini 3 Pro Image Preview на самом деле составляет 11 изображений (6 объектов + 5 персонажей). При выборе модели необходимо учитывать ваши конкретные требования к квоте.
В2: Можно ли использовать только изображения для точности объектов, не используя изображения для согласованности лиц?
Да, можно. Эти два типа эталонных изображений независимы, и вы можете использовать только один из них. Например, в сценариях электронной коммерции обычно требуются только изображения для точности объектов, без согласованности лиц. В этом случае модель Flash может принимать до 10 изображений объектов. Вы можете быстро протестировать различные конфигурации и их эффекты через APIYI (apiyi.com).
В3: Что делать, если согласованность лиц работает плохо?
Google официально признаёт, что согласованность лиц в настоящее время не является 100% надёжной. Рекомендуется: (1) использовать эталонные изображения высокого разрешения, снятые анфас; (2) подробно описывать характеристики персонажа в промпте; (3) генерировать несколько вариантов и отбирать их вручную; (4) попробовать одновременно протестировать модели Flash и Pro на APIYI (apiyi.com) и сравнить результаты согласованности.
В4: Как отличить изображения для точности объектов от изображений для согласованности лиц?
Ключевое различие заключается в семантике: изображения для точности объектов — это "предметы" (обувь, сумки, часы и т. д.), которые вы хотите точно воспроизвести в сгенерированном результате, а изображения для согласованности лиц — это "персонажи/люди", внешний вид которых вы хотите сохранить неизменным в разных сценах. При вызове API оба типа являются обычными входными изображениями, и модель понимает роль каждого изображения через описание в промпте. Рекомендуется чётко указывать в промпте такие отношения, как "эта обувь", "этот персонаж" и т. д.
Краткое содержание
Ключевые особенности функции Gemini с 14 эталонными изображениями:
- Квота делится на две категории: Лимит в 14 изображений состоит из изображений для сохранения точности объектов и изображений для согласованности персонажей, у каждой категории свой независимый лимит.
- Различия между двумя моделями: Flash больше ориентирован на точность объектов (10 изображений), а Pro — на согласованность персонажей (5 изображений).
- Выбор зависит от сценария: Для демонстрации продуктов выбирайте Flash, для историй с персонажами — Pro, для смешанных сценариев распределяйте по мере необходимости.
- Согласованность персонажей требует проверки: Не 100% идеально, рекомендуется сначала провести тестирование на небольших партиях, а затем генерировать массово.
Понимание логики распределения квот — ключ к эффективному использованию функции Gemini с несколькими эталонными изображениями. Рекомендуем быстро протестировать фактическую производительность моделей Flash и Pro через APIYI (apiyi.com). Платформа предоставляет бесплатную квоту и унифицированный интерфейс, что облегчает сравнение и выбор наиболее подходящего решения для вашего сценария.
Ссылки
-
Документация Google Gemini по генерации изображений: Официальное описание функции с несколькими эталонными изображениями
- Ссылка:
ai.google.dev/gemini-api/docs/image-generation - Описание: Содержит подробные спецификации API и примеры кода для 14 эталонных изображений.
- Ссылка:
-
Карточка модели Gemini 3.1 Flash Image Preview: Описание возможностей и ограничений модели
- Ссылка:
deepmind.google/models/model-cards/gemini-3-1-flash-image/ - Описание: Технические характеристики и параметры производительности модели Flash для изображений.
- Ссылка:
-
Руководство разработчика Gemini 3: Полная документация по разработке моделей серии Gemini 3
- Ссылка:
ai.google.dev/gemini-api/docs/gemini-3 - Описание: Руководство по разработке, охватывающее мультимодальные возможности для текста, изображений, видео и многого другого.
- Ссылка:
Автор: Техническая команда APIYI
Техническое общение: Приглашаем обсудить в комментариях приемы использования функции Gemini с несколькими эталонными изображениями. Дополнительные материалы доступны в Центре документации APIYI docs.apiyi.com.
