Обзор Gemini Embedding 2 Preview: первая нативная мультимодальная модель эмбеддингов, 5 главных прорывов, занявших 1-е место в рейтинге MTEB

ОтAPIYI - Stable and affordable AI API 2026年 4月 1日

В марте 2026 года Google представила важную модель — Gemini Embedding 2 Preview, первую в индустрии нативную мультимодальную модель эмбеддингов. Она способна отображать текст, изображения, видео, аудио и PDF-документы в единое векторное пространство. В многоязычном бенчмарке MTEB модель заняла 1-е место, опередив ближайшего конкурента более чем на 5 процентных пунктов.

Ключевая ценность: из этой статьи вы узнаете о 5 главных технических прорывах Gemini Embedding 2 Preview, сравнении производительности и цен с аналогами, а также о том, как быстро подключиться к ней через API.

Что такое Gemini Embedding 2 Preview

Gemini Embedding 2 Preview — это новейшая модель эмбеддингов, представленная Google 10 марта 2026 года. Она построена на архитектуре Gemini и использует структуру трансформера с двунаправленным вниманием. Это первая модель эмбеддингов от Google с нативной поддержкой мультимодального ввода.

Спецификация	Детали
ID модели	`gemini-embedding-2-preview`
Дата выпуска	10 марта 2026 г.
Статус	Preview (предварительная версия, официальный релиз ожидается)
Размерность вывода по умолчанию	3 072
Диапазон размерностей	128 — 3 072
Макс. токенов на входе	8 192 (в 4 раза больше, чем у предыдущего поколения)
Мультимодальность	Текст, изображения, видео, аудио, PDF
Поддержка языков	100+ языков
Обучение Matryoshka	Поддерживается (можно обрезать размерность без потери качества)
Платформы	Gemini API, Vertex AI, APIYI apiyi.com

Ключевые отличия от предыдущих моделей

Характеристика	text-embedding-004	gemini-embedding-001	gemini-embedding-2-preview
Макс. токенов на входе	2 048	2 048	8 192
Размерность вывода	до 768	128-3 072	128-3 072
Мультимодальность	Только текст	Только текст	Текст+Изображения+Видео+Аудио+PDF
Тип задачи	поле `task_type`	поле `task_type`	Встроенные инструкции в промпте
Поддержка MRL	Нет	Да	Да
Цена / млн токенов	Сервис закрыт	$0.15	$0.20

🎯 Совет по подключению: APIYI apiyi.com уже поддерживает вызов модели gemini-embedding-2-preview.
Подключиться можно через интерфейс, совместимый с OpenAI, без необходимости отдельно настраивать API-ключ Google.

Подробный разбор 5 технологических прорывов

Прорыв 1: Единое мультимодальное векторное пространство

Это главное преимущество Gemini Embedding 2 — контент из 5 различных модальностей отображается в одно и то же векторное пространство.

Модальность	Формат	Лимит на запрос	Примечание
Текст	Обычный текст	8 192 токена	Поддержка 100+ языков
Изображения	PNG, JPEG	До 6 штук	Прямая обработка пикселей
Видео	MP4, MOV	До 120 сек	Авто-сэмплинг до 32 кадров
Аудио	MP3, WAV	До 80 сек	Нативная обработка, без транскрибации
PDF	Документы PDF	До 6 страниц	Включает возможности OCR

Практические сценарии:

Поиск изображений по текстовому описанию ("красный спорткар на гоночном треке" → выдача подходящих фото).
Поиск похожих видеофрагментов по изображению.
Поиск документов по голосовому описанию.
Создание кросс-модальных баз знаний.

Ранее в моделях эмбеддингов это было невозможно: серия OpenAI text-embedding-3 поддерживает только текст. Если вам нужен был поиск по изображениям, приходилось сначала использовать визуальную модель для извлечения описания, что добавляло лишний шаг и приводило к потере данных.

Прорыв 2: Контекстное окно 8 192 токена

Увеличение окна с 2 048 до 8 192 токенов означает, что теперь можно эмбеддить более длинные фрагменты документов.

Для систем RAG (поиск с дополнением генерацией) это крайне полезно:

Раньше документы приходилось разбивать на мелкие фрагменты по 500–1000 токенов.
Теперь можно использовать блоки по 2000–4000 токенов, сохраняя больше контекста.
Больше размер фрагмента = меньше разбиений = более полные результаты поиска.

Прорыв 3: Масштабируемость размерности (Matryoshka)

Gemini Embedding 2 обучена с использованием Matryoshka Representation Learning (MRL). Модель концентрирует наиболее важную семантическую информацию в первых размерностях вектора.

Это позволяет гибко выбирать размерность в зависимости от задачи:

Размерность	Размер вектора	Сценарий использования	Потеря качества
3 072 (по умолч.)	12.3 КБ	Максимальная точность	Нет
1 536	6.1 КБ	Баланс точности и хранения	Минимальная
768	3.1 КБ	Выбор для масштабных систем	Незначительная
256	1.0 КБ	Системы рекомендаций в реальном времени	Средняя
128	0.5 КБ	Сценарии экстремального сжатия	Заметная

Примечание: При использовании размерности менее 3 072 необходимо вручную нормализовать вектор перед расчетом сходства.

Прорыв 4: Поддержка 100+ языков

В бенчмарке MTEB Gemini Embedding 2 была протестирована на 250+ языках, что значительно превышает охват конкурентов.

Ключевые показатели производительности:

Майнинг параллельных текстов (Bitext Mining): 79.32 балла.
Кросс-языковый поиск (XOR-Retrieve): Recall@5kt 90.42 балла.
Мультиязычное понимание (XTREME-UP): MRR@10 64.33 балла.

Прорыв 5: Первое место в рейтингах MTEB

Бенчмарк	Оценка	Место	Отрыв
MTEB Multilingual (Mean Task)	68.32	1-е	+5.09
MTEB Multilingual (Mean Type)	59.64	1-е	—
MTEB English v2 (Mean Task)	73.30	1-е	—
MTEB English v2 (Mean Type)	67.67	1-е	—
MTEB Code (Mean All)	74.66	1-е	—

Для сравнения: модель gte-Qwen2-7B-instruct, занимающая второе место, имеет 62.51 балла в мультиязычном MTEB. Gemini Embedding 2 опережает её почти на 6 баллов, что является огромным разрывом в сфере эмбеддингов.

💡 Совет разработчикам: Если вы создаете RAG-систему или приложение для семантического поиска,
Gemini Embedding 2 — самый мощный выбор на текущий момент, особенно для мультиязычных задач и работы с кодом.
Через APIYI apiyi.com можно подключить эту модель в один клик, а также использовать модели OpenAI для сравнения результатов.

Сравнение цен и производительности с конкурентами

Сравнение цен на текстовые эмбеддинги

Модель	Цена за 1 млн токенов	Макс. размерность	Макс. вход	Мультимодальность	Рейтинг (языки)
Gemini Embedding 2	$0.20	3 072	8 192	✅ 5 модальностей	#1
gemini-embedding-001	$0.15	3 072	2 048	❌	—
OpenAI text-embedding-3-large	$0.13	3 072	8 191	❌	—
OpenAI text-embedding-3-small	$0.02	1 536	8 191	❌	—

Цены на мультимодальный контент (эксклюзивно для Gemini Embedding 2):

Тип ввода	Цена (обычная) / 1 млн токенов	Цена (batch) / 1 млн токенов
Текст	$0.20	$0.10
Изображение	$0.45 (~$0.00012/шт.)	$0.225
Аудио	$6.50 (~$0.00016/сек.)	$3.25
Видео	$12.00 (~$0.00079/кадр)	$6.00

Сценарий использования	Рекомендуемая модель	Почему?
Чистый текст, чувствительность к цене	OpenAI text-embedding-3-small	Самый дешевый вариант ($0.02)
Чистый текст, высокая точность	Gemini Embedding 2 или OpenAI 3-large	Точность сопоставима, но Gemini лучше работает с языками
Мультимодальный поиск	Gemini Embedding 2	Единственное нативное мультимодальное решение
Мультиязычный поиск	Gemini Embedding 2	#1 в рейтинге MTEB по языкам
Поиск по коду	Gemini Embedding 2	#1 в рейтинге MTEB по коду
Масштабируемость и экономия	OpenAI 3-small + Batch API	Преимущество в цене в 10 раз

Подробное руководство по вызову API

Способ указания типа задачи (важное изменение)

В отличие от gemini-embedding-001, в Gemini Embedding 2 больше не используется параметр task_type. Теперь тип задачи задается путем внедрения инструкций непосредственно в текст запроса.

8 поддерживаемых типов задач:

Тип задачи	Формат запроса (Query)	Формат документа
Поиск/Извлечение	`task: search result \| query: {контент}`	`title: {заголовок} \| text: {контент}`
Вопросы и ответы	`task: question answering \| query: {вопрос}`	`title: {заголовок} \| text: {контент}`
Проверка фактов	`task: fact checking \| query: {утверждение}`	`title: {заголовок} \| text: {контент}`
Поиск кода	`task: code retrieval \| query: {описание}`	`title: {заголовок} \| text: {код}`
Классификация	`task: classification \| query: {контент}`	Тот же формат
Кластеризация	`task: clustering \| query: {контент}`	Тот же формат
Сходство предложений	`task: sentence similarity \| query: {предложение}`	Тот же формат

Для документов, у которых нет заголовка, используйте title: none.

Пример вызова на Python

import openai

# Вызов через унифицированный интерфейс APIYI
client = openai.OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1"
)

# Текстовое вложение (embedding) - сценарий поиска
response = client.embeddings.create(
    model="gemini-embedding-2-preview",
    input="task: search result | query: что такое векторная база данных",
    dimensions=768  # Доступные размерности: 128-3072
)

embedding = response.data[0].embedding
print(f"Размерность вектора: {len(embedding)}")
print(f"Первые 5 значений: {embedding[:5]}")

Посмотреть полный код процесса RAG-поиска

import openai
import numpy as np
from typing import List

client = openai.OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1"
)

def get_embedding(text: str, task: str = "search result", dim: int = 768) -> List[float]:
    """Получение вектора вложения для текста"""
    formatted = f"task: {task} | query: {text}"
    response = client.embeddings.create(
        model="gemini-embedding-2-preview",
        input=formatted,
        dimensions=dim
    )
    vec = response.data[0].embedding
    # При использовании MRL (Matryoshka Representation Learning) 
    # для усеченных размерностей требуется ручная нормализация
    if dim < 3072:
        norm = np.linalg.norm(vec)
        vec = (np.array(vec) / norm).tolist()
    return vec

def get_doc_embedding(title: str, text: str, dim: int = 768) -> List[float]:
    """Получение вектора вложения для документа"""
    formatted = f"title: {title} | text: {text}"
    response = client.embeddings.create(
        model="gemini-embedding-2-preview",
        input=formatted,
        dimensions=dim
    )
    vec = response.data[0].embedding
    if dim < 3072:
        norm = np.linalg.norm(vec)
        vec = (np.array(vec) / norm).tolist()
    return vec

def cosine_similarity(a: List[float], b: List[float]) -> float:
    """Вычисление косинусного сходства"""
    a, b = np.array(a), np.array(b)
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

# Пример использования
query_vec = get_embedding("как оптимизировать RAG-поиск")
doc_vec = get_doc_embedding(
    "Руководство по оптимизации RAG",
    "В этой статье описаны 5 методов улучшения качества RAG-поиска..."
)
similarity = cosine_similarity(query_vec, doc_vec)
print(f"Сходство: {similarity:.4f}")

🚀 Быстрый старт: Рекомендуем использовать платформу APIYI (apiyi.com) для быстрого подключения Gemini Embedding 2.
Платформа предоставляет API, совместимый с OpenAI, что позволяет интегрироваться за 5 минут,
а также поддерживает унифицированный вызов моделей от OpenAI, Gemini, Cohere и других.

Важные примечания

Ограничения статуса Preview

Ограничение	Описание	Влияние
Возможные изменения	Спецификации и цены могут меняться в стадии Preview	Для продакшена рекомендуется предусмотреть план отката
Несовместимость векторных пространств	Нельзя смешивать с векторами старых моделей	При обновлении потребуется полная переиндексация
Необходимость нормализации	При размерности < 3072 требуется ручная нормализация	В коде нужно добавить шаг нормализации
Строгие лимиты скорости	Квоты ниже, чем у GA-моделей	Для масштабных задач нужно запрашивать увеличение лимитов
Использование данных	Данные бесплатного уровня могут использоваться для обучения	Для конфиденциальных данных используйте платный уровень

Что нужно учесть при миграции со старых моделей

Обязательная переиндексация: Векторные пространства разных моделей несовместимы, их нельзя смешивать в одной базе данных.
Изменение формата типов задач: Вместо параметра task_type теперь используются встроенные инструкции в промпте.
Нормализация: Если вы используете размерность, отличную от стандартной, добавьте логику нормализации в код.
Тестирование перед миграцией: Сначала сравните качество поиска новой и старой моделей в тестовой среде, прежде чем переходить на новую версию.

Часто задаваемые вопросы

Q1: В чем преимущество Gemini Embedding 2 Preview перед OpenAI text-embedding-3-large?

Основные преимущества заключаются в трех аспектах: нативная мультимодальная поддержка (OpenAI поддерживает только текст), 1-е место в рейтинге MTEB по мультиязычности (с большим отрывом) и более высокое качество эмбеддингов кода. Однако OpenAI text-embedding-3-large стоит дешевле ($0,13 против $0,20), и если вам нужны эмбеддинги только для английского текста, качество моделей очень близко. Через сервис-прокси API APIYI (apiyi.com) вы можете вызывать обе модели и сравнивать их на реальных данных.

Q2: Какое практическое применение у мультимодальных эмбеддингов?

Самое прямое применение — это кросс-модальный поиск: пользователь вводит текст, а система возвращает соответствующие изображения, видео или документы. Например, в e-commerce можно искать товары по запросу «красное платье», или в корпоративной базе знаний искать фрагменты обучающих видео по текстовому описанию. Раньше для этого требовалось сначала использовать визуальную модель для извлечения описания, а затем эмбеддить текст. Gemini Embedding 2 работает с исходными изображениями/видео напрямую, что минимизирует потерю информации.

Q3: Какую размерность выбрать? Большая ли разница между 768 и 3072?

Для большинства задач 768 измерений — это «золотая середина»: стоимость хранения в 4 раза ниже, чем у 3072, а потеря качества поиска минимальна (благодаря обучению Matryoshka). Если ваш набор данных невелик (<1 млн записей) и требования к точности экстремально высоки, используйте 3072. Если данных много или требуется поиск в реальном времени, 768 или даже 256 измерений будут вполне разумным выбором.

Q4: Как APIYI поддерживает Gemini Embedding 2? Нужна ли дополнительная настройка?

APIYI (apiyi.com) уже поддерживает модель gemini-embedding-2-preview. Вызов осуществляется через стандартный интерфейс эмбеддингов, совместимый с OpenAI, поэтому дополнительный Google API-ключ не требуется. Просто укажите gemini-embedding-2-preview в параметре model, остальные параметры (например, dimensions) полностью соответствуют интерфейсу OpenAI.

Итоги: новый стандарт мультимодальных эмбеддингов

Gemini Embedding 2 Preview — это важная веха в развитии моделей эмбеддингов, знаменующая переход от чисто текстовых моделей к по-настоящему единому мультимодальному пространству. Заняв первые места в трех категориях MTEB (мультиязычность, английский язык и код), а также предложив контекстное окно на 8 тыс. токенов и масштабируемость размерности MRL, модель предоставляет мощнейший фундамент для RAG-систем, семантического поиска и построения баз знаний.

Ключевые выводы:

Первая в индустрии нативная пятимодальная модель эмбеддингов (текст + изображения + видео + аудио + PDF).
1-е место в бенчмарке MTEB (мультиязычность), опережение конкурентов на 5+ баллов.
Контекстное окно 8 192 токена — в 4 раза больше, чем у предыдущего поколения.
Поддержка обучения MRL с гибкой настройкой размерности от 128 до 3 072.
Цена $0,20 за 1 млн токенов — отличная стоимость для мультимодальных задач.

Рекомендуем быстро подключиться к Gemini Embedding 2 Preview через APIYI (apiyi.com). Один API-ключ позволяет работать как с Gemini, так и с другими популярными моделями эмбеддингов, что очень удобно для сравнения и переключения между ними.

📝 Автор статьи: Техническая команда APIYI | APIYI apiyi.com — платформа для унифицированного доступа к API 300+ больших языковых моделей.

Справочные материалы

Официальный блог Google: Анонс Gemini Embedding 2
- Ссылка: blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
- Описание: концепция дизайна модели и обзор мультимодальных возможностей.
Документация Gemini API по эмбеддингам: Официальное руководство по использованию API
- Ссылка: ai.google.dev/gemini-api/docs/embeddings
- Описание: полные параметры API и примеры вызова модели.
Исследовательская работа по Gemini Embedding: Технические детали и бенчмарки
- Ссылка: arxiv.org/html/2503.07891v1
- Описание: подробные данные тестирования MTEB и анализ архитектуры модели.
Ценообразование Gemini API: Подробная информация о стоимости для каждой модальности
- Ссылка: ai.google.dev/gemini-api/docs/pricing
- Описание: детализированные тарифы для текста, изображений, аудио и видео.

APIYI - Stable and affordable AI API

Try AI Large Model https://api.apiyi.com for free
Stable and reliable AI LM API aggregation service, Get 300 Millions Tokens for Free~

API генерации изображений | Gemini API

Создание AI-раскадровки с Nano Banana Pro: 6 лучших шагов для обеспечения согласованности лиц и планирования кадров
ОтAPIYI - Stable and affordable AI API 2026年 4月 4日

Примечание автора: Полный рабочий процесс создания раскадровки для AI-видео с помощью Nano Banana Pro, включая фиксацию согласованности лиц, планирование кадров, оптимальное количество в 8-14 кадров и практические советы по интеграции с генерацией видео в Seedance. Первый шаг в создании AI-видео — это не прямая генерация, а создание раскадровки. Именно раскадровка определяет, что именно будет в…

Читайте далее Создание AI-раскадровки с Nano Banana Pro: 6 лучших шагов для обеспечения согласованности лиц и планирования кадров
Gemini API | Новости API больших моделей

Обзор запуска Gemini 3.1 Pro Preview: 3 ключевых обновления и руководство по подключению к API
ОтAPIYI - Stable and affordable AI API 2026年 2月 20日

Google только что запустила в AI Studio новую модель — Gemini 3.1 Pro Preview. ID модели — gemini-3.1-pro-preview, а официальное описание гласит: «Наша новейшая SOTA-модель для рассуждений с беспрецедентной глубиной и нюансами, обладающая мощными возможностями мультимодального понимания и написания кода». Что примечательно, Gemini 3 Pro до сих пор не избавилась от ярлыка «Preview» и не…

Читайте далее Обзор запуска Gemini 3.1 Pro Preview: 3 ключевых обновления и руководство по подключению к API
Gemini API | Устранение проблем с AI-моделями

Сравнение 5 способностей Nano Banana 2 и Pro на китайском языке, результат неожиданный
ОтAPIYI - Stable and affordable AI API 2026年 3月 11日

Примечание автора: Глубокое сравнение фактической производительности Nano Banana 2 и Nano Banana Pro в 5 аспектах работы с китайским языком: понимание промптов, рендеринг текста, верстка и т.д. Включает 6 техник для улучшения результатов на китайском. При выборе модели для генерации изображений ИИ одним из ключевых вопросов для русскоязычных пользователей является: Понимает ли эта модель русский…

Читайте далее Сравнение 5 способностей Nano Banana 2 и Pro на китайском языке, результат неожиданный
Новости API больших моделей | Объявления

Полный разбор Xiaomi MiMo V2 Pro и Omni: возможности мультимодальной модели с триллионом параметров, которая маскировалась под DeepSeek V4
ОтAPIYI - Stable and affordable AI API 2026年 3月 22日

Самым драматичным событием в мире ИИ в марте 2026 года стало внезапное появление на OpenRouter анонимной модели под кодовым именем «Hunter Alpha». Она «пожирала» по 500 миллиардов токенов в неделю, а по производительности вплотную приблизилась к GPT-5.2 и Claude Opus 4.6. Разработчики по всему миру гадали: «Неужели это DeepSeek V4?» Ответ оказался неожиданным для всех…

Читайте далее Полный разбор Xiaomi MiMo V2 Pro и Omni: возможности мультимодальной модели с триллионом параметров, которая маскировалась под DeepSeek V4
Gemini API | Лучшие практики API

Где найти надежные ресурсы Nano Banana API? Глубокий анализ 3 главных фактов об APIYI, Wentuo AI и Google Cloud PT
ОтAPIYI - Stable and affordable AI API 2026年 1月 18日

Примечание автора: Полное сравнение надежных поставщиков Nano Banana API, раскрытие ключевых преимуществ APIYI и Wentuo AI, а также глубокий анализ истинного значения и системы полномочий Google Cloud PT (Partner Tier). На фоне частых перегрузок Nano Banana Pro (Gemini 2.5 Flash Image) разработчикам крайне необходимо найти стабильные и надежные каналы доступа к API. На рынке появилось…

Читайте далее Где найти надежные ресурсы Nano Banana API? Глубокий анализ 3 главных фактов об APIYI, Wentuo AI и Google Cloud PT
Gemini API | Сценарии использования API

Как создавать страницы описания товаров для e-commerce с помощью ИИ? 3 приема генерации четырехпанельных нарративных изображений с Nano Banana Pro API
ОтAPIYI - Stable and affordable AI API 2026年 1月 19日

Качество визуального оформления карточки товара напрямую влияет на конверсию, но традиционная съемка и дизайн стоят дорого. Nano Banana Pro API предлагает командам e-commerce эффективное решение для генерации изображений с помощью ИИ, которое особенно хорошо справляется с созданием повествовательных коллажей (сеток 2х2). Ключевая ценность: Прочитав эту статью, вы освоите полный метод массовой генерации высококачественных коллажей для…

Читайте далее Как создавать страницы описания товаров для e-commerce с помощью ИИ? 3 приема генерации четырехпанельных нарративных изображений с Nano Banana Pro API