Interpretación de Gemini Embedding 2 Preview: el primer modelo de incrustación multimodal nativo, 5 grandes avances en el ranking MTEB

Google lanzó en marzo de 2026 un modelo fundamental: Gemini Embedding 2 Preview, el primer modelo de incrustación (embedding) multimodal nativo de la industria. Es capaz de mapear texto, imágenes, video, audio y documentos PDF en un mismo espacio vectorial, alcanzando el puesto número 1 en el benchmark multilingüe MTEB, superando al segundo lugar por más de 5 puntos porcentuales.

Valor principal: Al terminar de leer este artículo, conocerás los 5 avances técnicos de Gemini Embedding 2 Preview, una comparativa de rendimiento y precios frente a la competencia, y cómo integrarlo rápidamente mediante API.

¿Qué es Gemini Embedding 2 Preview?

Gemini Embedding 2 Preview es el modelo de incrustación (embedding) más reciente lanzado por Google el 10 de marzo de 2026. Está inicializado sobre la arquitectura Gemini, utiliza una estructura Transformer de atención bidireccional y es el primer modelo de incrustación de Google con soporte nativo para entradas multimodales.

Especificación	Detalles
ID del modelo	`gemini-embedding-2-preview`
Fecha de lanzamiento	10 de marzo de 2026
Estado	Preview (versión preliminar, versión final pendiente)
Dimensión de salida predeterminada	3,072
Rango de dimensiones opcional	128 — 3,072
Máximo de tokens de entrada	8,192 (4 veces más que la generación anterior)
Soporte multimodal	Texto, imágenes, video, audio, PDF
Soporte de idiomas	Más de 100 idiomas
Entrenamiento Matryoshka	Soportado (permite truncar dimensiones manteniendo la calidad semántica)
Plataformas disponibles	Gemini API, Vertex AI, APIYI apiyi.com

Diferencias clave con los modelos anteriores

Característica	text-embedding-004	gemini-embedding-001	gemini-embedding-2-preview
Máximo de tokens de entrada	2,048	2,048	8,192
Dimensión de salida	Hasta 768	128-3,072	128-3,072
Multimodal	Solo texto	Solo texto	Texto+Imagen+Video+Audio+PDF
Especificación de tarea	Campo `task_type`	Campo `task_type`	Instrucciones integradas en el prompt
Soporte MRL	No soportado	Soportado	Soportado
Precio/millón de tokens	Servicio descontinuado	$0.15	$0.20

🎯 Consejo de integración: APIYI apiyi.com ya admite la invocación del modelo gemini-embedding-2-preview.
Puedes integrarlo mediante la interfaz compatible con OpenAI, sin necesidad de configurar una clave API de Google por separado.

Análisis detallado de los 5 avances técnicos

Avance 1: Espacio de incrustación unificado y nativamente multimodal

Esta es la mayor ventaja diferencial de Gemini Embedding 2: el contenido de 5 modalidades se mapea en el mismo espacio vectorial.

Modalidad	Requisitos de formato	Límite por solicitud	Notas
Texto	Texto plano	8,192 tokens	Soporta más de 100 idiomas
Imagen	PNG, JPEG	Hasta 6 por solicitud	Procesamiento directo de píxeles
Video	MP4, MOV	Máximo 120 segundos	Muestreo automático de hasta 32 fotogramas
Audio	MP3, WAV	Máximo 80 segundos	Procesamiento nativo, sin necesidad de transcripción
PDF	Documentos PDF	Hasta 6 páginas por solicitud	Incluye capacidad OCR

Escenarios de aplicación reales:

Búsqueda de imágenes mediante texto ("coche deportivo rojo en la pista" → devuelve imágenes coincidentes)
Búsqueda de fragmentos de video similares mediante imágenes
Búsqueda de documentos relacionados mediante descripciones de voz
Construcción de bases de conocimiento unificadas y multimodales

Esto era imposible con modelos de incrustación anteriores; la serie text-embedding-3 de OpenAI solo admite texto. Si necesitabas buscar imágenes, debías usar primero un modelo visual para extraer una descripción y luego realizar la incrustación, lo que añadía un paso extra y provocaba pérdida de información.

Avance 2: Ventana de contexto de 8,192 tokens

La ventana de entrada ha pasado de 2,048 a 8,192 tokens, lo que significa que puedes incrustar fragmentos de documentos mucho más largos de una sola vez.

Para sistemas RAG (Generación Aumentada por Recuperación), esta mejora es muy práctica:

Antes, era necesario dividir los documentos en fragmentos pequeños de 500-1000 tokens.
Ahora, puedes usar fragmentos grandes de 2000-4000 tokens, conservando mucha más información contextual.
Fragmentos de documento más grandes = menos divisiones = resultados de búsqueda más completos.

Avance 3: Escalabilidad de dimensiones Matryoshka

Gemini Embedding 2 utiliza el entrenamiento Matryoshka Representation Learning (MRL), donde el modelo concentra la información semántica más importante en las primeras dimensiones del vector.

Esto significa que puedes elegir las dimensiones de forma flexible según el escenario:

Dimensión	Tamaño del vector	Escenario de aplicación	Pérdida de calidad
3,072 (predeterminado)	12.3 KB	Recuperación de máxima precisión	Ninguna
1,536	6.1 KB	Equilibrio entre precisión y almacenamiento	Mínima
768	3.1 KB	Preferido para despliegues a gran escala	Baja
256	1.0 KB	Sistemas de recomendación en tiempo real	Media
128	0.5 KB	Escenarios de compresión extrema	Alta

Nota: Al usar dimensiones inferiores a 3,072, es necesario normalizar manualmente el vector antes de calcular la similitud.

Avance 4: Soporte para más de 100 idiomas

En las pruebas de referencia multilingües MTEB, Gemini Embedding 2 se evaluó en más de 250 idiomas, superando con creces la cobertura de la competencia.

Indicadores clave de rendimiento lingüístico:

Minería de textos bilingües (Bitext Mining): 79.32 puntos
Recuperación translingüe (XOR-Retrieve): Recall@5kt 90.42 puntos
Comprensión multilingüe (XTREME-UP): MRR@10 64.33 puntos

Avance 5: Número 1 en múltiples rankings MTEB

Prueba de referencia	Puntuación	Ranking	Margen de ventaja
MTEB Multilingüe (Mean Task)	68.32	N.º 1	+5.09
MTEB Multilingüe (Mean Type)	59.64	N.º 1	—
MTEB Inglés v2 (Mean Task)	73.30	N.º 1	—
MTEB Inglés v2 (Mean Type)	67.67	N.º 1	—
MTEB Código (Mean All)	74.66	N.º 1	—

Como comparación, el segundo modelo, gte-Qwen2-7B-instruct, obtuvo 62.51 puntos en el MTEB multilingüe; Gemini Embedding 2 lidera por casi 6 puntos, lo cual es una brecha enorme en el campo de los modelos de incrustación.

💡 Consejo de desarrollo: Si estás construyendo un sistema RAG o una aplicación de búsqueda semántica,
Gemini Embedding 2 es actualmente la opción más potente en escenarios multilingües y de código.
A través de APIYI apiyi.com puedes integrar este modelo con un solo clic, además de soportar modelos de embedding de OpenAI,
lo que facilita comparar resultados rápidamente.

Comparativa de precios y rendimiento frente a la competencia

Comparativa de precios de incrustación de texto (embeddings)

Modelo	Precio/Millón de Tokens	Dimensión máxima	Entrada máxima	Multimodal	Ranking multilingüe
Gemini Embedding 2	$0.20	3,072	8,192	✅ Pentamodal	#1
gemini-embedding-001	$0.15	3,072	2,048	❌	—
OpenAI text-embedding-3-large	$0.13	3,072	8,191	❌	—
OpenAI text-embedding-3-small	$0.02	1,536	8,191	❌	—

Precios de contenido multimodal (Exclusivo de Gemini Embedding 2):

Tipo de entrada	Precio estándar/Millón de Tokens	Precio por lotes/Millón de Tokens
Texto	$0.20	$0.10
Imagen	$0.45 (~$0.00012/ud)	$0.225
Audio	$6.50 (~$0.00016/seg)	$3.25
Video	$12.00 (~$0.00079/frame)	$6.00

Recomendaciones de selección

Escenario de uso	Modelo recomendado	Motivo
Solo texto, sensible al costo	OpenAI text-embedding-3-small	El más económico ($0.02)
Solo texto, alta precisión	Gemini Embedding 2 u OpenAI 3-large	Precisión similar, Gemini superior en multilingüe
Búsqueda multimodal	Gemini Embedding 2	Única solución multimodal nativa
Recuperación multilingüe	Gemini Embedding 2	#1 en multilingüe MTEB
Búsqueda de código	Gemini Embedding 2	#1 en código MTEB
Gran escala, bajo costo	OpenAI 3-small + API por lotes	10x ventaja en precio

🎯 Consejo de selección: La elección del modelo de embedding depende de tu caso de uso específico.
Recomendamos integrar los modelos de embedding de Gemini y OpenAI a través de la plataforma APIYI (apiyi.com),
para comparar los resultados de recuperación con datos reales antes de decidir. La plataforma admite una interfaz unificada, por lo que puedes cambiar de modelo sin modificar tu código.

Detalles sobre la invocación de la API

Especificación del tipo de tarea (Cambio importante)

A diferencia de gemini-embedding-001, Gemini Embedding 2 ya no utiliza el parámetro task_type. En su lugar, el tipo de tarea se especifica incrustando instrucciones dentro del contenido de entrada.

8 tipos de tareas compatibles:

Tipo de tarea	Formato de consulta	Formato de documento
Búsqueda/Recuperación	`task: search result \| query: {contenido}`	`title: {título} \| text: {contenido}`
Preguntas y respuestas	`task: question answering \| query: {pregunta}`	`title: {título} \| text: {contenido}`
Verificación de hechos	`task: fact checking \| query: {afirmación}`	`title: {título} \| text: {contenido}`
Recuperación de código	`task: code retrieval \| query: {descripción}`	`title: {título} \| text: {código}`
Clasificación	`task: classification \| query: {contenido}`	Mismo formato
Agrupamiento (Clustering)	`task: clustering \| query: {contenido}`	Mismo formato
Similitud de oraciones	`task: sentence similarity \| query: {oración}`	Mismo formato

Para el lado del documento, si no hay título, utiliza title: none.

Ejemplo de invocación en Python

import openai

# Invocación a través de la interfaz unificada de APIYI
client = openai.OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1"
)

# Incrustación de texto - Escenario de búsqueda
response = client.embeddings.create(
    model="gemini-embedding-2-preview",
    input="task: search result | query: ¿Qué es una base de datos vectorial?",
    dimensions=768  # Dimensiones opcionales: 128-3072
)

embedding = response.data[0].embedding
print(f"Dimensión del vector: {len(embedding)}")
print(f"Primeros 5 valores: {embedding[:5]}")

Ver el código completo del flujo de recuperación RAG

import openai
import numpy as np
from typing import List

client = openai.OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1"
)

def get_embedding(text: str, task: str = "search result", dim: int = 768) -> List[float]:
    """Obtener vector de incrustación de texto"""
    formatted = f"task: {task} | query: {text}"
    response = client.embeddings.create(
        model="gemini-embedding-2-preview",
        input=formatted,
        dimensions=dim
    )
    vec = response.data[0].embedding
    # La dimensión de truncamiento MRL requiere normalización manual
    if dim < 3072:
        norm = np.linalg.norm(vec)
        vec = (np.array(vec) / norm).tolist()
    return vec

def get_doc_embedding(title: str, text: str, dim: int = 768) -> List[float]:
    """Obtener vector de incrustación de documento"""
    formatted = f"title: {title} | text: {text}"
    response = client.embeddings.create(
        model="gemini-embedding-2-preview",
        input=formatted,
        dimensions=dim
    )
    vec = response.data[0].embedding
    if dim < 3072:
        norm = np.linalg.norm(vec)
        vec = (np.array(vec) / norm).tolist()
    return vec

def cosine_similarity(a: List[float], b: List[float]) -> float:
    """Calcular similitud de coseno"""
    a, b = np.array(a), np.array(b)
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

# Ejemplo de uso
query_vec = get_embedding("Cómo optimizar los resultados de recuperación RAG")
doc_vec = get_doc_embedding(
    "Guía de optimización RAG",
    "Este artículo presenta 5 métodos para optimizar la calidad de recuperación RAG..."
)
similarity = cosine_similarity(query_vec, doc_vec)
print(f"Similitud: {similarity:.4f}")

🚀 Inicio rápido: Recomendamos usar la plataforma APIYI apiyi.com para integrar Gemini Embedding 2 rápidamente.
Esta plataforma ofrece una interfaz de embedding compatible con OpenAI, permitiendo completar la integración en 5 minutos,
y admite la invocación unificada de modelos de embedding convencionales como OpenAI, Gemini y Cohere.

Notas de uso

Limitaciones del estado Preview

Limitación	Descripción	Impacto
Posibles cambios de versión	Las especificaciones y precios pueden ajustarse en la fase Preview	Se recomienda preparar planes de respaldo para entornos de producción
Incompatibilidad de espacio vectorial	No se puede mezclar con vectores de modelos antiguos	La actualización requiere reindexación completa
Normalización para dimensiones bajas	Requiere normalización manual al usar dimensiones <3,072	Es necesario añadir pasos de normalización en el código
Límites de tasa estrictos	La cuota de modelos Preview es menor que la de modelos GA	Se requiere solicitar un aumento de cuota para uso a gran escala
Uso de datos en capa gratuita	Los datos de la capa gratuita se utilizan para mejorar el producto	Se recomienda usar la capa de pago para datos sensibles

Notas sobre la migración desde modelos antiguos

Reindexación obligatoria: Los espacios vectoriales de diferentes modelos son incompatibles; no pueden mezclarse en la misma base de datos.
Cambio de formato de tipo de tarea: Se cambió el parámetro task_type por instrucciones incrustadas en el prompt.
Procesamiento de normalización: Si utilizas dimensiones no predeterminadas, debes añadir lógica de normalización en tu código.
Prueba de efectos antes de migrar: Se recomienda comparar los resultados de recuperación entre los modelos nuevos y antiguos en un entorno de prueba antes de decidir la migración.

Preguntas frecuentes

Q1: ¿Qué ventajas tiene Gemini Embedding 2 Preview frente a OpenAI text-embedding-3-large?

Sus ventajas principales se resumen en tres puntos: soporte multimodal nativo (OpenAI solo admite texto), el puesto número 1 en el ranking multilingüe MTEB (con una ventaja significativa) y una mayor calidad en la incrustación de código. Sin embargo, OpenAI text-embedding-3-large es más económico ($0.13 frente a $0.20) y, si solo necesitas incrustación de texto en inglés, la calidad de ambos es muy similar. A través de APIYI (apiyi.com) puedes invocar ambos modelos y compararlos con datos reales.

Q2: ¿Qué utilidad práctica tiene la incrustación multimodal?

Su aplicación más directa es la búsqueda transmodal: el usuario introduce texto y el sistema devuelve imágenes, vídeos o documentos relacionados. Por ejemplo, en un entorno de comercio electrónico, se puede buscar un producto con el término "vestido rojo", o en una base de conocimientos corporativa, buscar fragmentos relevantes en vídeos de formación mediante una descripción textual. El método tradicional requería usar primero un modelo visual para extraer una descripción y luego incrustar el texto; Gemini Embedding 2 procesa directamente la imagen o vídeo original, reduciendo la pérdida de información.

Q3: ¿Qué dimensiones son las más adecuadas? ¿Hay mucha diferencia entre 768 y 3072?

Para la mayoría de las aplicaciones, 768 dimensiones representan el equilibrio ideal: el coste de almacenamiento es solo una cuarta parte del de 3072, pero la pérdida en la calidad de recuperación es mínima (gracias al entrenamiento Matryoshka). Si tu conjunto de datos es pequeño (<1 millón de registros) y requieres una precisión extrema, utiliza 3072 dimensiones. Si manejas un gran volumen de datos o necesitas una recuperación en tiempo real, 768 o incluso 256 dimensiones son opciones perfectamente razonables.

Q4: ¿Cómo soporta APIYI a Gemini Embedding 2? ¿Se requiere configuración adicional?

APIYI (apiyi.com) ya es compatible con el modelo gemini-embedding-2-preview. Puedes invocarlo mediante la interfaz de incrustación estándar compatible con OpenAI, sin necesidad de configurar una clave API de Google adicional. Solo tienes que especificar gemini-embedding-2-preview en el parámetro model; el resto de los parámetros (como dimensions) son exactamente iguales a los de la interfaz de incrustación de OpenAI.

Resumen: El nuevo estándar en embeddings multimodales

Gemini Embedding 2 Preview marca un hito importante en los modelos de embedding: la transición del texto puro hacia un espacio unificado verdaderamente multimodal. Al alcanzar el primer puesto simultáneamente en las dimensiones multilingüe, inglés y código del MTEB, sumado a su ventana de contexto de 8K y la escalabilidad de dimensiones MRL, ofrece las capacidades fundamentales más potentes actualmente para sistemas RAG, búsqueda semántica y construcción de bases de conocimiento.

Resumen de puntos clave:

El primer modelo de embedding nativo de cinco modalidades (texto + imagen + video + audio + PDF) de la industria.
1.er lugar en el benchmark multilingüe MTEB, superando al segundo por más de 5 puntos.
Ventana de contexto de 8,192 tokens, 4 veces mayor que la generación anterior.
Entrenamiento MRL que admite una escalabilidad flexible de 128 a 3,072 dimensiones.
Precio de $0.20 por millón de tokens, ofreciendo una relación costo-beneficio extremadamente alta para escenarios multimodales.

Recomendamos acceder rápidamente a Gemini Embedding 2 Preview a través de APIYI apiyi.com; una sola clave API permite integrar modelos de embedding líderes como Gemini y OpenAI, facilitando la comparación y el cambio entre ellos.

📝 Autor de este artículo: Equipo técnico de APIYI | APIYI apiyi.com – Plataforma de acceso unificado a más de 300 APIs de Modelos de Lenguaje Grande.

Referencias

Blog oficial de Google: Anuncio del lanzamiento de Gemini Embedding 2
- Enlace: blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
- Descripción: Incluye la filosofía de diseño del modelo y una introducción a sus capacidades multimodales.
Documentación de la API de Gemini: Guía oficial de uso de la API
- Enlace: ai.google.dev/gemini-api/docs/embeddings
- Descripción: Parámetros completos de la API y ejemplos de invocación del modelo.
Documento de investigación de Gemini Embedding: Detalles técnicos y benchmarks
- Enlace: arxiv.org/html/2503.07891v1
- Descripción: Datos detallados de las pruebas MTEB y análisis de la arquitectura del modelo.
Precios de la API de Gemini: Información detallada de precios por modalidad
- Enlace: ai.google.dev/gemini-api/docs/pricing
- Descripción: Precios desglosados para texto, imágenes, audio y video.