|

Interpretación de Gemini Embedding 2 Preview: el primer modelo de incrustación multimodal nativo, 5 grandes avances en el ranking MTEB

Google lanzó en marzo de 2026 un modelo fundamental: Gemini Embedding 2 Preview, el primer modelo de incrustación (embedding) multimodal nativo de la industria. Es capaz de mapear texto, imágenes, video, audio y documentos PDF en un mismo espacio vectorial, alcanzando el puesto número 1 en el benchmark multilingüe MTEB, superando al segundo lugar por más de 5 puntos porcentuales.

Valor principal: Al terminar de leer este artículo, conocerás los 5 avances técnicos de Gemini Embedding 2 Preview, una comparativa de rendimiento y precios frente a la competencia, y cómo integrarlo rápidamente mediante API.

gemini-embedding-2-preview-multimodal-embedding-model-apiyi-guide-es 图示

¿Qué es Gemini Embedding 2 Preview?

Gemini Embedding 2 Preview es el modelo de incrustación (embedding) más reciente lanzado por Google el 10 de marzo de 2026. Está inicializado sobre la arquitectura Gemini, utiliza una estructura Transformer de atención bidireccional y es el primer modelo de incrustación de Google con soporte nativo para entradas multimodales.

Especificación Detalles
ID del modelo gemini-embedding-2-preview
Fecha de lanzamiento 10 de marzo de 2026
Estado Preview (versión preliminar, versión final pendiente)
Dimensión de salida predeterminada 3,072
Rango de dimensiones opcional 128 — 3,072
Máximo de tokens de entrada 8,192 (4 veces más que la generación anterior)
Soporte multimodal Texto, imágenes, video, audio, PDF
Soporte de idiomas Más de 100 idiomas
Entrenamiento Matryoshka Soportado (permite truncar dimensiones manteniendo la calidad semántica)
Plataformas disponibles Gemini API, Vertex AI, APIYI apiyi.com

Diferencias clave con los modelos anteriores

Característica text-embedding-004 gemini-embedding-001 gemini-embedding-2-preview
Máximo de tokens de entrada 2,048 2,048 8,192
Dimensión de salida Hasta 768 128-3,072 128-3,072
Multimodal Solo texto Solo texto Texto+Imagen+Video+Audio+PDF
Especificación de tarea Campo task_type Campo task_type Instrucciones integradas en el prompt
Soporte MRL No soportado Soportado Soportado
Precio/millón de tokens Servicio descontinuado $0.15 $0.20

🎯 Consejo de integración: APIYI apiyi.com ya admite la invocación del modelo gemini-embedding-2-preview.
Puedes integrarlo mediante la interfaz compatible con OpenAI, sin necesidad de configurar una clave API de Google por separado.

Análisis detallado de los 5 avances técnicos

gemini-embedding-2-preview-multimodal-embedding-model-apiyi-guide-es 图示

Avance 1: Espacio de incrustación unificado y nativamente multimodal

Esta es la mayor ventaja diferencial de Gemini Embedding 2: el contenido de 5 modalidades se mapea en el mismo espacio vectorial.

Modalidad Requisitos de formato Límite por solicitud Notas
Texto Texto plano 8,192 tokens Soporta más de 100 idiomas
Imagen PNG, JPEG Hasta 6 por solicitud Procesamiento directo de píxeles
Video MP4, MOV Máximo 120 segundos Muestreo automático de hasta 32 fotogramas
Audio MP3, WAV Máximo 80 segundos Procesamiento nativo, sin necesidad de transcripción
PDF Documentos PDF Hasta 6 páginas por solicitud Incluye capacidad OCR

Escenarios de aplicación reales:

  • Búsqueda de imágenes mediante texto ("coche deportivo rojo en la pista" → devuelve imágenes coincidentes)
  • Búsqueda de fragmentos de video similares mediante imágenes
  • Búsqueda de documentos relacionados mediante descripciones de voz
  • Construcción de bases de conocimiento unificadas y multimodales

Esto era imposible con modelos de incrustación anteriores; la serie text-embedding-3 de OpenAI solo admite texto. Si necesitabas buscar imágenes, debías usar primero un modelo visual para extraer una descripción y luego realizar la incrustación, lo que añadía un paso extra y provocaba pérdida de información.

Avance 2: Ventana de contexto de 8,192 tokens

La ventana de entrada ha pasado de 2,048 a 8,192 tokens, lo que significa que puedes incrustar fragmentos de documentos mucho más largos de una sola vez.

Para sistemas RAG (Generación Aumentada por Recuperación), esta mejora es muy práctica:

  • Antes, era necesario dividir los documentos en fragmentos pequeños de 500-1000 tokens.
  • Ahora, puedes usar fragmentos grandes de 2000-4000 tokens, conservando mucha más información contextual.
  • Fragmentos de documento más grandes = menos divisiones = resultados de búsqueda más completos.

Avance 3: Escalabilidad de dimensiones Matryoshka

Gemini Embedding 2 utiliza el entrenamiento Matryoshka Representation Learning (MRL), donde el modelo concentra la información semántica más importante en las primeras dimensiones del vector.

Esto significa que puedes elegir las dimensiones de forma flexible según el escenario:

Dimensión Tamaño del vector Escenario de aplicación Pérdida de calidad
3,072 (predeterminado) 12.3 KB Recuperación de máxima precisión Ninguna
1,536 6.1 KB Equilibrio entre precisión y almacenamiento Mínima
768 3.1 KB Preferido para despliegues a gran escala Baja
256 1.0 KB Sistemas de recomendación en tiempo real Media
128 0.5 KB Escenarios de compresión extrema Alta

Nota: Al usar dimensiones inferiores a 3,072, es necesario normalizar manualmente el vector antes de calcular la similitud.

Avance 4: Soporte para más de 100 idiomas

En las pruebas de referencia multilingües MTEB, Gemini Embedding 2 se evaluó en más de 250 idiomas, superando con creces la cobertura de la competencia.

Indicadores clave de rendimiento lingüístico:

  • Minería de textos bilingües (Bitext Mining): 79.32 puntos
  • Recuperación translingüe (XOR-Retrieve): Recall@5kt 90.42 puntos
  • Comprensión multilingüe (XTREME-UP): MRR@10 64.33 puntos

Avance 5: Número 1 en múltiples rankings MTEB

Prueba de referencia Puntuación Ranking Margen de ventaja
MTEB Multilingüe (Mean Task) 68.32 N.º 1 +5.09
MTEB Multilingüe (Mean Type) 59.64 N.º 1
MTEB Inglés v2 (Mean Task) 73.30 N.º 1
MTEB Inglés v2 (Mean Type) 67.67 N.º 1
MTEB Código (Mean All) 74.66 N.º 1

Como comparación, el segundo modelo, gte-Qwen2-7B-instruct, obtuvo 62.51 puntos en el MTEB multilingüe; Gemini Embedding 2 lidera por casi 6 puntos, lo cual es una brecha enorme en el campo de los modelos de incrustación.

💡 Consejo de desarrollo: Si estás construyendo un sistema RAG o una aplicación de búsqueda semántica,
Gemini Embedding 2 es actualmente la opción más potente en escenarios multilingües y de código.
A través de APIYI apiyi.com puedes integrar este modelo con un solo clic, además de soportar modelos de embedding de OpenAI,
lo que facilita comparar resultados rápidamente.

Comparativa de precios y rendimiento frente a la competencia

gemini-embedding-2-preview-multimodal-embedding-model-apiyi-guide-es 图示

Comparativa de precios de incrustación de texto (embeddings)

Modelo Precio/Millón de Tokens Dimensión máxima Entrada máxima Multimodal Ranking multilingüe
Gemini Embedding 2 $0.20 3,072 8,192 ✅ Pentamodal #1
gemini-embedding-001 $0.15 3,072 2,048
OpenAI text-embedding-3-large $0.13 3,072 8,191
OpenAI text-embedding-3-small $0.02 1,536 8,191

Precios de contenido multimodal (Exclusivo de Gemini Embedding 2):

Tipo de entrada Precio estándar/Millón de Tokens Precio por lotes/Millón de Tokens
Texto $0.20 $0.10
Imagen $0.45 (~$0.00012/ud) $0.225
Audio $6.50 (~$0.00016/seg) $3.25
Video $12.00 (~$0.00079/frame) $6.00

Recomendaciones de selección

Escenario de uso Modelo recomendado Motivo
Solo texto, sensible al costo OpenAI text-embedding-3-small El más económico ($0.02)
Solo texto, alta precisión Gemini Embedding 2 u OpenAI 3-large Precisión similar, Gemini superior en multilingüe
Búsqueda multimodal Gemini Embedding 2 Única solución multimodal nativa
Recuperación multilingüe Gemini Embedding 2 #1 en multilingüe MTEB
Búsqueda de código Gemini Embedding 2 #1 en código MTEB
Gran escala, bajo costo OpenAI 3-small + API por lotes 10x ventaja en precio

🎯 Consejo de selección: La elección del modelo de embedding depende de tu caso de uso específico.
Recomendamos integrar los modelos de embedding de Gemini y OpenAI a través de la plataforma APIYI (apiyi.com),
para comparar los resultados de recuperación con datos reales antes de decidir. La plataforma admite una interfaz unificada, por lo que puedes cambiar de modelo sin modificar tu código.

Detalles sobre la invocación de la API

Especificación del tipo de tarea (Cambio importante)

A diferencia de gemini-embedding-001, Gemini Embedding 2 ya no utiliza el parámetro task_type. En su lugar, el tipo de tarea se especifica incrustando instrucciones dentro del contenido de entrada.

8 tipos de tareas compatibles:

Tipo de tarea Formato de consulta Formato de documento
Búsqueda/Recuperación task: search result | query: {contenido} title: {título} | text: {contenido}
Preguntas y respuestas task: question answering | query: {pregunta} title: {título} | text: {contenido}
Verificación de hechos task: fact checking | query: {afirmación} title: {título} | text: {contenido}
Recuperación de código task: code retrieval | query: {descripción} title: {título} | text: {código}
Clasificación task: classification | query: {contenido} Mismo formato
Agrupamiento (Clustering) task: clustering | query: {contenido} Mismo formato
Similitud de oraciones task: sentence similarity | query: {oración} Mismo formato

Para el lado del documento, si no hay título, utiliza title: none.

Ejemplo de invocación en Python

import openai

# Invocación a través de la interfaz unificada de APIYI
client = openai.OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1"
)

# Incrustación de texto - Escenario de búsqueda
response = client.embeddings.create(
    model="gemini-embedding-2-preview",
    input="task: search result | query: ¿Qué es una base de datos vectorial?",
    dimensions=768  # Dimensiones opcionales: 128-3072
)

embedding = response.data[0].embedding
print(f"Dimensión del vector: {len(embedding)}")
print(f"Primeros 5 valores: {embedding[:5]}")
Ver el código completo del flujo de recuperación RAG
import openai
import numpy as np
from typing import List

client = openai.OpenAI(
    api_key="YOUR_APIYI_KEY",
    base_url="https://api.apiyi.com/v1"
)

def get_embedding(text: str, task: str = "search result", dim: int = 768) -> List[float]:
    """Obtener vector de incrustación de texto"""
    formatted = f"task: {task} | query: {text}"
    response = client.embeddings.create(
        model="gemini-embedding-2-preview",
        input=formatted,
        dimensions=dim
    )
    vec = response.data[0].embedding
    # La dimensión de truncamiento MRL requiere normalización manual
    if dim < 3072:
        norm = np.linalg.norm(vec)
        vec = (np.array(vec) / norm).tolist()
    return vec

def get_doc_embedding(title: str, text: str, dim: int = 768) -> List[float]:
    """Obtener vector de incrustación de documento"""
    formatted = f"title: {title} | text: {text}"
    response = client.embeddings.create(
        model="gemini-embedding-2-preview",
        input=formatted,
        dimensions=dim
    )
    vec = response.data[0].embedding
    if dim < 3072:
        norm = np.linalg.norm(vec)
        vec = (np.array(vec) / norm).tolist()
    return vec

def cosine_similarity(a: List[float], b: List[float]) -> float:
    """Calcular similitud de coseno"""
    a, b = np.array(a), np.array(b)
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

# Ejemplo de uso
query_vec = get_embedding("Cómo optimizar los resultados de recuperación RAG")
doc_vec = get_doc_embedding(
    "Guía de optimización RAG",
    "Este artículo presenta 5 métodos para optimizar la calidad de recuperación RAG..."
)
similarity = cosine_similarity(query_vec, doc_vec)
print(f"Similitud: {similarity:.4f}")

🚀 Inicio rápido: Recomendamos usar la plataforma APIYI apiyi.com para integrar Gemini Embedding 2 rápidamente.
Esta plataforma ofrece una interfaz de embedding compatible con OpenAI, permitiendo completar la integración en 5 minutos,
y admite la invocación unificada de modelos de embedding convencionales como OpenAI, Gemini y Cohere.

Notas de uso

Limitaciones del estado Preview

Limitación Descripción Impacto
Posibles cambios de versión Las especificaciones y precios pueden ajustarse en la fase Preview Se recomienda preparar planes de respaldo para entornos de producción
Incompatibilidad de espacio vectorial No se puede mezclar con vectores de modelos antiguos La actualización requiere reindexación completa
Normalización para dimensiones bajas Requiere normalización manual al usar dimensiones <3,072 Es necesario añadir pasos de normalización en el código
Límites de tasa estrictos La cuota de modelos Preview es menor que la de modelos GA Se requiere solicitar un aumento de cuota para uso a gran escala
Uso de datos en capa gratuita Los datos de la capa gratuita se utilizan para mejorar el producto Se recomienda usar la capa de pago para datos sensibles

Notas sobre la migración desde modelos antiguos

  1. Reindexación obligatoria: Los espacios vectoriales de diferentes modelos son incompatibles; no pueden mezclarse en la misma base de datos.
  2. Cambio de formato de tipo de tarea: Se cambió el parámetro task_type por instrucciones incrustadas en el prompt.
  3. Procesamiento de normalización: Si utilizas dimensiones no predeterminadas, debes añadir lógica de normalización en tu código.
  4. Prueba de efectos antes de migrar: Se recomienda comparar los resultados de recuperación entre los modelos nuevos y antiguos en un entorno de prueba antes de decidir la migración.

Preguntas frecuentes

Q1: ¿Qué ventajas tiene Gemini Embedding 2 Preview frente a OpenAI text-embedding-3-large?

Sus ventajas principales se resumen en tres puntos: soporte multimodal nativo (OpenAI solo admite texto), el puesto número 1 en el ranking multilingüe MTEB (con una ventaja significativa) y una mayor calidad en la incrustación de código. Sin embargo, OpenAI text-embedding-3-large es más económico ($0.13 frente a $0.20) y, si solo necesitas incrustación de texto en inglés, la calidad de ambos es muy similar. A través de APIYI (apiyi.com) puedes invocar ambos modelos y compararlos con datos reales.

Q2: ¿Qué utilidad práctica tiene la incrustación multimodal?

Su aplicación más directa es la búsqueda transmodal: el usuario introduce texto y el sistema devuelve imágenes, vídeos o documentos relacionados. Por ejemplo, en un entorno de comercio electrónico, se puede buscar un producto con el término "vestido rojo", o en una base de conocimientos corporativa, buscar fragmentos relevantes en vídeos de formación mediante una descripción textual. El método tradicional requería usar primero un modelo visual para extraer una descripción y luego incrustar el texto; Gemini Embedding 2 procesa directamente la imagen o vídeo original, reduciendo la pérdida de información.

Q3: ¿Qué dimensiones son las más adecuadas? ¿Hay mucha diferencia entre 768 y 3072?

Para la mayoría de las aplicaciones, 768 dimensiones representan el equilibrio ideal: el coste de almacenamiento es solo una cuarta parte del de 3072, pero la pérdida en la calidad de recuperación es mínima (gracias al entrenamiento Matryoshka). Si tu conjunto de datos es pequeño (<1 millón de registros) y requieres una precisión extrema, utiliza 3072 dimensiones. Si manejas un gran volumen de datos o necesitas una recuperación en tiempo real, 768 o incluso 256 dimensiones son opciones perfectamente razonables.

Q4: ¿Cómo soporta APIYI a Gemini Embedding 2? ¿Se requiere configuración adicional?

APIYI (apiyi.com) ya es compatible con el modelo gemini-embedding-2-preview. Puedes invocarlo mediante la interfaz de incrustación estándar compatible con OpenAI, sin necesidad de configurar una clave API de Google adicional. Solo tienes que especificar gemini-embedding-2-preview en el parámetro model; el resto de los parámetros (como dimensions) son exactamente iguales a los de la interfaz de incrustación de OpenAI.

gemini-embedding-2-preview-multimodal-embedding-model-apiyi-guide-es 图示

Resumen: El nuevo estándar en embeddings multimodales

Gemini Embedding 2 Preview marca un hito importante en los modelos de embedding: la transición del texto puro hacia un espacio unificado verdaderamente multimodal. Al alcanzar el primer puesto simultáneamente en las dimensiones multilingüe, inglés y código del MTEB, sumado a su ventana de contexto de 8K y la escalabilidad de dimensiones MRL, ofrece las capacidades fundamentales más potentes actualmente para sistemas RAG, búsqueda semántica y construcción de bases de conocimiento.

Resumen de puntos clave:

  • El primer modelo de embedding nativo de cinco modalidades (texto + imagen + video + audio + PDF) de la industria.
  • 1.er lugar en el benchmark multilingüe MTEB, superando al segundo por más de 5 puntos.
  • Ventana de contexto de 8,192 tokens, 4 veces mayor que la generación anterior.
  • Entrenamiento MRL que admite una escalabilidad flexible de 128 a 3,072 dimensiones.
  • Precio de $0.20 por millón de tokens, ofreciendo una relación costo-beneficio extremadamente alta para escenarios multimodales.

Recomendamos acceder rápidamente a Gemini Embedding 2 Preview a través de APIYI apiyi.com; una sola clave API permite integrar modelos de embedding líderes como Gemini y OpenAI, facilitando la comparación y el cambio entre ellos.


📝 Autor de este artículo: Equipo técnico de APIYI | APIYI apiyi.com – Plataforma de acceso unificado a más de 300 APIs de Modelos de Lenguaje Grande.

Referencias

  1. Blog oficial de Google: Anuncio del lanzamiento de Gemini Embedding 2

    • Enlace: blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
    • Descripción: Incluye la filosofía de diseño del modelo y una introducción a sus capacidades multimodales.
  2. Documentación de la API de Gemini: Guía oficial de uso de la API

    • Enlace: ai.google.dev/gemini-api/docs/embeddings
    • Descripción: Parámetros completos de la API y ejemplos de invocación del modelo.
  3. Documento de investigación de Gemini Embedding: Detalles técnicos y benchmarks

    • Enlace: arxiv.org/html/2503.07891v1
    • Descripción: Datos detallados de las pruebas MTEB y análisis de la arquitectura del modelo.
  4. Precios de la API de Gemini: Información detallada de precios por modalidad

    • Enlace: ai.google.dev/gemini-api/docs/pricing
    • Descripción: Precios desglosados para texto, imágenes, audio y video.

Publicaciones Similares