El 19 de mayo de 2026, Google presentó oficialmente Gemini 3.5 Flash durante el evento I/O 2026. Se trata del primer modelo público de la serie Gemini 3.5. Su ID de API es directamente gemini-3.5-flash, sin el sufijo "preview", lo que confirma que ya se encuentra en estado GA (disponibilidad general). Ese mismo día, la plataforma APIYI (apiyi.com) completó su integración, permitiendo a los desarrolladores invocar Gemini 3.5 Flash directamente en sus productos mediante una interfaz compatible con OpenAI. Los nuevos usuarios reciben un crédito gratuito de 0.05 USD al registrarse, lo que permite realizar pruebas de integración sin coste alguno.

Lo que más ha sorprendido a los desarrolladores es el fenómeno "Flash supera a Pro": en benchmarks como Terminal-Bench 2.1, MCP Atlas, Finance Agent v2 y GDPval-AA, Gemini 3.5 Flash ha obtenido puntuaciones superiores al anterior modelo insignia, Gemini 3.1 Pro, con una velocidad de salida que, según Google, es unas 4 veces mayor que la de otros modelos punteros de su categoría. Para equipos que ejecutan agentes de codificación, flujos de trabajo de invocación de herramientas o procesamiento de documentos extensos, esta es la actualización de modelo más importante de mayo. Recomendamos probar sus tareas reales utilizando el crédito gratuito de APIYI (apiyi.com) antes de decidir si migrar su producción a la versión 3.5.
¿Qué es Gemini 3.5 Flash?: El posicionamiento central de la versión oficial de Google
Gemini 3.5 Flash es la versión ligera insignia lanzada por Google DeepMind dentro de la familia Gemini 3.5, posicionada como "Agentic Flash": conserva la baja latencia y el alto rendimiento de la serie Flash, pero incorpora capacidades de orquestación de herramientas y razonamiento multietapa que antes estaban reservadas para los modelos Pro. Google destacó en la presentación que 3.5 Flash es su modelo de orquestación de agentes más potente hasta la fecha, desplegado simultáneamente en las aplicaciones Gemini, el modo IA de Google Search, Google Antigravity, Google AI Studio y la nube empresarial.
Este lanzamiento cuenta con cuatro puntos clave: primero, el ID del modelo no tiene sufijo "preview" (la versión interna es 3.5-flash-05-2026), lo que significa que se ofrece directamente en formato GA. Segundo, el "Dynamic Thinking" (pensamiento dinámico) está activado por defecto; el modelo determina automáticamente si el problema requiere un razonamiento profundo sin necesidad de configurar manualmente un presupuesto de pensamiento. Tercero, las capacidades de herramientas están completas por defecto: function calling, salida estructurada, Search-as-a-Tool y ejecución de código están disponibles para integrar agentes complejos. Cuarto, el corte de conocimiento se ha actualizado a enero de 2026, situándolo entre los modelos cerrados más actualizados.
La siguiente tabla resume las especificaciones principales de Gemini 3.5 Flash, basadas en la documentación oficial de Google AI for Developers y datos de pruebas de LLM-Stats y Artificial Analysis.
| Parámetro | Valor de Gemini 3.5 Flash | Notas |
|---|---|---|
| Fecha de lanzamiento | 19 de mayo de 2026 | Presentación en Google I/O 2026 |
| ID del modelo | gemini-3.5-flash |
Versión oficial, sin sufijo preview |
| Versión interna | 3.5-flash-05-2026 |
Coincide con Google AI Studio |
| Posicionamiento | Agentic Flash · Orquestación + Codificación | Supera a 3.1 Pro en varios benchmarks |
| Ventana de contexto | 1,048,576 entrada / 65,536 salida tokens | Es decir, 1M / 64K |
| Modalidades de entrada | Texto + Imagen + Audio + Vídeo | Salida solo texto |
| Pensamiento dinámico | Activado por defecto | Sin configuración manual |
| Herramientas | function calling / salida estructurada / Search-as-a-Tool / ejecución de código | Stack completo para agentes |
| Corte de conocimiento | Enero de 2026 | Contemporáneo a GPT-5.5 y Claude Opus 4.7 |
| Acceso API | Compatible con OpenAI / Nativa de Gemini | APIYI (apiyi.com) admite ambos métodos |
🎯 Sugerencia de integración: El mayor cambio de Gemini 3.5 Flash es que convierte la combinación de "modelo ligero + invocación de herramientas" en una capacidad estándar. Por ello, la forma más rentable de integrarlo no es una sustitución puntual, sino utilizarlo como "capa de orquestación" en sus flujos de trabajo de agentes. Recomendamos utilizar la interfaz unificada de APIYI (apiyi.com) para obtener el crédito gratuito de 0.05 USD, realizar pruebas de regresión con sus flujos actuales (GPT-5.5 Instant / Claude Haiku 4.5 / Gemini 3.1 Flash) y luego decidir su implementación en producción.
Vistazo rápido a los precios y la ventana de contexto de Gemini 3.5 Flash
El precio de Gemini 3.5 Flash es otro de los puntos más debatidos tras este lanzamiento. Google ha incrementado el coste de la serie Flash desde los $0.50 / $4 de la versión 3 Flash Preview hasta los $1.50 / $9 de la 3.5 Flash, acercándose al rango de precios de Gemini 3.1 Pro ($2 / $12). Simon Willison, en la comunidad angloparlante, sugiere que Google está "probando la tolerancia al precio de los clientes de la API", lo que también implica que el objetivo de la 3.5 Flash no es ser más barata, sino ofrecer la inteligencia de la gama Pro al coste de una gama Flash.
La siguiente tabla compara el precio oficial de Gemini 3.5 Flash con otros modelos convencionales de su categoría para ayudarte a decidir si es rentable para tus cargas de trabajo. Todos los precios están expresados en dólares por cada millón de tokens.
| Modelo | Precio de entrada | Precio de salida | Entrada con caché | Ventana de contexto |
|---|---|---|---|---|
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | 1M / 64K salida |
| Gemini 3.1 Pro | $2.00 | $12.00 | $0.20 | 1M / 64K salida |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | $0.025 | 1M / 64K salida |
| GPT-5.5 (modelo principal) | $5.00 | $30.00 | $0.50 | 400K entrada |
| Claude Opus 4.7 (1M) | $15.00 | $75.00 | $1.50 | 1M entrada |
Ten en cuenta tres puntos clave de comparación. Primero, en comparación con el Gemini 3.1 Pro de la misma casa, Gemini 3.5 Flash es un 25% más barato y, sin embargo, resulta más potente en codificación y evaluaciones de agentes, por lo que es una oportunidad clara de "actualización con reducción de costes" para los usuarios de Pro. Segundo, frente a GPT-5.5, el precio por token de Gemini 3.5 Flash es menos de un tercio, con una diferencia de apenas 5 puntos en el Artificial Analysis Intelligence Index, lo que lo hace ideal como modelo principal para conversaciones y agentes sensibles al coste. Tercero, comparado con Claude Opus 4.7, la inteligencia integral de Gemini 3.5 Flash es solo 2 puntos inferior, pero el coste total por millón de tokens es menos de una décima parte, lo que permite ahorrar un presupuesto considerable en escenarios de contexto extremadamente largo.
💡 Consejo de optimización de precios: Gemini 3.5 Flash ofrece un precio de entrada con caché de $0.15 / 1M, ideal para escenarios de system prompt largos y RAG con documentos extensos. Recomendamos activar prompt caching en la plataforma APIYI (apiyi.com) para reutilizar al máximo las instrucciones fijas, fragmentos de bases de conocimiento e historial de conversaciones largas, lo que puede reducir el coste de entrada de 1M de tokens a niveles similares a los de 3.1 Flash-Lite.
Pruebas de referencia clave de Gemini 3.5 Flash: Comparativa real con Gemini 3.1 Pro
Uno de los datos más contraintuitivos del lanzamiento de Gemini 3.5 Flash es que "Flash supera a Pro". Tanto la ficha técnica oficial de Google como las pruebas independientes de LLM-Stats lo confirman: en tareas como agentes, orquestación de herramientas, codificación y análisis financiero, la puntuación de 3.5 Flash es superior a la de Gemini 3.1 Pro; solo queda ligeramente por debajo en razonamiento académico puro (Humanity's Last Exam) y razonamiento abstracto (ARC-AGI-2).
La siguiente tabla resume las comparativas de referencia clave entre Gemini 3.5 Flash y Gemini 3.1 Pro, con datos extraídos de fuentes oficiales de Google y evaluaciones públicas de terceros.
| Prueba de referencia | Gemini 3.5 Flash | Gemini 3.1 Pro | Diferencia | Capacidad evaluada |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 76.2% | 70.3% | +5.9 | Agente de codificación en terminal |
| MCP Atlas | 83.6% | 78.2% | +5.4 | Invocación de herramientas MCP |
| Finance Agent v2 | 57.9% | 43.0% | +14.9 | Agente de documentos financieros |
| GDPval-AA (Elo) | 1656 | 1314 | +342 | Agente general integral |
| CharXiv Reasoning | 84.2% | — | — | Razonamiento con gráficos |
| Humanity's Last Exam | 40.2% | 44.4% | -4.2 | Razonamiento académico puro |
| ARC-AGI-2 | 72.1% | 77.1% | -5.0 | Razonamiento de patrones abstractos |
| Velocidad de salida | ~284 token/s | Más lento | — | Respuesta en tiempo real |

Estos datos transmiten tres señales claras. Primero, el "adelantamiento" de Gemini 3.5 Flash se concentra en la invocación de herramientas y tareas de agentes; los +14.9 en Finance Agent v2 y los +342 Elo en GDPval-AA son un margen considerable. Segundo, el conocimiento estático puro y el razonamiento abstracto siguen siendo el punto fuerte de los modelos Pro; si tu carga de trabajo se inclina hacia olimpiadas matemáticas, razonamiento académico o lógica de cadena larga, Gemini 3.5 Flash no es necesariamente la mejor opción. Tercero, Google ha utilizado el modelo Flash para realizar una "redistribución de tareas en el espectro de modelos"; según noticias externas, Gemini 3.5 Pro se lanzará el próximo mes y elevará aún más el techo de la gama Pro.
Cabe destacar el Artificial Analysis Intelligence Index (índice de inteligencia integral). Gemini 3.5 Flash obtuvo 55 puntos en este índice sintético, a solo 2 puntos de Claude Opus 4.7 y a 5 puntos de GPT-5.5. Teniendo en cuenta que el precio de entrada de 3.5 Flash es una décima parte del de Claude Opus 4.7 y menos de un tercio del de GPT-5.5, es uno de los modelos "cercanos al primer nivel" con mejor relación calidad-precio. Recomendamos probarlo como modelo de agente predeterminado en la plataforma APIYI (apiyi.com) para reducir significativamente la carga operativa de gestionar múltiples proveedores.
Análisis de impacto de Gemini 3.5 Flash: ¿Qué significa para los desarrolladores?
El impacto de este lanzamiento no se limita a tener un modelo más entre el cual elegir; Google ha presentado un conjunto integral capaz de competir con GPT-5.5 y Claude Opus 4.7, apostando por la ruta "Flash + Agente". Esto redefinirá varios flujos de trabajo clave en los próximos 1 o 2 trimestres.

Impacto directo para los desarrolladores de agentes
Los equipos que trabajan con agentes son los beneficiarios más directos de Gemini 3.5 Flash. Según las pruebas de referencia, las mejoras en Terminal-Bench 2.1 y MCP Atlas significan que los cuellos de botella tradicionales, como la "invocación de herramientas en múltiples pasos + recuperación de errores", han mejorado. El aumento de +14.9 en Finance Agent v2 demuestra un progreso notable en el procesamiento de documentos estructurados. Empresas internacionales como Shopify, Macquarie Bank, Salesforce, Ramp, Xero y Databricks ya han sido listadas por Google como clientes iniciales, cubriendo escenarios como análisis de datos, documentos financieros, automatización empresarial, OCR de facturas, flujos de trabajo fiscales y monitoreo de conjuntos de datos. Si tu producto incluye un flujo de trabajo de "leer documento → invocar herramienta → generar resultado estructurado", Gemini 3.5 Flash es un candidato que debes evaluar de inmediato.
Impacto en aplicaciones RAG de contexto largo
Gemini 3.5 Flash mantiene su ventana de 1M de entrada + 64K de salida, y sumado a un precio de $0.15 por cada 1M de tokens en caché, ha logrado llevar el costo del "RAG de contexto largo a escala de millones" a un nivel asequible para SaaS de consumo. Una referencia común: un prefijo de base de conocimientos fijo de 500k tokens + 50k tokens de preguntas del usuario, tras el acierto de caché, tiene un costo de entrada por inferencia inferior a 0.1 USD, mucho menor que el gasto de dividir el mismo contexto entre GPT-5.5 o Claude Opus 4.7. Recomendamos unificar el enlace de RAG de contexto largo en APIYI (apiyi.com) usando gemini-3.5-flash; la estrategia de caché puede reutilizar directamente la implementación de la interfaz de Gemini existente.
Impacto en las estrategias de enrutamiento de modelos
Tras el lanzamiento de Gemini 3.5 Flash, las estrategias de enrutamiento de múltiples modelos deben rediseñarse. La división tradicional de "GPT para chat, Claude para código, Gemini para multimodal" ha quedado obsoleta, ya que Gemini 3.5 Flash es competitivo en las tres áreas: agentes de codificación, invocación de herramientas y entrada multimodal. Sugerimos establecer gemini-3.5-flash como el nuevo "modelo de capa de herramientas general", manteniendo a GPT-5.5 Instant, Claude Opus 4.7 y Gemini 3.1 Pro como refuerzos para tareas específicas. A través de la interfaz unificada de APIYI (apiyi.com), puedes completar el cambio de enrutamiento de modelos sin costo adicional.
Integración y prueba gratuita de Gemini 3.5 Flash en APIYI
La integración de Gemini 3.5 Flash en la plataforma APIYI (apiyi.com) es totalmente compatible con OpenAI, por lo que los desarrolladores no necesitan reconstruir la autenticación ni la lógica de enrutamiento. Los nuevos usuarios reciben un crédito de prueba de 0.05 USD al registrarse, suficiente para ejecutar los ejemplos oficiales y completar una prueba de regresión integral de su flujo de trabajo de agentes.
Ejemplo de invocación minimalista
from openai import OpenAI
client = OpenAI(
api_key="YOUR_APIYI_KEY",
base_url="https://api.apiyi.com/v1",
)
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[
{"role": "system", "content": "Eres un ingeniero de orquestación de agentes."},
{"role": "user", "content": "Planifica una cadena de herramientas para extraer issues de GitHub y generar un informe semanal."},
],
)
print(response.choices[0].message.content)
Ver invocación completa con function calling
from openai import OpenAI
client = OpenAI(
api_key="YOUR_APIYI_KEY",
base_url="https://api.apiyi.com/v1",
)
tools = [
{
"type": "function",
"function": {
"name": "fetch_github_issues",
"description": "Extraer la lista de issues de un repositorio específico",
"parameters": {
"type": "object",
"properties": {
"repo": {"type": "string", "description": "propietario/repositorio"},
"state": {"type": "string", "enum": ["open", "closed", "all"]},
},
"required": ["repo"],
},
},
}
]
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[
{"role": "user", "content": "Ayúdame a ver los nuevos issues abiertos esta semana en el repositorio anthropics/anthropic-cookbook"},
],
tools=tools,
tool_choice="auto",
)
print(response.choices[0].message)
💡 Sugerencia de prueba: Con una tarifa de 1.50 USD / 9 USD para Gemini 3.5 Flash, el crédito de 0.05 USD permite procesar aproximadamente entre 30,000 y 40,000 tokens de entrada o 5,000 tokens de salida, suficiente para probar tus indicaciones (prompts) actuales en APIYI. Recomendamos priorizar la ejecución de tareas reales con el crédito gratuito en lugar de solo probar los ejemplos oficiales; así podrás determinar con mayor precisión si "Flash supera a Pro" en tu caso de uso específico.
Tres pasos para completar la integración
- Regístrate en APIYI (apiyi.com) y, tras verificar tu cuenta, recibirás el crédito gratuito de 0.05 USD.
- Genera una clave API en el panel de control, cambia la
base_urldel SDK de OpenAI ahttps://api.apiyi.com/v1y establece el campomodelcomogemini-3.5-flash. - Reutiliza directamente las indicaciones (prompts) reales de GPT-5.5 Instant o Gemini 3.1 Pro Preview y compara la calidad de respuesta, la latencia y el consumo de tokens.
Preguntas frecuentes sobre Gemini 3.5 Flash
P1: ¿Quién es mejor, Gemini 3.5 Flash o Gemini 3.1 Pro Preview?
Depende del escenario. En tareas de agentes y codificación como Terminal-Bench 2.1, MCP Atlas, Finance Agent v2 y GDPval-AA, Gemini 3.5 Flash supera a Gemini 3.1 Pro; sin embargo, en Humanity's Last Exam (razonamiento académico puro) y ARC-AGI-2 (razonamiento abstracto), es ligeramente inferior a 3.1 Pro. Conclusión: los equipos que trabajan con agentes, llamadas a herramientas, código y RAG de documentos largos deberían priorizar Gemini 3.5 Flash; aquellos centrados en razonamiento estático o evaluaciones académicas pueden seguir usando 3.1 Pro. Puedes realizar una comparación de regresión directamente en APIYI con el crédito gratuito.
P2: ¿Por qué Gemini 3.5 Flash ya no lleva el sufijo «preview»?
Es el resultado de la nueva estrategia de lanzamiento de modelos de Google para la serie 3.5. Gemini 3.5 Flash se lanza directamente como GA (Disponibilidad General), con el ID de modelo gemini-3.5-flash y la versión interna 3.5-flash-05-2026, lo que significa que ha superado todas las evaluaciones de seguridad y cuenta con un SLA de nivel de producción. Esto difiere de la ruta de lanzamiento gradual de Gemini 3.1 Pro Preview, por lo que los desarrolladores pueden integrarlo en código de producción sin temor a cambios o interrupciones inesperadas.
P3: ¿Cuántas solicitudes de Gemini 3.5 Flash puedo realizar con 0.05 USD?
Con un precio de 1.50 USD por 1M de tokens de entrada y 9 USD por 1M de tokens de salida, 0.05 USD cubren aproximadamente 30,000 tokens de entrada y 1,500 de salida, lo que equivale a entre 30 y 50 llamadas de conversación de longitud media. Si activas el almacenamiento en caché de indicaciones (prompt caching), la parte de caché se factura a 0.15 USD por 1M, lo que permite extender aún más el crédito gratuito.
P4: ¿Gemini 3.5 Flash admite entrada de video y audio?
Sí. Las modalidades de entrada de Gemini 3.5 Flash incluyen texto, imágenes, audio y video (la salida es solo texto). Ten en cuenta que el video y el audio se contabilizan como tokens en la tarifa de entrada. La interfaz de APIYI ya expone estos parámetros multimodales, por lo que puedes reutilizar tu código de invocación multimodal de Gemini 3.x sin cambios.
Resumen: Gemini 3.5 Flash es la actualización de modelo más valiosa de mayo
Volviendo al hecho más contraintuitivo que mencionamos al principio: Gemini 3.5 Flash ha superado a la generación anterior, Gemini 3.1 Pro, en tareas de agentes y codificación, todo esto costando solo el 75% del precio de la versión Pro. Además, cuenta con una fecha de corte de conocimiento actualizada a enero de 2026 y, según las pruebas oficiales, su velocidad de salida es 4 veces mayor que la de otros modelos líderes en su categoría. Para los equipos que ejecutan agentes, llamadas a herramientas, RAG con documentos extensos y flujos de trabajo de automatización empresarial, esta es la actualización de modelo de Google que merece ser evaluada de inmediato durante la primera mitad de 2026.
Gemini 3.5 Flash ya está disponible en la plataforma APIYI (apiyi.com). Los nuevos usuarios reciben un crédito gratuito de 0.05 USD al registrarse, lo que permite realizar pruebas de integración sin costo alguno. Recomendamos priorizar su uso en la capa de orquestación de herramientas de sus flujos de trabajo de agentes, accediendo directamente a través de la interfaz compatible con OpenAI de APIYI (apiyi.com). De esta manera, no solo disfrutarán de las actualizaciones de modelos de Google de primera mano, sino que también podrán enrutar de forma flexible entre modelos como Claude Opus 4.7, GPT-5.5 Instant, Gemini 3.1 Pro y otros.
Autor: Equipo técnico de APIYI · apiyi.com
Fecha de publicación: 20 de mayo de 2026
Referencias: Google AI for Developers, LLM-Stats, Artificial Analysis, Simon Willison Blog, Interesting Engineering, 9to5Google
