title: "¿Por qué las API de generación de imágenes usan RPM en lugar de QPS? Análisis de Nano Banana"
description: "Descubre por qué las API de generación de imágenes como Nano Banana Pro utilizan RPM en lugar de QPS, analizando el bloqueo sincrónico de los modelos."
Nota del autor: Análisis profundo de por qué las API de generación de imágenes, como Nano Banana Pro y Nano Banana 2, utilizan RPM (solicitudes por minuto) en lugar de QPS (consultas por segundo) como métrica de limitación de velocidad, partiendo de la naturaleza de bloqueo de las llamadas sincrónicas de Gemini para entender las diferencias en los escenarios de aplicación.
Si has utilizado la API de modelos de lenguaje, probablemente estés acostumbrado a la métrica QPS (consultas por segundo). Sin embargo, al llegar a las API de generación de imágenes como Nano Banana Pro y Nano Banana 2, la documentación oficial solo habla de RPM (solicitudes por minuto). ¿Por qué las API de generación de imágenes no hablan de QPS? No es una cuestión de preferencia de nomenclatura, sino de que el modelo de llamada sincrónica bloqueante de la generación de imágenes hace que el QPS sea prácticamente irrelevante en este escenario. Este artículo explica la diferencia desde los fundamentos técnicos.
Valor central: Al terminar de leer este artículo, comprenderás la diferencia esencial entre RPM y QPS en distintos escenarios de API, y por qué el modelo de llamada sincrónica de la API de imágenes de Gemini convierte al QPS en un concepto vacío.

Puntos clave: RPM vs. QPS
Respondamos directamente a la pregunta: las API de generación de imágenes utilizan RPM en lugar de QPS porque el tiempo de bloqueo de las invocaciones síncronas es demasiado largo, lo que hace que el QPS carezca de sentido práctico.
| Concepto | Definición | Escenario de uso | ¿Es apto para la API de imágenes? |
|---|---|---|---|
| QPS | Consultas por segundo (Queries Per Second) | Servicios de alta frecuencia con respuesta en milisegundos | No |
| RPS | Solicitudes por segundo (Requests Per Second) | Básicamente equivalente a QPS | No |
| RPM | Solicitudes por minuto (Requests Per Minute) | Servicios lentos con respuesta en segundos o minutos | Sí |
| IPM | Imágenes por minuto (Images Per Minute) | Específico para generación de imágenes | El más adecuado |
| RPD | Solicitudes por día (Requests Per Day) | Gestión de cuotas | Sí |
Por qué el QPS en la API de generación de imágenes es un falso dilema
La clave para entender este problema reside en la naturaleza de invocación síncrona de la API de generación de imágenes de Gemini.
Cuando realizas una solicitud a Nano Banana 2 para generar una imagen, la API funciona mediante bloqueo síncrono: una vez que envías la solicitud, la conexión HTTP permanece abierta y el cliente espera hasta que la imagen se haya generado por completo (de 13 a 170 segundos) antes de recibir una respuesta. Durante todo este tiempo, la conexión no hace nada más que esperar.
Comparemos:
- API de Claude (texto): El primer token se devuelve en 50-200 ms, con transmisión en flujo (streaming), permitiéndote obtener resultados útiles en menos de 1 segundo.
- Nano Banana 2 (imagen 1K): Tarda al menos 13 segundos en devolver una respuesta, manteniendo la conexión bloqueada durante todo el proceso.
Por lo tanto, para la API de generación de imágenes, la pregunta de "¿cuántas solicitudes se pueden procesar por segundo?" (QPS) no tiene sentido, ya que una sola solicitud puede ocupar más de 13 segundos. Utilizar RPM es la unidad de medida lógica.
🎯 Analogía: El QPS es como medir cuántas hamburguesas puede servir un restaurante de comida rápida por segundo. El RPM es como medir cuántas mesas puede atender un restaurante formal por hora. No medirías la eficiencia de un restaurante de alta cocina por "platos servidos por segundo", porque un solo plato requiere 30 minutos de preparación.
A través de APIYI (apiyi.com), al invocar Nano Banana 2, el RPM no está sujeto a las restricciones oficiales, lo que permite realizar más solicitudes concurrentes.
Detalles técnicos de la invocación síncrona en la API de generación de imágenes de Gemini
Esta es la base fundamental para entender la diferencia entre RPM y QPS.
El proceso de bloqueo en la invocación síncrona de Nano Banana 2
El cliente envía la solicitud
│
▼
Establecimiento de conexión TCP ──────────────────────────────┐
│ │
▼ │
El servidor recibe la indicación │ La conexión permanece abierta
│ │ El cliente espera bloqueado
▼ │
Inferencia del modelo de difusión (13-170 segundos) │
│ │
▼ │
Codificación de la imagen a base64 │
│ │
▼ │
Devolución de la respuesta (incluye datos de la imagen) ──────┘
│
▼
El cliente recibe la imagen
Durante este proceso, el hilo o proceso del cliente queda completamente ocupado. Si utilizas una invocación síncrona de un solo hilo, solo podrás realizar 60 / tiempo de generación solicitudes por minuto. Para una imagen 1K de 13 segundos, el QPS de un solo hilo es de aproximadamente 0.077 (0.077 solicitudes por segundo), lo que equivale a solo 4.6 RPM.
Tiempos de bloqueo de Nano Banana 2 según la resolución
| Resolución | Tiempo de generación típico | Límite de RPM (hilo único) | "QPS" (hilo único) |
|---|---|---|---|
| 0.5K | ~8 segundos | ~7.5 RPM | 0.125 |
| 1K | ~13 segundos | ~4.6 RPM | 0.077 |
| 2K | ~30 segundos | ~2 RPM | 0.033 |
| 4K | ~90-170 segundos | ~0.4-0.7 RPM | 0.006-0.011 |
¿Lo ves? Con una resolución de 4K, el "QPS" de un solo hilo es de solo 0.006; es decir, se completa una solicitud cada 170 segundos en promedio. A esta escala, discutir sobre QPS carece de sentido; el RPM es la métrica efectiva.
¿En qué escenarios usar RPM y QPS?
Escenarios ideales para QPS
La condición previa para que el QPS (consultas por segundo) sea un indicador de tasa útil es: que el tiempo de respuesta de una sola solicitud sea mucho menor a 1 segundo.
| Tipo de servicio | Tiempo de respuesta típico | ¿Es útil el QPS? | Razón |
|---|---|---|---|
| CDN / Caché | 1-10ms | Extremadamente útil | Puede procesar miles de solicitudes por segundo |
| Consulta de base de datos | 5-50ms | Útil | Puede procesar cientos de solicitudes por segundo |
| Primer Token de LLM de texto | 50-200ms | Útil | Puede iniciar 5-20 solicitudes por segundo |
| API de búsqueda | 100-500ms | Útil | Puede completar 2-10 solicitudes por segundo |
Escenarios ideales para RPM
El RPM (solicitudes por minuto) es un indicador de tasa más razonable cuando: el tiempo de respuesta de una sola solicitud oscila entre segundos y minutos.
| Tipo de servicio | Tiempo de respuesta típico | ¿Por qué usar RPM? | Límites oficiales de Gemini |
|---|---|---|---|
| Generación de imágenes | 8-170 segundos | No se completa 1 solicitud en 1 segundo | RPM + IPM |
| Generación de video | 30-300 segundos | Una solicitud ocupa minutos | RPM |
| Procesamiento de datos por lotes | Nivel de minutos | La granularidad de la tarea es mayor a un segundo | RPM + RPD |
| Conversión de archivos | 5-60 segundos | El procesamiento individual es largo | RPM |
Límites de tasa de cuatro dimensiones para la API de generación de imágenes de Gemini
Google ha diseñado cuatro dimensiones de límites de tasa para la API de generación de imágenes de Gemini; si se activa cualquiera de ellas, se aplicará una limitación de velocidad:
| Dimensión | Significado | Nivel gratuito | Nivel 1 (Pago) |
|---|---|---|---|
| RPM | Solicitudes por minuto | 5-15 | 150-300 |
| TPM | Tokens por minuto | Limitado | Alto |
| RPD | Solicitudes por día | 20-100 | 1,000+ |
| IPM | Imágenes por minuto | Limitado | Alto |
Ten en cuenta el IPM (imágenes por minuto), que es un indicador diseñado específicamente para la generación de imágenes. Dado que una sola solicitud puede generar varias imágenes, el RPM y el IPM no tienen una relación simple de uno a uno.

Cómo aumentar el rendimiento real de la API de generación de imágenes
Una vez que comprendes la esencia del RPM (solicitudes por minuto), la siguiente pregunta es: ¿cómo maximizar la eficiencia de generación dentro de los límites de RPM?
Cálculo de concurrencia multihilo + límite de RPM
Supongamos que necesitas generar 20 imágenes de 1K por minuto:
RPM por hilo único = 60 segundos / 13 segundos ≈ 4.6 imágenes/minuto
Hilos necesarios = 20 / 4.6 ≈ 5 hilos concurrentes
Pero también debes asegurarte de que el total de RPM de los 5 hilos concurrentes (aprox. 23 RPM) no supere la cuota de RPM de tu cuenta. El nivel gratuito solo ofrece 5-15 RPM, mientras que el nivel Tier 1 ofrece 150-300 RPM.
Sugerencias de optimización de concurrencia para la API de imágenes
| Estrategia de optimización | Efecto | Escenario de aplicación |
|---|---|---|
| Concurrencia multihilo/corrutinas | Aumento lineal (limitado por RPM) | Escenarios de generación en tiempo real |
| Batch API asíncrona | Sin bloqueo + 50% de descuento | Lotes tolerantes a la latencia |
| Reducir resolución | Menos tiempo por imagen → mayor RPM | Vistas previas, miniaturas |
| Servicio proxy de API APIYI | Supera los límites oficiales de RPM | Entornos de producción de alta concurrencia |
| Configuración de tiempo de espera | Evita esperas innecesarias | Todos los escenarios (1K: 300s, 4K: 600s) |
🎯 Consejo práctico: Si necesitas generar imágenes con alta concurrencia, usar Nano Banana 2 a través de APIYI (apiyi.com) es la solución más sencilla: no está sujeto a los límites oficiales de RPM, tiene un 28% de descuento y un precio fijo de solo $0.045 para 4K.
Preguntas frecuentes
Q1: Si envío 10 solicitudes mediante concurrencia asíncrona, ¿cuántas cuentan para el RPM?
Cuentan 10. El cálculo de RPM se basa en la cantidad de solicitudes que envías en 1 minuto, independientemente de si esas solicitudes ya han regresado. Incluso si usas concurrencia asíncrona para enviar 10 solicitudes a la vez, si cada una se bloquea durante 13 segundos antes de regresar, las 10 solicitudes cuentan dentro del mismo minuto de RPM. Por lo tanto, la concurrencia multihilo puede aumentar el rendimiento, pero no puede eludir la cuota de RPM.
Q2: ¿Es la Batch API de Gemini asíncrona? ¿Puede eludir el RPM?
Sí. La Batch API de Gemini utiliza un modo asíncrono: envías un lote de solicitudes y recibes inmediatamente un ID de tarea, sin bloquear el cliente. La tarea se procesa en segundo plano y se te notifica cuando esté lista para obtener los resultados. La Batch API tiene su propia cuota independiente (basada en tokens), no ocupa la cuota de RPM en tiempo real y, además, es un 50% más barata. La desventaja es que no garantiza la inmediatez, por lo que es ideal para procesos por lotes que "no tienen prisa".
Q3: ¿Es chatgpt-image-latest de OpenAI también de bloqueo síncrono?
Sí. chatgpt-image-latest también es una invocación síncrona, con un tiempo de respuesta de unos 44-60 segundos. La comunidad de desarrolladores ha reportado problemas frecuentes de tiempo de espera con gpt-image-1, por lo que se recomienda establecer un tiempo de espera de al menos 300 segundos. Por lo tanto, la API de imágenes de OpenAI también utiliza RPM como indicador de límite de velocidad, con la misma lógica que Gemini: dado que el tiempo de respuesta del bloqueo síncrono es demasiado largo, el QPS no tiene sentido.
Q4: ¿Cómo ayuda APIYI a superar los límites oficiales de RPM?
APIYI utiliza un mecanismo de rotación de grupos de cuentas múltiples: la plataforma mantiene varias cuentas de API de Gemini y las solicitudes del cliente se asignan automáticamente a diferentes cuentas, cada una con su propia cuota de RPM. Para los desarrolladores, esto equivale a un aumento significativo del RPM sin necesidad de gestionar múltiples claves API. Además, disfrutas de un 28% de descuento y la ventaja de un precio fijo de $0.045 para 4K.

Resumen
La razón principal por la que la API de generación de imágenes de Nano Banana utiliza RPM en lugar de QPS es:
- El bloqueo sincrónico determina la unidad de medida: La API de generación de imágenes de Gemini es una llamada sincrónica; una solicitud bloquea el proceso entre 13 y 170 segundos. Como no se puede completar ni siquiera una solicitud por segundo, el indicador QPS (por segundo) carece de sentido aquí, siendo RPM (por minuto) la medida lógica.
- RPM es para servicios lentos, QPS para servicios rápidos: Un criterio sencillo es: si la respuesta individual tarda menos de 1 segundo, usa QPS; si tarda más de 1 segundo, usa RPM. La generación de imágenes, video y conversión de archivos pertenecen a escenarios de RPM.
- El núcleo para aumentar el rendimiento es la concurrencia + la cuota: La concurrencia multihilo puede aumentar el rendimiento de forma lineal, pero está limitada por la cuota de RPM. A través del grupo de cuentas rotativas de APIYI, es posible superar el límite de RPM de una sola cuenta.
Recomendamos utilizar Nano Banana 2 a través de APIYI (apiyi.com): sin las restricciones oficiales de RPM, con un 28% de descuento y un precio fijo de $0.045 por 4K.
📚 Referencias
-
Límites de tasa de la API de Gemini: Documentación oficial sobre límites de tasa.
- Enlace:
ai.google.dev/gemini-api/docs/rate-limits - Descripción: Incluye la explicación completa de las limitaciones en cuatro dimensiones: RPM, TPM, RPD e IPM.
- Enlace:
-
Comparativa de API sincrónica vs. asincrónica de Nano Banana Pro: Diferencias técnicas entre ambos modos de llamada.
- Enlace:
help.apiyi.com/en/nano-banana-pro-sync-async-api-comparison-en.html - Descripción: Incluye tiempos de bloqueo, configuración de tiempo de espera y cálculo de rendimiento.
- Enlace:
-
Límites de tasa de OpenAI: Documentación de límites de tasa de OpenAI (sistema RPM).
- Enlace:
developers.openai.com/api/docs/guides/rate-limits - Descripción: Compara el diseño de límites de tasa entre Gemini y OpenAI.
- Enlace:
-
Centro de documentación de APIYI: Acceso a la API de generación de imágenes superando los límites de RPM.
- Enlace:
docs.apiyi.com - Descripción: Acceso de alta concurrencia a Nano Banana 2 y precios con descuento.
- Enlace:
Autor: Equipo técnico de APIYI
Intercambio técnico: Te invitamos a participar en la sección de comentarios. Para más información, visita el centro de documentación de APIYI en docs.apiyi.com.
