title: "Por que APIs de geração de imagens usam RPM em vez de QPS? Entenda a diferença"
description: "Descubra por que APIs de geração de imagens, como Nano Banana Pro, utilizam RPM em vez de QPS, focando na natureza bloqueante das chamadas síncronas."
Nota do autor: Esta é uma análise profunda sobre o motivo pelo qual APIs de geração de imagens, como o Nano Banana Pro e o Nano Banana 2, utilizam RPM (requisições por minuto) em vez de QPS (consultas por segundo) como métrica de limite de taxa. Partindo das características de bloqueio das chamadas síncronas do Gemini, entenderemos as diferenças de cenário entre esses dois indicadores.
Se você já usou APIs de modelos de linguagem (LLMs), provavelmente está acostumado com o indicador QPS (consultas por segundo). No entanto, ao lidar com APIs de geração de imagens como o Nano Banana Pro e o Nano Banana 2, a documentação oficial fala apenas em RPM (requisições por minuto) — por que APIs de geração de imagens não discutem QPS? Isso não é uma questão de preferência de nomenclatura, mas sim porque o modelo de chamada síncrona bloqueante da geração de imagens torna o QPS praticamente irrelevante nesse cenário. Este artigo explicará claramente essa diferença a partir da base técnica.
Valor central: Ao terminar de ler este artigo, você entenderá a diferença essencial entre RPM e QPS em diferentes cenários de API, e por que o modo de chamada síncrona da API de imagens do Gemini torna o QPS uma questão sem sentido.

Pontos principais: RPM vs QPS
Vamos direto ao ponto: APIs de geração de imagens usam RPM em vez de QPS porque o tempo de bloqueio das chamadas síncronas é muito longo, tornando o QPS irrelevante na prática.
| Conceito | Definição | Cenário de aplicação | Aplicável à API de imagens? |
|---|---|---|---|
| QPS | Consultas por segundo (Queries Per Second) | Serviços de alta frequência com resposta em milissegundos | Não aplicável |
| RPS | Requisições por segundo (Requests Per Second) | Essencialmente equivalente ao QPS | Não aplicável |
| RPM | Requisições por minuto (Requests Per Minute) | Serviços lentos com resposta em segundos/minutos | Aplicável |
| IPM | Imagens por minuto (Images Per Minute) | Específico para geração de imagens | Mais aplicável |
| RPD | Requisições por dia (Requests Per Day) | Gestão de cotas | Aplicável |
Por que o QPS em APIs de geração de imagens é um conceito falso
A chave para entender isso está na natureza da chamada síncrona da API de geração de imagens do Gemini.
Quando você chama o Nano Banana 2 para gerar uma imagem, a API funciona de forma síncrona e bloqueante — após enviar a requisição, a conexão HTTP permanece aberta e o cliente aguarda até que a imagem seja totalmente gerada (de 13 a 170 segundos) para receber a resposta. Durante todo esse tempo, a conexão não faz nada além de esperar.
Compare:
- API Claude (texto): O primeiro token retorna em 50-200ms, com transmissão via streaming, permitindo obter resultados úteis em menos de 1 segundo.
- Nano Banana 2 (imagem 1K): Leva no mínimo 13 segundos para retornar, mantendo a conexão bloqueada durante todo o processo.
Portanto, para APIs de geração de imagens, a pergunta "quantas requisições podem ser processadas por segundo" (QPS) não faz sentido, já que uma única requisição pode ocupar sua conexão por mais de 13 segundos. O RPM é a unidade de medida lógica.
🎯 Analogia: O QPS é como medir quantos lanches uma lanchonete consegue servir por segundo. O RPM é como medir quantas mesas um restaurante formal consegue atender por hora. Você não usaria "pratos servidos por segundo" para medir a eficiência de um restaurante francês, porque um prato leva 30 minutos para ser preparado.
Ao utilizar o APIYI (apiyi.com) para chamar o Nano Banana 2, o RPM não é limitado pelas restrições oficiais, permitindo que você execute mais requisições simultâneas.
Detalhes técnicos da chamada síncrona da API de geração de imagens do Gemini
Esta é a base fundamental para entender a diferença entre RPM e QPS.
O processo de bloqueio da chamada síncrona do Nano Banana 2
Cliente envia requisição
│
▼
Conexão TCP estabelecida ───────────────────────┐
│ │
▼ │
Servidor recebe o comando │ Conexão mantida aberta
│ │ Cliente aguarda bloqueado
▼ │
Inferência do modelo de difusão (13-170 s) │
│ │
▼ │
Codificação da imagem em base64 │
│ │
▼ │
Retorno da resposta (contendo dados da imagem) ─┘
│
▼
Cliente recebe a imagem
Nesse processo, a thread/processo do cliente fica totalmente ocupada. Se você usar uma chamada síncrona de thread única, só conseguirá enviar 60 / tempo de geração requisições por minuto — para uma imagem 1K de 13 segundos, o QPS de thread única é de aproximadamente 0,077 (0,077 requisições por segundo), o que equivale a apenas 4,6 RPM.
Tempo de bloqueio do Nano Banana 2 por resolução
| Resolução | Tempo típico de geração | Limite de RPM (thread única) | "QPS" (thread única) |
|---|---|---|---|
| 0.5K | ~8 segundos | ~7,5 RPM | 0,125 |
| 1K | ~13 segundos | ~4,6 RPM | 0,077 |
| 2K | ~30 segundos | ~2 RPM | 0,033 |
| 4K | ~90-170 segundos | ~0,4-0,7 RPM | 0,006-0,011 |
Viu só? Na resolução 4K, o "QPS" de uma thread única é de apenas 0,006 — ou seja, leva em média 170 segundos para concluir uma única requisição. Nessa escala, discutir QPS é inútil; o RPM é a medida eficaz.
Em quais cenários usar RPM e QPS?
Cenários ideais para QPS
O QPS (Consultas por Segundo) é um indicador de taxa útil apenas sob uma condição: o tempo de resposta de uma única solicitação deve ser muito inferior a 1 segundo.
| Tipo de serviço | Tempo de resposta típico | QPS faz sentido? | Motivo |
|---|---|---|---|
| CDN / Cache | 1-10ms | Extremamente útil | Pode processar milhares de requisições por segundo |
| Consulta em banco de dados | 5-50ms | Útil | Pode processar centenas de requisições por segundo |
| LLM (Primeiro Token) | 50-200ms | Útil | Pode iniciar 5-20 requisições por segundo |
| API de busca | 100-500ms | Útil | Pode concluir 2-10 requisições por segundo |
Cenários ideais para RPM
O RPM (Requisições por Minuto) é um indicador de taxa mais adequado quando: o tempo de resposta de uma única solicitação varia de segundos a minutos.
| Tipo de serviço | Tempo de resposta típico | Por que usar RPM | Limites oficiais do Gemini |
|---|---|---|---|
| Geração de imagens | 8-170 segundos | Não conclui 1 requisição em 1 segundo | RPM + IPM |
| Geração de vídeo | 30-300 segundos | Ocupa minutos por requisição | RPM |
| Processamento de dados em lote | Nível de minutos | Granularidade da tarefa maior que segundos | RPM + RPD |
| Conversão de arquivos | 5-60 segundos | Processamento longo por requisição | RPM |
Os quatro limites de taxa da API de geração de imagens do Gemini
O Google projetou quatro dimensões de limites de taxa para a API de geração de imagens do Gemini. Se você atingir qualquer um deles, sofrerá limitação:
| Dimensão | Significado | Nível Gratuito | Tier 1 (Pago) |
|---|---|---|---|
| RPM | Requisições por minuto | 5-15 | 150-300 |
| TPM | Tokens por minuto | Limitado | Alto |
| RPD | Requisições por dia | 20-100 | 1.000+ |
| IPM | Imagens por minuto | Limitado | Alto |
Note o IPM (Imagens por minuto) — este é um indicador projetado especificamente para a geração de imagens. Como uma única requisição pode gerar várias imagens, a relação entre RPM e IPM não é simples.

Como aumentar a taxa de transferência real da API de geração de imagens
Depois de entender a essência do RPM (requisições por minuto), a próxima pergunta é: como maximizar a eficiência da geração de imagens dentro dos limites de RPM?
Cálculo de concorrência multithread + limite de RPM
Suponha que você precise gerar 20 imagens de 1K por minuto:
RPM de thread única = 60 segundos / 13 segundos ≈ 4,6 imagens/minuto
Número de threads necessárias = 20 / 4,6 ≈ 5 threads simultâneas
Mas você também precisa garantir que o total de RPM das 5 threads simultâneas (cerca de 23 RPM) não exceda a cota de RPM da sua conta. O nível gratuito oferece apenas 5-15 RPM, enquanto o nível pago Tier 1 oferece 150-300 RPM.
Sugestões de otimização de concorrência para a API de geração de imagens
| Estratégia de Otimização | Efeito | Cenário de Aplicação |
|---|---|---|
| Concorrência multithread/corrotina | Aumento linear (limitado pelo RPM) | Cenários de geração em tempo real |
| Batch API assíncrona | Sem bloqueio + 50% de desconto | Cenários em lote com tolerância a latência |
| Redução de resolução | Menor tempo por imagem → Aumento de RPM | Imagens de visualização, miniaturas |
| Serviço proxy de API da APIYI | Supera o limite oficial de RPM | Ambientes de produção de alta concorrência |
| Configuração de timeout do cliente | Evita esperas inúteis | Todos os cenários (1K sugerido 300s, 4K sugerido 600s) |
🎯 Dica prática: Se você precisa de alta concorrência na geração de imagens, usar o Nano Banana 2 via APIYI (apiyi.com) é a solução mais simples — você não fica limitado pelo RPM oficial, obtém 28% de desconto e o preço fixo para 4K é de apenas $0,045.
Perguntas frequentes
Q1: Se eu enviar 10 requisições com concorrência assíncrona, qual é o valor do RPM?
Conta como 10. O cálculo de RPM refere-se à quantidade de requisições enviadas dentro de 1 minuto, independentemente de essas requisições já terem retornado ou não. Mesmo que você use concorrência assíncrona para enviar 10 requisições simultaneamente, elas ficarão bloqueadas por 13 segundos cada e retornarão sucessivamente; todas essas 10 requisições contarão no RPM do mesmo minuto. Portanto, a concorrência multithread pode aumentar a taxa de transferência, mas não pode contornar a cota de RPM.
Q2: A Gemini Batch API é assíncrona? Ela consegue contornar o RPM?
Sim. A Gemini Batch API opera em modo assíncrono — você envia um lote de requisições e recebe o ID da tarefa imediatamente, sem bloquear o cliente. A tarefa é processada em segundo plano e, após a conclusão, você é notificado para obter os resultados. A Batch API possui uma cota independente (calculada por token), não ocupa a cota de RPM em tempo real e ainda é 50% mais barata. A desvantagem é que não garante tempo real, sendo ideal para cenários em lote onde não há urgência.
Q3: O chatgpt-image-latest da OpenAI também é bloqueante de forma síncrona?
Sim. O chatgpt-image-latest também é uma chamada síncrona, com tempo de resposta de cerca de 44-60 segundos. A comunidade de desenvolvedores relata problemas frequentes de timeout com o gpt-image-1, por isso recomenda-se definir um timeout de pelo menos 300 segundos. Portanto, a API de imagens da OpenAI também usa o RPM como indicador de limite de taxa, seguindo a mesma lógica do Gemini — como o tempo de resposta do bloqueio síncrono é muito longo, o QPS não faz sentido.
Q4: Como a APIYI consegue superar o limite oficial de RPM?
A APIYI utiliza um mecanismo de rodízio de pool de múltiplas contas — a plataforma mantém várias contas da API Gemini, e as requisições do cliente são distribuídas automaticamente entre diferentes contas, cada uma com sua própria cota de RPM. Para o desenvolvedor, isso equivale a um aumento significativo no RPM, sem a necessidade de gerenciar várias chaves API manualmente. Além disso, você aproveita 28% de desconto e a vantagem de preço fixo de $0,045 para 4K.

Resumo
O motivo principal pelo qual a API de geração de imagens Nano Banana utiliza RPM em vez de QPS:
- O bloqueio síncrono define a unidade de medida: A API de geração de imagens do Gemini é uma chamada síncrona, onde uma única requisição bloqueia por 13 a 170 segundos. Como não é possível completar nem uma requisição por segundo, o QPS (que mede por segundo) perde o sentido aqui; o RPM (por minuto) é a métrica mais lógica.
- RPM é para serviços lentos, QPS para serviços rápidos: Um critério simples de avaliação é: se a resposta leva menos de 1 segundo, use QPS; se leva mais de 1 segundo, use RPM. Geração de imagens, vídeos e conversão de arquivos são cenários típicos de RPM.
- O segredo para aumentar o throughput é concorrência + cota: A concorrência multithread pode aumentar o throughput de forma linear, mas é limitada pela cota de RPM. Utilizar o pool de múltiplas contas da APIYI permite contornar o limite de RPM de uma única conta.
Recomendamos utilizar o Nano Banana 2 via APIYI (apiyi.com) — sem as restrições de RPM oficiais, com 28% de desconto e preço fixo de $0,045 para 4K.
📚 Referências
-
Limites de Taxa da API Gemini: Documentação oficial sobre limites de taxa.
- Link:
ai.google.dev/gemini-api/docs/rate-limits - Descrição: Contém a explicação completa das quatro dimensões de limite: RPM, TPM, RPD e IPM.
- Link:
-
Comparação entre API Síncrona e Assíncrona do Nano Banana Pro: Diferenças técnicas entre os dois modos de chamada.
- Link:
help.apiyi.com/en/nano-banana-pro-sync-async-api-comparison-en.html - Descrição: Inclui tempos de bloqueio, configurações de timeout e cálculos de throughput.
- Link:
-
Limites de Taxa da OpenAI: Documentação de limites de taxa da OpenAI (sistema baseado em RPM).
- Link:
developers.openai.com/api/docs/guides/rate-limits - Descrição: Compara as abordagens de design de limites de taxa entre Gemini e OpenAI.
- Link:
-
Central de Documentação APIYI: Acesso à API de geração de imagens contornando limites de RPM.
- Link:
docs.apiyi.com - Descrição: Acesso de alta concorrência ao Nano Banana 2 e informações sobre descontos.
- Link:
Autor: Equipe Técnica APIYI
Troca de conhecimentos: Sinta-se à vontade para discutir nos comentários. Para mais informações, acesse a central de documentação da APIYI em docs.apiyi.com.
