Ao aconselhar clientes corporativos sobre soluções de acesso para modelos do Google, como o Gemini e o Nano Banana Pro, o termo "Provisioned Throughput (PT)" (Vazão Provisionada) é frequentemente mencionado, mas também mal compreendido. Equívocos comuns incluem: "O PT não é a versão corporativa do AI Studio?", "O PT serve para comprar prioridade na API do Gemini?" ou "O preço unitário cai após a compra do PT?".
As respostas a essas perguntas nem sempre são intuitivas. Este artigo, baseado na documentação oficial em inglês do Google Cloud Vertex AI, esclarece o conceito de uma vez por todas: ele faz parte do ecossistema Vertex AI e não do AI Studio, sua unidade de medida é a GSU (Generative AI Scale Unit), ele não reduz o preço unitário, mas garante prioridade de throughput, e o mecanismo de pagamento por uso correspondente é chamado de DSQ (Dynamic Shared Quota).
Compreender esses conceitos não apenas o ajudará a avaliar corretamente se deve adquirir o PT para sua empresa, mas também permitirá escolher racionalmente entre os três caminhos: implementação própria no Google, assinatura PT ou acesso através da plataforma agregadora APIYI apiyi.com.

O que é o Google Provisioned Throughput (PT)
Provisioned Throughput (PT) é uma assinatura de reserva de capacidade com custo e período fixos, oferecida pela plataforma Vertex AI do Google Cloud para modelos de inteligência artificial generativa. Sua lógica central é: a empresa se compromete antecipadamente a comprar uma certa quantidade de capacidade de processamento, e o Google reserva computação dedicada para você em troca de previsibilidade e prioridade na vazão de invocações.
Definição oficial e características principais do PT
De acordo com a documentação oficial do Google Cloud:
Provisioned Throughput é uma assinatura de custo fixo e prazo fixo, disponível em vários períodos, que reserva vazão para modelos de IA generativa suportados no Vertex AI.
Analisando os três pontos-chave dessa definição:
- Custo fixo: Independentemente do volume real de invocações, você paga conforme o compromisso prévio.
- Prazo fixo: Você escolhe entre 1 semana / 1 mês / 3 meses / 1 ano.
- Reserva de vazão: Não reserva "computação" bruta, mas sim "capacidade de processamento de tokens por segundo".
O que o PT não é: esclarecendo três grandes mitos
| Equívoco comum | Esclarecimento dos fatos |
|---|---|
| "PT = Versão empresarial do AI Studio" | ❌ O PT existe apenas no Vertex AI, sem relação direta com o AI Studio |
| "PT reduz o preço unitário após a compra" | ❌ O PT não reduz o preço por token, apenas garante prioridade e throughput |
| "O PT pode ser cancelado a qualquer momento" | ❌ Após a contratação, não é possível cancelar dentro do ciclo, apenas adicionar mais GSU |
| "O PT garante GPU dedicada" | ❌ O PT reserva unidades de vazão (GSU), não hardware dedicado |
| "O PT funciona para todos os modelos do Google" | ❌ Apenas alguns modelos são suportados; verifique a lista de compatibilidade |
💡 Dica de cenário: Se o seu objetivo principal é "reduzir o preço unitário" e não a "garantia de throughput", o PT não é o ideal para você. Nesse caso, utilizar as soluções corporativas da APIYI apiyi.com para acessar os modelos da família Gemini (incluindo o Nano Banana Pro) costuma ser a opção mais econômica, alcançando até 37% do preço oficial, além de oferecer suporte a faturamento em moeda local e emissão de notas fiscais.
Detalhando a unidade de medida GSU (Generative AI Scale Unit)
Para entender o PT (Provisioned Throughput), é preciso primeiro compreender sua unidade de medida: a GSU.
Definição oficial de GSU
A GSU é uma unidade abstrata de capacidade de throughput. Ela mantém o preço e a capacidade fixos entre todos os modelos do Google que suportam PT, porém, a eficiência de consumo de GSU varia conforme o modelo. Em outras palavras:
- O preço de 1 GSU é consistente em todos os modelos.
- A capacidade (throughput de tokens por segundo) de 1 GSU também é consistente em todos os modelos.
- No entanto, a quantidade real de invocações do modelo que uma única GSU pode suportar varia de acordo com o modelo utilizado.
Exemplo da relação entre GSU e modelos
A tabela abaixo é ilustrativa (consulte os dados oficiais mais recentes do Google para valores exatos):
| Modelo | Throughput por 1 GSU | Observação |
|---|---|---|
| Gemini 2.5 Flash-Lite | Alto | Modelo leve, uma GSU suporta mais requisições |
| Gemini 2.5 Flash | Médio | Equilibrado, escolha comum para empresas |
| Gemini 2.5 Pro | Baixo | Modelo flagship, consome mais GSU |
| Gemini 3 Pro | Mínimo | Novo flagship, alto consumo de GSU por requisição |
| Gemini 3 Pro Image | Conversão por tamanho | Imagens 4K consomem significativamente mais que 1K |
Isso significa que: se o seu negócio utiliza vários modelos, você precisará comprar compromissos de GSU separadamente para cada modelo, em vez de compartilhar um pool único de GSU.
Como estimar a quantidade necessária de GSU
O Google oferece uma calculadora oficial de GSU, mas a lógica de estimativa pode ser simplificada assim:
GSU necessária = (QPS de pico × tokens médios por requisição) / (Capacidade de throughput de 1 GSU)
Passos para estimativa empresarial:
- Calcule o QPS de pico histórico (requisições por segundo).
- Calcule o consumo médio de tokens por requisição (entrada + saída).
- Consulte o throughput por GSU do modelo alvo.
- Arredonde para cima e reserve um buffer de 20-30% para lidar com picos inesperados.
Unidade mínima de compra e escalonamento de GSU
Um pedido de PT geralmente tem uma quantidade mínima de compra de GSU (que varia conforme o modelo e a região). Após a contratação, a empresa pode:
- ✅ Adicionar GSU: Aumentar o compromisso a qualquer momento conforme o crescimento do negócio.
- ❌ Reduzir GSU: Não é possível reduzir durante o período de compromisso atual.
- ⚠️ Ajuste na renovação: É necessário reavaliar a escala antes do fim do período de compromisso.
Vertex AI vs AI Studio: Esclarecendo a relação com o PT
Este é o ponto onde a maioria dos clientes se confunde. O Google possui duas linhas de produtos de IA generativa independentes:

Vertex AI: Produto Google Cloud Platform de nível empresarial
- Pertencente a: Google Cloud Platform (GCP)
- Público-alvo: Empresas, grandes equipes de desenvolvimento, clientes com requisitos de conformidade.
- Cobrança: Faturamento unificado via GCP, suporta uso sob demanda (DSQ) + reservado (PT) + lote (Batch).
- Console: console.cloud.google.com → menu Vertex AI.
- Caminho da API:
*-aiplatform.googleapis.com - Suporta PT: ✅ Sim
- Implantação regional: ✅ Suporta múltiplas regiões globais
AI Studio: Entrada para desenvolvedores e Gemini pessoal
- Pertencente a: Google AI for Developers (independente do GCP)
- Público-alvo: Desenvolvedores individuais, prototipagem rápida, criadores de conteúdo.
- Cobrança: Pagamento via conta pessoal Google Pay, faturamento sob demanda.
- Console: aistudio.google.com
- Caminho da API:
generativelanguage.googleapis.com - Suporta PT: ❌ Não
- Implantação regional: ❌ Pool global unificado
Diferenças no código de acesso à API
AI Studio (Gemini Developer API):
from google import genai
client = genai.Client(api_key="AIzaSy-xxx") # Chave pessoal do AI Studio
resp = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="Um gato laranja"
)
Vertex AI:
from google import genai
client = genai.Client(
vertexai=True,
project="seu-projeto-gcp", # ID do projeto GCP
location="us-central1" # Região
)
# A autenticação é feita via gcloud ADC / Service Account, sem necessidade de chave API
Note que os nomes dos modelos, métodos de autenticação e a estrutura de cobrança são diferentes. Se você começou usando uma chave API do AI Studio, não será possível comprar PT; é necessário habilitar o Vertex AI em um projeto GCP e autenticar via Service Account.
🎯 Dica de acesso: Se você não quer lidar com a complexidade de distinguir entre AI Studio e Vertex AI, autenticação via Service Account ou roteamento multirregional, você pode acessar toda a linha de modelos Gemini diretamente através da APIYI (apiyi.com). Oferecemos uma
base_urleapi_keycompatíveis com o padrão OpenAI, cuidando de toda a infraestrutura de contas e roteamento para você.
DSQ (Dynamic Shared Quota) Mecanismo de Pagamento por Uso Explicado
O DSQ é o modelo de pagamento por uso padrão do Vertex AI e a forma de cobrança utilizada pela grande maioria dos usuários. Entender o DSQ é fundamental para compreender o valor da prioridade do PT (Provisioned Throughput).
Mecanismo Central do DSQ
Com o DSQ, não existem limites de cota predefinidos no seu uso. Em vez disso, o DSQ fornece acesso a um grande pool compartilhado de recursos, alocados dinamicamente com base na disponibilidade em tempo real e na demanda de todos os clientes daquele modelo.
Pontos-chave:
- Sem cotas predefinidas: Não é necessário enviar um QIR (Quota Increase Request).
- Pool de recursos compartilhado: Todos os clientes que pagam por uso compartilham o mesmo grande pool.
- Alocação dinâmica: Reajustada conforme a demanda global dos clientes em tempo real.
- Flutuação de throughput: Em horários de pico, o throughput disponível para cada usuário pode diminuir.
Relação de Prioridade entre DSQ e PT
O Google deixa claro:
Clientes com Provisioned Throughput (PT) têm prioridade e são atendidos antes das solicitações sob demanda.
Este é o valor central do PT: ser processado prioritariamente na fila de agendamento de solicitações do Google. Isso se reflete da seguinte forma:
- Solicitações PT → Entram em uma fila dedicada de alta prioridade, com resposta estável.
- Solicitações DSQ → Entram no pool compartilhado, podendo sofrer limitação de taxa ou fila em horários de pico.
Cenários de Limitação Típicos do DSQ
Empresas que não adquiriram PT podem enfrentar problemas nos seguintes cenários:
- Picos de promoções de e-commerce (ex: meia-noite): O pool compartilhado fica sobrecarregado, fazendo com que a latência P99 dobre.
- Geração de imagens em interações de live streaming: Exige alta disponibilidade em tempo real, tornando a instabilidade do DSQ inaceitável.
- Negócios multinacionais: Chamadas simultâneas em várias regiões, onde a capacidade do DSQ varia drasticamente entre elas.
- Primeira semana de lançamento de um novo modelo: A cota oficial do Google ainda não foi totalmente liberada, deixando o DSQ restrito.
Vale ressaltar: Para pequenas e médias empresas com volume mensal inferior a 50 mil chamadas ou 50 mil imagens, a estabilidade do DSQ já é suficiente; comprar PT seria um investimento excessivo.
Opções de Período de Compromisso e Processo de Compra do PT
A duração do período de compromisso do PT foi projetada para cobrir diversos cenários, desde testes até contratos de longo prazo:
Comparação dos Quatro Períodos de Compromisso
| Período | Cenário Típico | Custo Total | Flexibilidade |
|---|---|---|---|
| 1 Semana | Eventos curtos/validação de pico | Base × 1 | Máxima |
| 1 Mês | Planejamento mensal de negócios | ~Base × 0,95 | Média |
| 3 Meses | Compromisso trimestral | ~Base × 0,88 | Baixa |
| 1 Ano | Contrato longo + orçamento fixo | ~Base × 0,75 | Mínima |
Os preços específicos devem ser consultados após o login no console do GCP, variando conforme a região e o modelo.
Etapas de Compra do PT

Processo padrão para empresas comprarem PT:
- Calcular a demanda: Use a calculadora oficial GSU do Google para estimar a capacidade necessária.
- Criar projeto no GCP: Ative a API do Vertex AI e configure a Conta de Serviço (Service Account).
- Iniciar a compra: Faça o pedido através do GCP Console → Vertex AI → página Provisioned Throughput.
- Selecionar parâmetros: Modelo, região, quantidade de GSU e período de compromisso.
- Aprovação financeira: Pagamento via cartão de crédito em dólar ou ACH empresarial.
- Ativação: Geralmente entra em vigor dentro de 1 a 5 dias úteis.
- Configuração da API: Adicione o parâmetro
provisioned_throughput_idno seu código para alternar para o canal PT.
Exemplo de uso da API para PT
Após ativar o PT, o código de invocação precisa especificar explicitamente:
from google import genai
from google.genai import types
client = genai.Client(
vertexai=True,
project="seu-projeto-gcp",
location="us-central1"
)
resp = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="Um gato laranja",
config=types.GenerateContentConfig(
# Especifica o ID da assinatura PT, a solicitação segue pelo canal prioritário
labels={"dedicated-capacity": "seu-id-de-assinatura-pt"}
)
)
Se este parâmetro não for especificado, mesmo que a conta possua uma assinatura PT, a solicitação continuará passando pelo canal DSQ.
Comparativo dos três modelos de faturamento do Vertex AI: PT vs DSQ vs Batch
O Vertex AI disponibiliza três modelos de faturamento simultâneos, e entender os limites de cada um é fundamental para a tomada de decisão corporativa:
| Dimensão | Provisioned Throughput (PT) | Dynamic Shared Quota (DSQ) | Batch API |
|---|---|---|---|
| Modelo de faturamento | Pré-pago fixo | Pagamento por uso | Pagamento por uso |
| Preço unitário | Igual ao uso sob demanda | Preço oficial | 50% de desconto |
| Prioridade | Máxima (exclusiva) | Pool compartilhado | Mínima (janela de 24h) |
| Compromisso | Semanal/Mensal/Trimestral/Anual | Nenhum | Nenhum |
| Latência | Estável (baixa) | Oscilante | 24h (assíncrono) |
| Casos de uso | Tempo real, alta concorrência | Uso diário geral | Processamento offline em larga escala |
| Barreiras de entrada | A partir de milhares de dólares | Sem custo inicial | Sem custo inicial |
Estratégia combinada: PT + DSQ + Batch
Empresas maduras geralmente adotam uma arquitetura de faturamento híbrida:
- PT para garantir operações críticas em tempo real: Como geração de imagens ao vivo e interações de usuários.
- DSQ para o tráfego diário: A maior parte das requisições não críticas utiliza o modelo por uso.
- Batch para tarefas em larga escala durante a noite: Geração de relatórios, rotulagem de dados, etc.
⚡ Dica de arquitetura híbrida: Se sua equipe for pequena e você quiser evitar a complexidade de uma arquitetura multicanal, recomendamos utilizar o APIYI (apiyi.com) para uma integração unificada. Implementamos um roteamento inteligente no backend: requisições urgentes seguem pelo canal VIP, tarefas em lote pelo canal Batch e chamadas diárias pelo canal padrão. Tudo é transparente para o sistema, e uma única chave API permite que você aproveite os benefícios da estratégia híbrida.
Avaliação detalhada dos cenários de uso do PT
Quatro perfis de empresas que realmente devem contratar o PT

Cenário 1: Operações de alta concorrência em tempo real
Promoções de e-commerce, plataformas de vídeo curto e transmissões ao vivo exigem picos de concorrência > 50 requisições/segundo. Nesses casos, o DSQ pode sofrer limitação de taxa (throttling), sendo o PT indispensável para garantir o serviço.
Cenário 2: Metas rígidas de latência P99
Se o SLA de interação do usuário exige uma latência de primeiro pacote (P99) < 10 segundos, como em ferramentas de desenho artístico por IA, o DSQ (que costuma variar entre 15-30 segundos) não será suficiente.
Cenário 3: Ultrapassando o limiar de gastos mensais
Quando o consumo mensal supera US$ 50.000, o custo fixo comprometido do PT é diluído pela escala, tornando o custo unitário menor que o do DSQ. Nesse patamar, comprar PT é mais barato e estável.
Cenário 4: Conformidade regulatória rigorosa
Setores como finanças e saúde exigem pool de recursos exclusivo e declarações de conformidade; o PT oferece compromissos claros de isolamento de throughput.
Cinco cenários onde o PT não é recomendado
- Volume de chamadas mensal < 50.000: O custo fixo do PT não compensa; o pagamento por uso é mais vantajoso.
- Alta volatilidade de carga de trabalho: O compromisso de pré-pagamento pode gerar um grande desperdício de recursos ociosos.
- Necessidade apenas de reduzir o preço unitário: O PT não reduz o preço unitário; para isso, negocie através de canais agregadores.
- Uso misto de vários modelos: Cada modelo requer um compromisso de GSU independente, tornando a operação complexa.
- Equipes de pequeno porte: Falta de capacidade financeira e operacional para gerir contratos de longo prazo em dólares.
Se o seu perfil não se encaixa no uso do PT, a integração com toda a linha de modelos Gemini via APIYI (apiyi.com) oferece um preço corporativo com 63% de desconto, e com bônus de recarga de até 20%, o custo unitário real pode chegar a apenas 32% do preço oficial do Google — obtendo assim uma estabilidade aceitável por um custo muito menor.
Perguntas Frequentes (FAQ)
Q1: Já estou desenvolvendo no AI Studio com a chave API do Gemini, posso comprar PT?
Não. O AI Studio (Gemini Developer API) e o Vertex AI são dois sistemas independentes; o PT pertence exclusivamente ao Vertex AI. Para usar o PT, você deve: ① Criar um projeto no GCP e ativar o Vertex AI; ② Migrar para o método de autenticação via Service Account do Vertex AI; ③ Reescrever parte do código de invocação do modelo. Se você deseja pular esse trabalho de migração, pode usar o APIYI (apiyi.com) para chamar o Gemini via base_url compatível com OpenAI, sem se preocupar com a estrutura de contas subjacente.
Q2: Após a compra do PT, o preço unitário fica mais barato do que o pagamento por uso?
O preço unitário permanece o mesmo, mas ao diluir o custo total por "milhão de tokens", o custo geral pode ser menor em larga escala. O mecanismo é: o PT é cobrado por compromisso mensal fixo. Se você utilizar totalmente a capacidade de GSU, o preço efetivo será de cerca de 80-95% do DSQ; se não utilizar totalmente, acaba saindo mais caro. O valor do PT não está na economia direta, mas sim na garantia de throughput, estabilidade de latência e maior prioridade.
Q3: Posso cancelar ou reduzir a quantidade de GSU no meio do caminho?
Não. Uma vez assinado, não é possível cancelar ou reduzir a quantidade de GSU durante o período de compromisso atual. Você só pode decidir se renovará ou não antes do fim do ciclo. A única alteração permitida é o aumento de GSU (em caso de expansão dos negócios). Este é o maior risco do PT: o compromisso pré-pago deve ser baseado em estimativas de uso conservadoras.
Q4: O Gemini 3 Pro Image (Nano Banana Pro) suporta PT?
Até abril de 2026, de acordo com a lista oficial de suporte do Google, a série de modelos Gemini 3 Pro (incluindo gemini-3-pro-image-preview) já suporta Provisioned Throughput. No entanto, observe que o consumo de GSU para modelos de imagem é convertido com base no tamanho da imagem e nos tokens; uma imagem 4K consome significativamente mais GSU por solicitação do que uma de 1K. Os coeficientes de consumo específicos seguem os dados oficiais do Google. Para uma comparação rápida de custos, entre em contato com a equipe comercial do APIYI (apiyi.com) para obter uma tabela de preços corporativos.
Q5: Não tenho conta no GCP nem cartão de crédito internacional, ainda posso desfrutar de um canal prioritário semelhante ao PT?
Sim. As soluções corporativas do APIYI (apiyi.com) alcançam um efeito de canal prioritário semelhante através da agregação de múltiplas contas + filas VIP exclusivas. Você só precisa de uma entidade jurídica local e pagamento via transferência bancária para ativar. A latência P99 do canal corporativo é equivalente ao canal de pagamento por uso nativo do Google, o que já é suficiente para clientes com volume mensal inferior a 50 mil imagens, com um custo de apenas 32-37% do preço oficial por uso.
Q6: O PT e a Batch API do Google podem ser usados simultaneamente?
Sim. A Batch API utiliza um canal assíncrono independente, que não entra em conflito com o PT/DSQ. Arquiteturas maduras combinam os três: solicitações críticas em tempo real via PT, solicitações diárias via DSQ e tarefas em lote noturnas via Batch (com 50% de desconto). Essa "mistura de três canais" pode maximizar a eficiência de custos geral.
Resumo
Voltando à questão central deste artigo — O que é o Provisioned Throughput (PT) do Google? A qual sistema ele pertence?
A resposta curta é: O PT é uma assinatura de reserva de throughput de nível corporativo dentro do Google Cloud Vertex AI (GCP), medida em GSU (Generative AI Scale Unit), oferecendo períodos de compromisso de 1 semana/1 mês/3 meses/1 ano. Durante o período de compromisso, o preço unitário não diminui, mas oferece prioridade de agendamento e throughput estável. Ele não tem relação com o AI Studio (generativelanguage.googleapis.com) e forma uma estrutura dual de "prioridade vs. compartilhamento" com o mecanismo de DSQ (Dynamic Shared Quota) de pagamento por uso.
Para a grande maioria das pequenas e médias empresas, desenvolvedores individuais e criadores de conteúdo, as barreiras e as restrições de período de compromisso do PT são muito altas. Um caminho mais prático é acessar toda a linha de modelos Gemini através de plataformas de agregação como o APIYI (apiyi.com), desfrutando de um canal estável de nível corporativo a um preço menor (37% do valor original) e evitando questões complexas como contas transfronteiriças, pagamentos internacionais e conformidade em inglês.
Somente quando o seu volume de negócios atingir um dos quatro limiares de aplicabilidade do PT (alta concorrência, P99 baixo, consumo mensal >$50K, forte regulação), investir tempo para pesquisar e adquirir o PT será uma escolha racional.
📌 Autoria: Este artigo foi organizado pela equipe de soluções corporativas do APIYI (apiyi.com), com base na documentação oficial em inglês do Google Cloud Vertex AI e na política corporativa mais recente de abril de 2026. Se precisar avaliar rapidamente se o seu negócio é adequado para PT ou para acesso via agregação, entre em contato conosco através do portal comercial em nosso site para uma análise personalizada.
