|

Descifrado profundo del rendimiento aprovisionado (PT) de Google: 6 diferencias clave entre Vertex AI y el ecosistema AI Studio (2026)

Cuando los usuarios empresariales consultan sobre cómo integrar modelos de Google como Gemini o Nano Banana Pro, el "Provisioned Throughput (PT)" (Rendimiento Aprovisionado) es un término que aparece constantemente y suele malinterpretarse. Los malentendidos comunes incluyen: "¿Es el PT la versión empresarial de AI Studio?", "¿El PT sirve para comprar prioridad en la API de Gemini?" o "¿El precio unitario baja tras comprar PT?".

Las respuestas a estas preguntas no siempre son intuitivas. Basándome en la documentación oficial más reciente de Google Cloud Vertex AI, explicaré el PT a fondo: pertenece al ecosistema de Vertex AI y no a AI Studio, su unidad de medida es GSU (Generative AI Scale Unit), no reduce el precio unitario, pero garantiza la prioridad de rendimiento, y el mecanismo de pago por uso correspondiente se llama DSQ (Dynamic Shared Quota).

Entender estos conceptos no solo te ayudará a evaluar correctamente si deberías adquirir PT para tu empresa, sino también a elegir racionalmente entre las tres vías posibles: integración propia con Google, suscripción a PT, o acceso a través de la plataforma de agregación APIYI (apiyi.com).

google-provisioned-throughput-pt-explained-vertex-vs-aistudio-2026-es 图示

¿Qué es el Provisioned Throughput (PT) de Google?

El Provisioned Throughput (PT) es una suscripción de reserva de rendimiento de costo fijo y plazo fijo que la plataforma Vertex AI de Google Cloud ofrece para modelos de IA generativa. Su lógica central es: las empresas se comprometen por adelantado a comprar una cierta cantidad de capacidad de procesamiento, y Google reserva una potencia de cálculo independiente para ti a cambio de certeza y prioridad en el rendimiento de la invocación.

Definición oficial y características clave del PT

Según la documentación oficial de Google Cloud:

Provisioned Throughput es una suscripción de costo fijo y plazo fijo, disponible en varios plazos, que reserva rendimiento para modelos de IA generativa compatibles en Vertex AI.

Desglosemos tres palabras clave de esta frase:

  1. Costo fijo: Independiente del volumen de uso real, se paga por adelantado según el compromiso.
  2. Plazo fijo: Cuatro opciones: 1 semana / 1 mes / 3 meses / 1 año.
  3. Reserva de rendimiento: No se reserva "potencia de cálculo" (hardware), sino "capacidad de procesamiento de tokens por segundo".

Lo que NO es el PT: Aclarando tres malentendidos

Malentendido común Aclaración de la realidad
"PT = Versión empresarial de AI Studio" ❌ El PT solo existe en Vertex AI, no tiene relación directa con AI Studio
"El precio unitario baja tras comprar PT" ❌ El PT no reduce el precio unitario, solo ofrece garantía de rendimiento y prioridad
"Se puede cancelar el PT en cualquier momento" ❌ No se puede cancelar durante el plazo contratado, solo se pueden añadir más GSU
"El PT permite exclusividad de GPU" ❌ El PT reserva unidades de rendimiento (GSU), no hardware exclusivo
"El PT se aplica a todos los modelos de Google" ❌ Solo es compatible con ciertos modelos, revisa la lista de compatibilidad

💡 Consejo para escenarios comunes: Si tu objetivo principal es "reducir el precio unitario" en lugar de obtener "garantía de rendimiento", entonces el PT no es para ti. En este caso, integrar la serie de modelos Gemini (incluyendo Nano Banana Pro) a través de las soluciones empresariales de APIYI (apiyi.com) suele ser una opción más económica, alcanzando hasta un 37% del precio oficial, además de admitir liquidación en moneda local y facturación fiscal.


title: "Guía detallada sobre GSU (Generative AI Scale Unit) y el despliegue de modelos"
description: "Entiende qué es GSU, cómo calcular tus necesidades de capacidad para modelos de Google y las diferencias clave entre Vertex AI y AI Studio."

Explicación detallada de GSU (Generative AI Scale Unit)

Para entender el PT (Provisioned Throughput), primero es necesario comprender su unidad de medida: GSU.

Definición oficial de GSU

La GSU es una unidad abstracta de capacidad de rendimiento que mantiene el precio y la capacidad fijos entre todos los modelos de Google compatibles con PT, aunque cada modelo consume GSU con diferente eficiencia. En otras palabras:

  • El precio de 1 GSU es constante en todos los modelos.
  • La capacidad (tokens por segundo) de 1 GSU es también constante en todos los modelos.
  • Sin embargo, la cantidad de invocaciones reales del modelo que soporta una misma GSU varía según el modelo.

Ejemplo de relación entre GSU y modelos

La siguiente tabla es ilustrativa (las cifras exactas deben consultarse en los datos más recientes de Google):

Modelo Capacidad por 1 GSU Notas
Gemini 2.5 Flash-Lite Alta Modelo ligero, soporta más solicitudes por GSU
Gemini 2.5 Flash Media Equilibrio, elección principal para empresas
Gemini 2.5 Pro Baja Modelo insignia, mayor consumo de GSU
Gemini 3 Pro Muy baja Nuevo insignia, mayor ocupación de GSU por solicitud
Gemini 3 Pro Image Conversión por tamaño Una imagen 4K consume significativamente más que 1K

Esto significa que si tu negocio utiliza varios modelos, necesitarás adquirir compromisos de GSU por separado para cada modelo, en lugar de compartir un único fondo de GSU.

Cómo estimar la cantidad necesaria de GSU

Google proporciona una calculadora oficial, pero la lógica de estimación puede simplificarse así:

GSU necesarios = (QPS pico × tokens promedio por solicitud) / (Capacidad de rendimiento de 1 GSU)

Pasos para la estimación empresarial:

  1. Medir el QPS pico histórico (consultas por segundo).
  2. Medir el consumo promedio de tokens por solicitud (entrada + salida).
  3. Consultar el rendimiento de 1 GSU para el modelo objetivo.
  4. Redondear hacia arriba y reservar un margen del 20-30% para gestionar picos inesperados.

Unidad mínima de compra y niveles de GSU

Un pedido de PT suele tener una compra mínima de varias GSU (varía según el modelo y la región). Una vez firmado el contrato, la empresa puede:

  • Añadir GSU: Aumentar el compromiso en cualquier momento si el negocio crece.
  • Reducir GSU: No se puede disminuir durante el periodo de compromiso actual.
  • ⚠️ Ajuste de renovación: Es necesario reevaluar la escala antes de que finalice el periodo.

Vertex AI vs. AI Studio: Aclaración sobre el PT

Esta es la parte donde más se confunden los clientes. Google tiene dos líneas de productos de IA generativa independientes:

google-provisioned-throughput-pt-explained-vertex-vs-aistudio-2026-es 图示

Vertex AI: Producto de Google Cloud Platform a nivel empresarial

  • Pertenencia: Google Cloud Platform (GCP).
  • Destinatarios: Empresas, equipos de desarrollo grandes, clientes con requisitos de cumplimiento.
  • Facturación: Unificada a través de la cuenta de GCP, soporta pago por uso (DSQ) + Reserva (PT) + Lote (Batch).
  • Consola: console.cloud.google.com → Menú Vertex AI.
  • Ruta de API: *-aiplatform.googleapis.com
  • Soporte PT: ✅ Sí.
  • Despliegue regional: ✅ Soporta multirregiones globales.

AI Studio: Entrada para desarrolladores y uso personal de Gemini

  • Pertenencia: Google AI for Developers (independiente de GCP).
  • Destinatarios: Desarrolladores individuales, prototipos rápidos, creadores de contenido.
  • Facturación: A través de cuenta personal de Google Pay, facturación por uso.
  • Consola: aistudio.google.com
  • Ruta de API: generativelanguage.googleapis.com
  • Soporte PT: ❌ No.
  • Despliegue regional: ❌ Fondo unificado global.

Diferencias en el código de acceso a la API

AI Studio (Gemini Developer API):

from google import genai
client = genai.Client(api_key="AIzaSy-xxx")  # Clave API personal de AI Studio
resp = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents="Un gato naranja"
)

Vertex AI:

from google import genai
client = genai.Client(
    vertexai=True,
    project="tu-proyecto-gcp",  # ID del proyecto GCP
    location="us-central1"       # Región
)
# La autenticación se completa a través de gcloud ADC / Service Account, no requiere clave API

Ten en cuenta que los nombres de modelo, métodos de autenticación y la pertenencia de facturación son distintos. Si comenzaste utilizando una clave API de AI Studio, no podrás adquirir PT bajo ningún concepto; debes habilitar Vertex AI en un proyecto de GCP y autenticarte mediante una Service Account.

🎯 Consejo de acceso: Si no quieres complicarte gestionando los límites entre AI Studio y Vertex AI, la autenticación mediante Service Account o el enrutamiento multirregional, puedes acceder de forma unificada a todos los modelos de la familia Gemini a través de APIYI (apiyi.com). Usamos un base_url + api_key compatible con el formato de OpenAI, mientras nosotros gestionamos internamente la infraestructura de cuentas y el enrutamiento.

Explicación detallada del mecanismo de pago por uso DSQ (Dynamic Shared Quota)

DSQ es el modelo de pago por uso predeterminado de Vertex AI y la forma de facturación que utiliza la gran mayoría de los usuarios. Solo entendiendo DSQ se puede comprender el valor de la prioridad de PT.

Mecanismo central de DSQ

Con DSQ, no hay límites de cuota predefinidos en su uso. En su lugar, DSQ proporciona acceso a un gran conjunto compartido de recursos, asignados dinámicamente según la disponibilidad de recursos en tiempo real y la demanda en tiempo real de todos los clientes de ese modelo.

Puntos clave:

  • Sin cuotas preestablecidas: No es necesario enviar una solicitud de aumento de cuota (QIR).
  • Conjunto de recursos compartido: Todos los clientes con pago por uso comparten el mismo grupo grande.
  • Asignación dinámica: Se reajusta según la demanda global en tiempo real de los clientes.
  • Fluctuación del rendimiento: El rendimiento obtenido por cada usuario disminuye durante las horas pico.

Relación de prioridad entre DSQ y PT

Google señala explícitamente:

Los clientes de Provisioned Throughput (rendimiento aprovisionado) tienen prioridad y son atendidos antes que las solicitudes bajo demanda.

Este es el valor fundamental de PT: ser procesado con prioridad en la cola de programación de solicitudes de Google. Se refleja en:

  • Solicitudes PT → Entran en una cola dedicada de alta prioridad, con respuestas estables.
  • Solicitudes DSQ → Entran en un conjunto compartido, donde pueden estar limitadas o en espera durante las horas pico.

Escenarios de limitación típicos de DSQ

Las empresas que no adquieren PT pueden encontrar problemas en los siguientes escenarios:

  1. Picos de ventas en promociones de comercio electrónico: El conjunto compartido global se satura y la latencia P99 se duplica.
  2. Generación de imágenes en transmisiones en vivo: Requiere alta respuesta en tiempo real; las fluctuaciones de DSQ son inaceptables.
  3. Negocios multinacionales: Las llamadas simultáneas en múltiples regiones causan grandes diferencias en la capacidad DSQ según la zona.
  4. Primera semana de lanzamiento de un nuevo modelo: La cuota oficial de Google no está totalmente abierta y DSQ se vuelve limitado.

Pero es importante recalcar: Para las pequeñas y medianas empresas con un volumen mensual inferior a 50,000 invocaciones o menos de 50,000 imágenes generadas, la estabilidad de DSQ es lo suficientemente buena; comprar PT sería una inversión excesiva.


Opciones de compromiso de PT y proceso de compra

La duración del compromiso de PT está diseñada para cubrir desde pruebas iniciales hasta contratos a largo plazo:

Comparativa de los cuatro períodos de compromiso

Período Escenario típico Proporción de costo total Flexibilidad
1 semana Eventos cortos/validación Base × 1 Máxima
1 mes Planificación mensual estable ~Base × 0.95 Media
3 meses Compromiso trimestral ~Base × 0.88 Baja
1 año Contrato largo + presupuesto fijo ~Base × 0.75 Mínima

Los precios específicos deben consultarse tras iniciar sesión en la consola de GCP; los precios varían según la región y el modelo.

Pasos para comprar PT

google-provisioned-throughput-pt-explained-vertex-vs-aistudio-2026-es 图示

Proceso estándar para que una empresa adquiera PT:

  1. Calcular la demanda: Usar la calculadora oficial GSU de Google para estimar la capacidad necesaria.
  2. Crear un proyecto GCP: Habilitar Vertex AI API y configurar la cuenta de servicio.
  3. Iniciar la compra: Realizar el pedido a través de GCP Console → Vertex AI → página de Provisioned Throughput.
  4. Seleccionar parámetros: Modelo, región, cantidad de GSU y período de compromiso.
  5. Aprobación financiera: Pago con tarjeta de crédito en USD o ACH corporativo.
  6. Activación: Generalmente entra en vigor en un plazo de 1 a 5 días hábiles.
  7. Configuración de API: Agregar el parámetro provisioned_throughput_id en el código para cambiar al canal PT.

Ejemplo de uso de la API para PT

Después de habilitar PT, el código de invocación debe especificar explícitamente lo siguiente:

from google import genai
from google.genai import types

client = genai.Client(
    vertexai=True,
    project="your-gcp-project",
    location="us-central1"
)

resp = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents="Un gato naranja",
    config=types.GenerateContentConfig(
        # Especificar el ID de suscripción de PT, la solicitud irá por el canal prioritario
        labels={"dedicated-capacity": "your-pt-subscription-id"}
    )
)

Si no se especifica este parámetro, incluso si la cuenta tiene una suscripción PT, la solicitud seguirá pasando por el canal DSQ.

Comparativa de los tres modelos de facturación de PT: PT vs. DSQ vs. Batch

Vertex AI ofrece tres modelos de facturación simultáneos; entender sus límites es clave para la toma de decisiones empresariales:

Dimensión Provisioned Throughput (PT) Dynamic Shared Quota (DSQ) Batch API
Modelo de facturación Prepago fijo Pago por uso Pago por uso
Precio unitario Igual que el pago por uso Precio oficial 50% de descuento
Prioridad Máxima (exclusiva) Grupo compartido Mínima (ventana de 24h)
Compromiso Semanal/Mensual/Trimestral/Anual Ninguno Ninguno
Latencia Estable (baja) Variable Asíncrona (24h)
Casos de uso Tiempo real de alta concurrencia Uso diario general Procesamiento masivo offline
Barrera de entrada Desde miles de dólares Gratis Gratis

Estrategia combinada: PT + DSQ + Batch

Las empresas maduras suelen adoptar una arquitectura de facturación híbrida:

  • PT para garantizar servicios críticos en tiempo real: como la generación de imágenes en vivo o la interacción con usuarios.
  • DSQ como respaldo para el tráfico diario: la mayoría de las solicitudes no críticas se gestionan mediante pago por uso.
  • Batch para tareas masivas nocturnas: generación de informes, etiquetado de datos, etc.

Recomendación de arquitectura híbrida: Si tu equipo es pequeño y quieres evitar una arquitectura multicanal compleja, te recomendamos integrar todo a través de APIYI (apiyi.com). Hemos implementado un enrutamiento inteligente en el backend: las solicitudes urgentes pasan por el canal VIP, las tareas por lotes por el canal Batch y las llamadas diarias por el canal estándar. Es transparente para el usuario final: con una única clave API puedes disfrutar de los beneficios de una estrategia híbrida.

Evaluación detallada de escenarios: ¿Cuándo usar PT?

Cuatro tipos de empresas para las que PT es la opción ideal

google-provisioned-throughput-pt-explained-vertex-vs-aistudio-2026-es 图示

Escenario 1: Negocios en tiempo real de alta concurrencia
Promociones de comercio electrónico, plataformas de video corto y escenarios de transmisión en vivo requieren una concurrencia máxima > 50 solicitudes/segundo. En este caso, el DSQ podría activar límites de velocidad, por lo que es necesario contar con PT.

Escenario 2: Indicadores estrictos de latencia P99
Los SLA de interacción del usuario exigen una latencia P99 del primer paquete < 10 segundos, como en herramientas de dibujo con IA en tiempo real. El P99 de DSQ suele ser de 15-30 segundos, lo cual no cumple con los requisitos.

Escenario 3: Superación del umbral de consumo mensual
Cuando el consumo mensual supera los $50,000, el costo del compromiso fijo de PT se diluye por las economías de escala, haciendo que el costo unitario sea inferior al de DSQ. En este punto, comprar PT es más económico y estable.

Escenario 4: Aislamiento por cumplimiento normativo estricto
Industrias como la financiera o médica exigen grupos de recursos exclusivos y declaraciones de cumplimiento; PT ofrece compromisos claros de aislamiento de rendimiento.

Cinco escenarios donde PT NO es adecuado

  1. Volumen de llamadas mensual < 50,000: El costo fijo de PT no se amortiza lo suficiente; el pago por uso es más rentable.
  2. Alta volatilidad en el volumen de negocio: El compromiso de prepago puede generar un desperdicio significativo por capacidad ociosa.
  3. Solo buscas reducir el precio unitario: PT no reduce el precio unitario; deberías optar por la negociación a través de canales de agregación.
  4. Uso mixto de múltiples modelos: Cada modelo requiere un compromiso GSU independiente, lo que complica la gestión operativa.
  5. Equipos pequeños o medianos: Falta de capacidad financiera y operativa para asumir contratos a largo plazo en dólares.

Si tu caso no encaja con PT, al acceder a toda la gama de modelos Gemini a través de APIYI (apiyi.com) puedes obtener un precio corporativo con un 63% de descuento, sumado a bonificaciones por recarga de hasta un 20%. El precio unitario real puede llegar a ser hasta un 32% del precio oficial de Google, obteniendo una estabilidad aceptable a un precio mucho menor.

Preguntas frecuentes (FAQ)

P1: Ya estoy desarrollando con la clave API de Gemini en AI Studio, ¿puedo comprar PT?

No. AI Studio (Gemini Developer API) y Vertex AI son dos sistemas independientes; PT pertenece exclusivamente a Vertex AI. Si necesitas usar PT, debes: ① Crear un proyecto de GCP y activar Vertex AI; ② Migrar al método de autenticación con cuenta de servicio (Service Account) de Vertex AI; y ③ Reescribir parte del código de invocación del modelo. Si prefieres evitar este proceso de migración, puedes usar APIYI (apiyi.com) para realizar la invocación del modelo utilizando un base_url compatible con OpenAI, sin tener que preocuparte por el sistema de cuentas subyacente.

P2: ¿El precio unitario después de comprar PT es más barato que el pago por uso?

El precio unitario no cambia, pero al prorratear el coste total por "cada millón de tokens", el coste integral puede ser menor en usos a gran escala. El mecanismo es el siguiente: PT se factura mediante un compromiso mensual fijo; si utilizas plenamente toda la capacidad de GSU, el precio unitario efectivo es aproximadamente del 80-95% del DSQ; si no se aprovecha al máximo, resulta más caro. El valor de PT no radica en el ahorro, sino en la garantía de rendimiento, estabilidad de latencia y mayor prioridad.

P3: ¿Se puede cancelar o reducir la cantidad de GSU de PT a mitad de contrato?

No. Una vez firmado el contrato, no se puede cancelar ni reducir la cantidad de GSU durante el periodo de compromiso actual. Solo puedes elegir si renovar o no al finalizar el ciclo. El único cambio permitido es aumentar la cantidad de GSU (en caso de expansión del negocio). Este es el mayor punto de riesgo de PT: el compromiso de prepago debe basarse en estimaciones de uso conservadoras.

P4: ¿Es compatible PT con Gemini 3 Pro Image (Nano Banana Pro)?

A fecha de abril de 2026, según la lista de soporte oficial de Google, la serie de modelos Gemini 3 Pro (incluyendo gemini-3-pro-image-preview) ya admite Provisioned Throughput. Sin embargo, ten en cuenta que el consumo de GSU de los modelos de imagen se calcula según el tamaño de la imagen y los tokens; el consumo de GSU por solicitud de una imagen 4K es significativamente mayor que el de una de 1K. Los coeficientes de consumo específicos se basan en los datos oficiales de Google. Si necesitas comparar costes rápidamente, puedes ponerte en contacto con el departamento comercial de APIYI (apiyi.com) para obtener una tabla comparativa de precios para empresas.

P5: No tengo cuenta de GCP ni tarjeta de crédito internacional, ¿puedo disfrutar de un canal prioritario similar a PT?

Sí. Las soluciones empresariales de APIYI (apiyi.com) logran un efecto de canal prioritario similar a través de la agregación de múltiples cuentas + colas VIP exclusivas. Solo necesitas una entidad nacional y realizar pagos corporativos en moneda local para activarlo. La latencia P99 del canal empresarial es equivalente al canal original de pago por uso de Google, lo cual es suficiente para clientes con un volumen mensual de < 50,000 imágenes, y con un coste de solo el 32-37% del precio oficial de pago por uso.

P6: ¿Se pueden usar PT y Google Batch API de forma conjunta?

Sí. Batch API utiliza un canal asíncrono independiente, por lo que no entra en conflicto con PT o DSQ. Una arquitectura madura combina los tres: las solicitudes críticas en tiempo real usan PT, las solicitudes diarias usan DSQ y las tareas masivas nocturnas usan Batch (con un descuento del 50%). Esta "mezcla de tres canales" puede maximizar la eficiencia general de costes.

Resumen

Volviendo a la pregunta central de este artículo: ¿Qué es Google Provisioned Throughput (PT) y a qué sistema pertenece?

La respuesta breve es: PT es una suscripción de reserva de rendimiento a nivel empresarial bajo Google Cloud Vertex AI (GCP), que utiliza la GSU (Generative AI Scale Unit) como unidad de medida y ofrece periodos de compromiso de 1 semana/1 mes/3 meses/1 año. Durante el periodo de compromiso, no reduce el precio unitario, pero proporciona prioridad de programación y un rendimiento estable. No tiene nada que ver con AI Studio (generativelanguage.googleapis.com) y forma una estructura dual de "prioridad frente a compartición" con el mecanismo de DSQ (Dynamic Shared Quota) de pago por uso.

Para la gran mayoría de las pequeñas y medianas empresas, desarrolladores individuales y creadores de contenido, las barreras de entrada y las restricciones de los periodos de compromiso de PT son demasiado altas. Un camino más práctico es acceder a toda la gama de modelos de Gemini a través de plataformas de agregación como APIYI (apiyi.com), para disfrutar de canales estables de nivel empresarial a un precio más bajo (con un 37% del coste) y evitar complicaciones como cuentas transfronterizas, pagos internacionales y normativas en inglés.

Solo cuando tu volumen de negocio alcance realmente uno de los cuatro umbrales de aplicación de PT (alta concurrencia, baja P99, consumo mensual >$50,000, regulación estricta), invertir tiempo en investigar y adquirir PT será una elección racional.

📌 Autoría: Este artículo ha sido elaborado por el equipo de soluciones empresariales de APIYI (apiyi.com), basado en la documentación oficial en inglés de Google Cloud Vertex AI y la política corporativa más reciente de abril de 2026. Si necesitas evaluar rápidamente si tu negocio es adecuado para PT o para acceso mediante agregación, no dudes en contactarnos a través del portal comercial de nuestro sitio web para recibir un análisis personalizado.

Publicaciones Similares