Lorsque des clients entreprises se renseignent sur les solutions d'accès aux modèles Google tels que Gemini ou Nano Banana Pro, le terme « Provisioned Throughput (PT) » (Débit provisionné) revient souvent, mais il est fréquemment mal compris. Les idées reçues courantes incluent : « Est-ce que le PT est la version entreprise d'AI Studio ? », « Est-ce que le PT permet d'acheter une priorité pour l'API Gemini ? », ou encore « Le prix unitaire diminue-t-il après l'achat d'un PT ? ».
Les réponses à ces questions ne sont pas forcément intuitives. Cet article, basé sur la dernière documentation officielle de Google Cloud Vertex AI, fait le point sur le PT : il fait partie de l'écosystème Vertex AI et non d'AI Studio, son unité de mesure est le GSU (Generative AI Scale Unit), il ne réduit pas le prix unitaire mais garantit une priorité de débit, et le mécanisme de paiement à l'usage correspondant est appelé DSQ (Dynamic Shared Quota).
Comprendre ces concepts vous aidera non seulement à évaluer correctement si vous devez souscrire au PT pour votre entreprise, mais aussi à choisir rationnellement entre trois stratégies : l'auto-hébergement de l'accès Google, l'abonnement PT ou l'utilisation d'une plateforme d'agrégation comme APIYI apiyi.com.

Qu'est-ce que le Provisioned Throughput (PT) de Google
Le Provisioned Throughput (PT) est un abonnement à débit réservé, à coût fixe et sur une période déterminée, proposé par la plateforme Vertex AI de Google Cloud pour ses modèles d'IA générative. Sa logique est simple : l'entreprise s'engage à acheter à l'avance une certaine capacité de traitement, et en échange, Google lui réserve une puissance de calcul dédiée afin de garantir la certitude et la priorité du débit des invocations.
Définition officielle et caractéristiques clés du PT
Selon la documentation officielle de Google Cloud :
Le Provisioned Throughput est un abonnement à coût fixe et à durée déterminée, disponible selon plusieurs durées de contrat, qui réserve du débit pour les modèles d'IA générative pris en charge sur Vertex AI.
Décomposons cette phrase en trois mots-clés :
- Coût fixe : Indépendant du volume réel d'invocations, payé à l'avance selon l'engagement.
- Période fixe : Quatre choix possibles (1 semaine / 1 mois / 3 mois / 1 an).
- Réserve de débit : Il ne s'agit pas d'une réservation de « puissance de calcul », mais d'une réservation de « capacité de traitement de jetons par seconde ».
Ce que le PT n'est pas : clarification de trois idées reçues
| Idée reçue | Clarification |
|---|---|
| « PT = Version entreprise d'AI Studio » | ❌ Le PT n'existe que dans Vertex AI, sans lien direct avec AI Studio |
| « Le prix unitaire diminue avec le PT » | ❌ Le PT ne réduit pas le prix, il garantit uniquement le débit et la priorité |
| « Le PT est résiliable à tout moment » | ❌ Non résiliable en cours de période, seul l'ajout de GSU est possible |
| « Le PT offre un GPU dédié » | ❌ Le PT réserve des unités de débit (GSU), pas de matériel dédié |
| « Le PT s'applique à tous les modèles Google » | ❌ Seuls certains modèles sont pris en charge ; vérifiez la liste de compatibilité |
💡 Conseil d'utilisation : Si votre objectif principal est de « réduire le prix unitaire » plutôt que de « garantir le débit », alors le PT n'est pas fait pour vous. Dans ce cas, passer par les solutions entreprise d'APIYI apiyi.com pour accéder aux modèles de la famille Gemini (y compris Nano Banana Pro) est souvent un choix plus économique, avec des tarifs pouvant descendre jusqu'à 37 % du prix officiel, tout en prenant en charge le règlement en RMB et la facturation TVA.
Comprendre l'unité de mesure GSU (Generative AI Scale Unit)
Pour bien saisir le concept de PT (Provisioned Throughput), il est indispensable de comprendre son unité de mesure : le GSU.
Définition officielle du GSU
Le GSU est une unité abstraite de capacité de débit. Le prix et la capacité sont fixés pour tous les modèles Google prenant en charge le PT, mais l'efficacité de consommation des GSU varie selon le modèle. En d'autres termes :
- Le prix de 1 GSU est identique pour tous les modèles.
- La capacité de 1 GSU (débit de tokens par seconde) est également identique pour tous les modèles.
- Cependant, le volume réel d'invocations du modèle qu'un même GSU peut supporter dépend du modèle utilisé.
Relation entre GSU et modèles : exemples
Le tableau suivant est fourni à titre indicatif (veuillez vous référer aux données officielles les plus récentes de Google pour les valeurs exactes) :
| Modèle | Capacité par GSU | Remarques |
|---|---|---|
| Gemini 2.5 Flash-Lite | Élevée | Modèle léger, 1 GSU supporte plus de requêtes |
| Gemini 2.5 Flash | Moyenne | Équilibré, choix courant pour les entreprises |
| Gemini 2.5 Pro | Faible | Modèle phare, consommation de GSU plus élevée |
| Gemini 3 Pro | Très faible | Nouveau fleuron, forte consommation par requête |
| Gemini 3 Pro Image | Selon la taille de l'image | La consommation pour une image 4K est bien plus élevée qu'en 1K |
Cela signifie que si votre activité utilise plusieurs modèles, vous devrez acheter des engagements GSU distincts pour chaque modèle, au lieu de partager un pool commun de GSU.
Comment estimer le nombre de GSU nécessaires
Google propose un calculateur officiel, mais la logique d'estimation peut être simplifiée ainsi :
GSU requis = (QPS de pointe × tokens moyens par requête) / (Capacité de débit de 1 GSU)
Étapes pour une estimation en entreprise :
- Mesurer le QPS de pointe historique (requêtes par seconde).
- Mesurer la consommation moyenne de tokens par requête (entrée + sortie).
- Consulter le débit par GSU du modèle cible.
- Arrondir à l'unité supérieure et prévoir une marge de 20 à 30 % pour gérer les pics imprévus.
Unité d'achat minimale et paliers
Une commande de PT nécessite généralement l'achat d'un nombre minimum de GSU (la valeur varie selon le modèle et la région). Une fois le contrat signé :
- ✅ Ajouter des GSU : Vous pouvez augmenter votre engagement à tout moment en cas de croissance de votre activité.
- ❌ Réduire des GSU : Il est impossible de réduire le volume durant la période d'engagement en cours.
- ⚠️ Ajustement au renouvellement : Vous devez réévaluer vos besoins avant la fin de la période d'engagement.
Vertex AI vs AI Studio : Clarification sur le PT
C'est là que la plupart des clients se trompent. Google propose deux gammes de produits d'IA générative distinctes :

Vertex AI : Produit Google Cloud Platform de classe entreprise
- Appartenance : Google Cloud Platform (GCP).
- Cible : Entreprises, grandes équipes de développement, clients exigeant des normes de conformité.
- Facturation : Centralisée via la facture GCP, prend en charge le paiement à l'usage (DSQ), la réservation (PT) et le traitement par lots (Batch).
- Console : console.cloud.google.com → menu Vertex AI.
- Chemin API :
*-aiplatform.googleapis.com. - Support PT : ✅ Oui.
- Déploiement régional : ✅ Prise en charge multi-région mondiale.
AI Studio : Entrée pour développeurs et usage individuel
- Appartenance : Google AI for Developers (indépendant de GCP).
- Cible : Développeurs individuels, prototypage rapide, créateurs de contenu.
- Facturation : Compte Google Pay individuel, paiement à l'usage.
- Console : aistudio.google.com.
- Chemin API :
generativelanguage.googleapis.com. - Support PT : ❌ Non.
- Déploiement régional : ❌ Pool mondial unique.
Différences d'accès API
AI Studio (Gemini Developer API) :
from google import genai
# Clé personnelle AI Studio
client = genai.Client(api_key="AIzaSy-xxx")
resp = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="Un chat orange"
)
Vertex AI :
from google import genai
client = genai.Client(
vertexai=True,
project="votre-projet-gcp", # ID du projet GCP
location="us-central1" # Région
)
# L'authentification se fait via gcloud ADC / Service Account, pas besoin de clé API
Attention, les noms des modèles, les modes d'authentification et l'entité de facturation diffèrent. Si vous utilisez initialement une clé API AI Studio, vous ne pourrez en aucun cas acheter de PT. Vous devez impérativement activer Vertex AI dans un projet GCP et vous authentifier via un Service Account.
🎯 Conseil d'intégration : Si vous ne souhaitez pas gérer les complexités liées aux distinctions entre AI Studio et Vertex AI, à l'authentification par Service Account ou au routage multi-région, vous pouvez intégrer l'ensemble des modèles Gemini directement via APIYI (apiyi.com). Nous utilisons une
base_urlet uneapi_keycompatibles avec OpenAI, tout en prenant en charge en arrière-plan la gestion des comptes et le routage.
Explication détaillée du mécanisme de paiement à l'usage DSQ (Dynamic Shared Quota)
Le DSQ est le mode de paiement à l'usage par défaut de Vertex AI, et c'est la méthode de facturation utilisée par la grande majorité des utilisateurs. Il est essentiel de comprendre le DSQ pour saisir la valeur réelle de la priorité offerte par le PT (Provisioned Throughput).
Mécanisme central du DSQ
Avec le DSQ, il n'y a pas de limites de quota prédéfinies sur votre utilisation. Au lieu de cela, le DSQ donne accès à un vaste pool de ressources partagées, allouées dynamiquement en fonction de la disponibilité en temps réel des ressources et de la demande globale de tous les clients utilisant ce modèle.
Points clés :
- Aucun quota prédéfini : aucune demande d'augmentation de quota (QIR) n'est nécessaire.
- Pool de ressources partagé : tous les clients utilisant le paiement à l'usage partagent le même grand réservoir.
- Allocation dynamique : les ressources sont redistribuées en fonction de la demande mondiale en temps réel.
- Fluctuation du débit : le débit alloué à chaque utilisateur peut diminuer pendant les périodes de pointe.
Relation de priorité entre DSQ et PT
Google est clair à ce sujet :
Les clients utilisant le Provisioned Throughput sont prioritaires et servis avant les requêtes à la demande (on-demand).
C'est là toute la valeur du PT : vos requêtes sont traitées en priorité dans la file d'attente de Google. Concrètement :
- Requête PT → entre dans une file d'attente prioritaire dédiée, garantissant une réponse stable.
- Requête DSQ → entre dans le pool partagé, susceptible d'être limitée ou mise en file d'attente lors des pics de trafic.
Scénarios où le DSQ atteint ses limites
Les entreprises qui n'ont pas souscrit au PT peuvent rencontrer des difficultés dans les situations suivantes :
- Pics de trafic lors de promotions e-commerce : le pool partagé est saturé, entraînant un doublement de la latence P99.
- Génération d'images en direct pour le streaming : les exigences de temps réel sont strictes, rendant les fluctuations du DSQ inacceptables.
- Activités internationales : appels simultanés depuis plusieurs régions où la capacité DSQ peut varier considérablement.
- Première semaine de lancement d'un nouveau modèle : les quotas officiels de Google ne sont pas encore pleinement ouverts, rendant le DSQ sous tension.
Cependant, il faut souligner : pour les PME dont le volume mensuel est inférieur à 50 000 appels ou 50 000 images, la stabilité du DSQ est largement suffisante ; acheter du PT serait un investissement excessif.
Options d'engagement et processus d'achat du PT
Les durées d'engagement du PT sont conçues pour couvrir tous les scénarios, de l'expérimentation aux contrats à long terme :
Comparaison des quatre durées d'engagement
| Durée | Scénario type | Coût total relatif | Flexibilité |
|---|---|---|---|
| 1 semaine | Événement court / Validation de pic | Base × 1 | Maximale |
| 1 mois | Planification mensuelle stable | ~Base × 0,95 | Moyenne |
| 3 mois | Engagement trimestriel | ~Base × 0,88 | Faible |
| 1 an | Contrat long terme + budget fixe | ~Base × 0,75 | Minimale |
Les prix exacts doivent être consultés après connexion à la console GCP ; ils varient selon la région et le modèle.
Étapes d'achat du PT

Processus standard pour l'achat de PT en entreprise :
- Estimation des besoins : utilisez le calculateur GSU officiel de Google pour estimer la capacité nécessaire.
- Création du projet GCP : activez l'API Vertex AI et configurez un compte de service (Service Account).
- Lancement de l'achat : passez commande via la console GCP → Vertex AI → page Provisioned Throughput.
- Sélection des paramètres : modèle, région, quantité de GSU, durée d'engagement.
- Approbation financière : paiement par carte bancaire en USD ou par virement ACH entreprise.
- Activation : prend généralement effet sous 1 à 5 jours ouvrés.
- Configuration API : ajoutez le paramètre
provisioned_throughput_iddans votre code pour basculer sur le canal PT.
Exemple d'utilisation de l'API avec PT
Une fois le PT activé, le code d'appel doit le spécifier explicitement :
from google import genai
from google.genai import types
client = genai.Client(
vertexai=True,
project="your-gcp-project",
location="us-central1"
)
resp = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="Un chat orange",
config=types.GenerateContentConfig(
# Spécifiez l'ID de souscription PT pour utiliser le canal prioritaire
labels={"dedicated-capacity": "your-pt-subscription-id"}
)
)
Si ce paramètre n'est pas spécifié, même si vous avez une souscription PT, la requête continuera d'utiliser le canal DSQ.
Comparaison des trois modèles de facturation PT : PT vs DSQ vs Batch
Vertex AI propose trois modèles de facturation. Comprendre leurs limites est crucial pour les décisions stratégiques de votre entreprise :
| Dimension | Provisioned Throughput (PT) | Dynamic Shared Quota (DSQ) | Batch API |
|---|---|---|---|
| Modèle de facturation | Prépayé fixe | À l'usage | À l'usage |
| Prix unitaire | Identique à l'usage | Prix catalogue | 50 % de réduction |
| Priorité | Maximale (dédiée) | Pool partagé | Minimale (fenêtre 24h) |
| Engagement | Semaine/Mois/Trimestre/An | Aucun | Aucun |
| Latence | Stable (faible) | Variable | Asynchrone (24h) |
| Cas d'usage | Temps réel haute concurrence | Usage quotidien général | Traitement massif hors ligne |
| Seuil d'entrée | Plusieurs milliers de $ | Gratuit | Gratuit |
Stratégie combinée : PT + DSQ + Batch
Les entreprises matures adoptent généralement une architecture de facturation hybride :
- PT pour les services critiques en temps réel : comme la génération d'images en direct ou les interactions utilisateurs.
- DSQ pour le trafic quotidien : la majorité des requêtes non critiques passent par le modèle à l'usage.
- Batch pour les tâches massives nocturnes : génération de rapports, annotation de données, etc.
⚡ Conseil pour l'architecture hybride : Si votre équipe est de taille réduite et que vous souhaitez éviter une architecture multi-canaux complexe, nous vous recommandons d'utiliser APIYI (apiyi.com) pour une intégration unifiée. Nous avons implémenté un routage intelligent en backend : les requêtes urgentes passent par le canal VIP, les tâches par lots par le canal Batch, et les appels standards par le canal classique. C'est transparent pour vous : une seule clé API suffit pour profiter des avantages d'une stratégie hybride.
Évaluation détaillée des cas d'usage du PT
Quatre types d'entreprises pour lesquelles le PT est idéal

Scénario 1 : Activité en temps réel à haute concurrence
E-commerce, plateformes de vidéos courtes, interactions en direct : si la concurrence dépasse 50 requêtes/seconde, le DSQ peut déclencher des limitations de débit. Le PT est alors indispensable.
Scénario 2 : Indicateurs stricts de latence P99
Si votre SLA exige une latence P99 inférieure à 10 secondes (ex: outils de dessin IA en temps réel), le DSQ, avec son P99 habituel de 15 à 30 secondes, ne suffira pas.
Scénario 3 : Franchissement du seuil de consommation mensuelle
Au-delà de 50 000 $ de consommation mensuelle, le coût fixe du PT est amorti par les économies d'échelle. Le coût unitaire peut devenir inférieur à celui du DSQ, rendant le PT à la fois plus économique et plus stable.
Scénario 4 : Conformité et isolation réglementaire
Les secteurs comme la finance ou la santé exigent souvent des pools de ressources dédiés et des déclarations de conformité. Le PT offre une garantie explicite d'isolation du débit.
Cinq scénarios où le PT n'est pas adapté
- Volume mensuel < 50 000 appels : Le coût fixe du PT n'est pas assez amorti, le paiement à l'usage est plus rentable.
- Forte fluctuation de l'activité : L'engagement prépayé peut entraîner un gaspillage important en cas de sous-utilisation.
- Besoin unique de réduction de prix : Le PT ne réduit pas le prix unitaire ; privilégiez les canaux d'agrégation pour négocier.
- Utilisation mixte de plusieurs modèles : Chaque modèle nécessite un engagement GSU séparé, ce qui complexifie la gestion.
- Petites équipes : Manque de ressources financières et opérationnelles pour gérer des contrats en dollars sur le long terme.
Si vous n'êtes pas dans la cible pour le PT, l'intégration de la gamme Gemini via APIYI (apiyi.com) vous permet d'obtenir un tarif entreprise avec 63 % de réduction, cumulable avec des bonus de recharge allant jusqu'à 20 %. Le prix unitaire réel peut descendre jusqu'à environ 32 % du tarif officiel de Google, vous offrant ainsi un prix plus bas pour une stabilité acceptable.
Foire aux questions (FAQ)
Q1 : J'ai déjà développé avec la clé API Gemini sur AI Studio, puis-je acheter du PT ?
Non. AI Studio (Gemini Developer API) et Vertex AI sont deux systèmes distincts ; le PT appartient exclusivement à Vertex AI. Pour utiliser le PT, vous devez obligatoirement : ① Créer un projet GCP et activer Vertex AI ; ② Migrer vers le mode d'authentification par compte de service (Service Account) de Vertex AI ; ③ Réécrire une partie du code d'invocation du modèle. Si vous souhaitez éviter cette migration, vous pouvez passer par APIYI (apiyi.com) pour utiliser Gemini via un base_url compatible OpenAI, sans avoir à vous soucier de l'architecture des comptes sous-jacents.
Q2 : Le prix unitaire après l'achat de PT est-il moins cher que celui à la consommation ?
Le prix unitaire reste identique, mais ramené au "million de jetons", le coût global peut être plus avantageux en cas d'utilisation massive. Le mécanisme est le suivant : le PT repose sur un engagement mensuel fixe. Si vous utilisez pleinement votre capacité GSU, le coût unitaire réel est d'environ 80 à 95 % du DSQ. En revanche, si vous ne l'utilisez pas entièrement, il revient plus cher. La valeur du PT ne réside pas dans les économies directes, mais dans la garantie de débit, la stabilité de la latence et une priorité de traitement plus élevée.
Q3 : Puis-je annuler ou réduire la quantité de GSU en cours de route ?
Non. Une fois le contrat signé, il est impossible d'annuler ou de réduire le nombre de GSU pendant la période d'engagement en cours. Vous pouvez uniquement décider de renouveler ou non à la fin de la période. Le seul changement autorisé est l'ajout de GSU (en cas d'expansion de votre activité). C'est le principal point de risque du PT : l'engagement prépayé doit reposer sur une estimation conservatrice de votre consommation.
Q4 : Le modèle Gemini 3 Pro Image (Nano Banana Pro) prend-il en charge le PT ?
À la date d'avril 2026, selon la liste officielle de Google, la gamme de modèles Gemini 3 Pro (y compris gemini-3-pro-image-preview) prend en charge le Provisioned Throughput. Notez toutefois que la consommation de GSU pour les modèles d'image est calculée en fonction de la résolution et des jetons ; une image 4K consomme nettement plus de GSU par requête qu'une image 1K. Les coefficients de consommation officiels de Google font foi. Pour une comparaison rapide des coûts, vous pouvez contacter l'équipe commerciale d'APIYI (apiyi.com) pour obtenir une grille tarifaire entreprise.
Q5 : Je n'ai ni compte GCP ni carte bancaire internationale, puis-je bénéficier d'un canal prioritaire similaire au PT ?
Oui. Les solutions entreprise d'APIYI (apiyi.com) offrent un effet de canal prioritaire similaire grâce à l'agrégation de comptes multiples et des files d'attente VIP dédiées. Il vous suffit d'une entité juridique locale et d'un paiement par virement professionnel en RMB pour y souscrire. La latence P99 du canal entreprise est équivalente au canal à la consommation natif de Google. Pour les clients ayant un volume inférieur à 50 000 images par mois, c'est suffisant et le coût ne représente que 32 à 37 % du tarif officiel.
Q6 : Le PT et le Batch API de Google peuvent-ils être utilisés simultanément ?
Oui. Le Batch API utilise un canal asynchrone indépendant, ce qui n'entre pas en conflit avec le PT ou le DSQ. Une architecture mature combine les trois : les requêtes critiques en temps réel utilisent le PT, les requêtes quotidiennes le DSQ, et les tâches massives nocturnes le Batch (bénéficiant de 50 % de réduction). Cette stratégie "triple canal" maximise l'efficacité des coûts.
Résumé
Revenons à la question centrale de cet article : Qu'est-ce que le Google Provisioned Throughput (PT) et à quel écosystème appartient-il ?
La réponse courte est : Le PT est un abonnement de réservation de débit de niveau entreprise au sein de Google Cloud Vertex AI (GCP). Il est mesuré en GSU (Generative AI Scale Unit) et propose des périodes d'engagement de 1 semaine, 1 mois, 3 mois ou 1 an. Durant cette période, il ne réduit pas le prix unitaire, mais offre une priorité de planification et un débit stable. Il est indépendant d'AI Studio (generativelanguage.googleapis.com) et forme une structure binaire "priorité vs partage" avec le mécanisme de paiement à la consommation, appelé DSQ (Dynamic Shared Quota).
Pour la grande majorité des PME, développeurs individuels et créateurs de contenu, les barrières à l'entrée et les engagements du PT sont trop élevés. La voie la plus pragmatique consiste à accéder à l'ensemble de la gamme Gemini via une plateforme d'agrégation comme APIYI (apiyi.com), afin de bénéficier d'un canal entreprise stable à un tarif plus avantageux (37 % du prix officiel) tout en évitant la complexité des comptes transfrontaliers, des paiements internationaux et de la conformité réglementaire.
Ce n'est que lorsque votre activité atteint l'un des quatre seuils d'utilisation du PT (concurrence élevée, P99 faible, consommation mensuelle > 50 000 $, ou contraintes réglementaires strictes) que l'investissement de temps et de ressources dans le PT devient un choix rationnel.
📌 Auteur : Article rédigé par l'équipe de solutions entreprise d'APIYI (apiyi.com), basé sur la documentation officielle de Google Cloud Vertex AI et les politiques entreprise en vigueur en avril 2026. Si vous souhaitez évaluer rapidement si votre activité est adaptée au PT ou à un accès agrégé, n'hésitez pas à nous contacter via notre portail commercial pour une analyse personnalisée.
