Google Provisioned Throughput (PT) tiefgreifend entschlüsselt: 6 entscheidende Unterschiede zwischen Vertex AI Dedicated vs. AI Studio System (2026)

Wenn Unternehmenskunden nach Zugangslösungen für Google-Modelle wie Gemini oder Nano Banana Pro fragen, ist "Provisioned Throughput (PT)" ein Begriff, der häufig fällt, aber ebenso oft missverstanden wird. Zu den gängigen Irrtümern gehören: "Ist PT die Enterprise-Version von AI Studio?", "Kaufe ich mit PT eine höhere Priorität für die Gemini-API?" oder "Wird der Einzelpreis nach dem Kauf von PT günstiger?"

Die Antworten auf diese Fragen sind nicht immer intuitiv. Basierend auf der aktuellen offiziellen Dokumentation von Google Cloud Vertex AI beleuchten wir PT in diesem Artikel umfassend: Es gehört zum Vertex AI-Ökosystem und nicht zu AI Studio, die Maßeinheit ist GSU (Generative AI Scale Unit), es senkt nicht den Einzelpreis, garantiert aber die Durchsatzpriorität, und der entsprechende nutzungsbasierte Abrechnungsmechanismus heißt DSQ (Dynamic Shared Quota).

Das Verständnis dieser Konzepte hilft Ihnen nicht nur dabei, korrekt zu bewerten, ob Sie PT für Ihr Unternehmen erwerben sollten, sondern auch dabei, rational zwischen den drei Wegen zu wählen: dem eigenständigen Google-Zugang, dem PT-Abonnement oder der Nutzung über eine Aggregationsplattform wie APIYI (apiyi.com).

Was ist Google Provisioned Throughput (PT)?

Provisioned Throughput (PT) ist ein Abonnement für Durchsatzreservierungen mit festen Kosten und fester Laufzeit, das die Google Cloud Vertex AI-Plattform für generative KI-Modelle anbietet. Die Kernlogik lautet: Unternehmen verpflichten sich im Voraus zum Kauf einer bestimmten Verarbeitungskapazität, und Google reserviert dedizierte Rechenleistung für Sie, um im Gegenzug Sicherheit und Priorität beim Durchsatz zu gewährleisten.

Offizielle Definition und Hauptmerkmale von PT

Laut der offiziellen Google Cloud-Dokumentation:

Provisioned Throughput ist ein Abonnement mit festen Kosten und fester Laufzeit, das in verschiedenen Laufzeiten verfügbar ist und Durchsatz für unterstützte generative KI-Modelle auf Vertex AI reserviert.

Zerlegen wir diesen Satz in drei Schlüsselbegriffe:

Fixed-cost (Feste Kosten): Unabhängig vom tatsächlichen Aufrufvolumen, Vorauszahlung gemäß Verpflichtung.
Fixed-term (Feste Laufzeit): Wahlweise 1 Woche / 1 Monat / 3 Monate / 1 Jahr.
Reserves throughput (Durchsatzreservierung): Es wird keine "Rechenleistung" im klassischen Sinne reserviert, sondern eine "Token-Verarbeitungskapazität pro Sekunde".

Was PT nicht ist: Klärung der drei größten Irrtümer

Häufige Missverständnisse	Richtigstellung
"PT = Enterprise-Version von AI Studio"	❌ PT gibt es nur in Vertex AI, kein direkter Bezug zu AI Studio
"PT senkt den Einzelpreis"	❌ PT senkt den Einzelpreis nicht, es bietet nur Durchsatzgarantie und Priorität
"PT kann jederzeit gekündigt werden"	❌ Nach Vertragsabschluss innerhalb der Laufzeit nicht kündbar, nur GSU-Erweiterung möglich
"PT bietet exklusive GPU-Nutzung"	❌ PT reserviert Durchsatzeinheiten (GSU), keine Hardware-Exklusivität
"PT gilt für alle Google-Modelle"	❌ Nur für ausgewählte Modelle verfügbar, siehe Unterstützungsliste

💡 Empfehlung für typische Szenarien: Wenn Ihr Hauptanliegen die "Senkung des Einzelpreises" und nicht die "Durchsatzgarantie" ist, dann ist PT nicht das Richtige für Sie. In diesem Fall ist der Zugang über die Unternehmenslösungen von APIYI (apiyi.com) für Gemini-Modelle (einschließlich Nano Banana Pro) oft die wirtschaftlichere Wahl – mit bis zu 63 % Rabatt gegenüber dem offiziellen Preis sowie Unterstützung für Abrechnungen in RMB und Mehrwertsteuerrechnungen.

Erläuterung der GSU (Generative AI Scale Unit)

Um PT (Provisioned Throughput) zu verstehen, muss man zunächst die Maßeinheit GSU kennen.

Offizielle Definition der GSU

Die GSU ist eine abstrakte Einheit für die Durchsatzkapazität. Sie sorgt dafür, dass Preis und Kapazität über alle Google-Modelle hinweg, die PT unterstützen, stabil bleiben. Allerdings ist die Effizienz der GSU-Nutzung je nach Modell unterschiedlich. Anders ausgedrückt:

Der Preis von 1 GSU ist für alle Modelle identisch.
Die Kapazität (Tokens pro Sekunde) von 1 GSU ist für alle Modelle ebenfalls identisch.
Die tatsächliche Anzahl der Modellaufrufe, die mit einer GSU möglich ist, variiert jedoch je nach Modell.

Beispiel für das Verhältnis zwischen GSU und Modellen

Die folgende Tabelle dient zur Veranschaulichung (die genauen Werte entnehmen Sie bitte den aktuellen Daten von Google):

Modell	Durchsatz pro 1 GSU	Anmerkung
Gemini 2.5 Flash-Lite	Höher	Leichtgewichtiges Modell, eine GSU unterstützt mehr Anfragen
Gemini 2.5 Flash	Mittel	Ausgewogen, bevorzugt für Unternehmenseinsätze
Gemini 2.5 Pro	Niedriger	Flaggschiff-Modell, höherer GSU-Verbrauch
Gemini 3 Pro	Am niedrigsten	Neues Flaggschiff, hoher GSU-Bedarf pro Anfrage
Gemini 3 Pro Image	Je nach Bildgröße	4K-Einzelbilder verbrauchen deutlich mehr als 1K

Das bedeutet: Wenn Sie in Ihrem Unternehmen mehrere Modelle mischen, müssen Sie für jedes Modell separate GSU-Zusagen erwerben, anstatt einen gemeinsamen GSU-Pool zu nutzen.

So schätzen Sie den benötigten GSU-Bedarf

Google stellt einen offiziellen GSU-Rechner zur Verfügung, aber die Schätzlogik lässt sich vereinfacht so ausdrücken:

Benötigte GSU = (Spitzen-QPS × durchschnittliche Tokens pro Anfrage) / (Durchsatzkapazität von 1 GSU)

Schritte für die Unternehmenskalkulation:

Ermittlung der historischen Spitzen-QPS (Anfragen pro Sekunde).
Ermittlung der durchschnittlich verbrauchten Tokens pro Anfrage (Eingabe + Ausgabe).
Nachschlagen des Durchsatzes pro GSU für das Zielmodell.
Aufrunden und einen Puffer von 20-30 % für Lastspitzen einplanen.

Mindestbestellmenge und Staffelung von GSU

Ein PT-Auftrag erfordert in der Regel eine Mindestbestellmenge an GSU (abhängig von Modell und Region). Nach Vertragsabschluss gilt:

✅ GSU aufstocken: Bei geschäftlichem Wachstum kann das Kontingent jederzeit erhöht werden.
❌ GSU reduzieren: Während der laufenden Vertragslaufzeit ist eine Reduzierung nicht möglich.
⚠️ Anpassung bei Vertragsverlängerung: Vor Ende der Laufzeit sollte der Kapazitätsbedarf neu bewertet werden.

Vertex AI vs. AI Studio: Klärung der PT-Zugehörigkeit

Dies ist der Punkt, an dem viele Kunden am häufigsten durcheinandergeraten. Google betreibt zwei unabhängige Produktlinien für generative KI:

Vertex AI: Google Cloud Platform für Unternehmen

Zugehörigkeit: Google Cloud Platform (GCP).
Zielgruppe: Unternehmen, große Entwicklungsteams, Kunden mit hohen Compliance-Anforderungen.
Abrechnung: Zentrale Abrechnung über die GCP-Rechnung, unterstützt nutzungsbasierte Abrechnung (DSQ), Reservierungen (PT) und Batch-Verarbeitung.
Konsole: console.cloud.google.com → Menü "Vertex AI".
API-Pfad: *-aiplatform.googleapis.com.
PT-Unterstützung: ✅ Ja.
Regionale Bereitstellung: ✅ Unterstützung für mehrere globale Regionen.

AI Studio: Zugang für Entwickler und Privatnutzer

Zugehörigkeit: Google AI for Developers (unabhängig von GCP).
Zielgruppe: Einzelentwickler, Prototyping, Content-Ersteller.
Abrechnung: Zahlung über persönliches Google Pay-Konto, nutzungsbasiert.
Konsole: aistudio.google.com.
API-Pfad: generativelanguage.googleapis.com.
PT-Unterstützung: ❌ Nein.
Regionale Bereitstellung: ❌ Globaler Standard-Pool.

Unterschiede beim API-Zugriff (Code-Beispiele)

AI Studio (Gemini Developer API):

from google import genai
client = genai.Client(api_key="AIzaSy-xxx")  # Persönlicher Key aus AI Studio
resp = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents="Eine orangefarbene Katze"
)

Vertex AI:

from google import genai
client = genai.Client(
    vertexai=True,
    project="your-gcp-project",  # GCP-Projekt-ID
    location="us-central1"       # Region
)
# Authentifizierung erfolgt über gcloud ADC / Service Account, kein API-Key erforderlich

Beachten Sie, dass sich Modellnamen, Authentifizierungsmethoden und die Abrechnungszugehörigkeit unterscheiden. Wenn Sie mit einem API-Key aus dem AI Studio starten, können Sie kein PT erwerben. Sie müssen stattdessen Vertex AI in einem GCP-Projekt aktivieren und sich über ein Service-Account authentifizieren.

🎯 Empfehlung für die Einbindung: Wenn Sie die Komplexität zwischen AI Studio und Vertex AI, Service-Account-Authentifizierung und regionalem Routing vermeiden möchten, können Sie die Gemini-Modellreihe einfach über APIYI (apiyi.com) anbinden. Wir bieten eine OpenAI-kompatible base_url sowie einen einheitlichen api_key und übernehmen im Hintergrund das Kontomanagement und das Routing.

DSQ (Dynamic Shared Quota) Mechanism Explained

DSQ ist das Standard-Modell für nutzungsabhängige Abrechnung bei Vertex AI und die Art der Abrechnung, die die überwiegende Mehrheit der Nutzer tatsächlich verwendet. Das Verständnis von DSQ ist die Voraussetzung, um den Prioritätswert von PT zu begreifen.

Kernmechanismus von DSQ

With DSQ, there are no predefined quota limits on your usage. Instead, DSQ provides access to a large, shared pool of resources, dynamically allocated based on real-time availability of resources and real-time demand across all customers of that model.

Kernpunkte:

Keine vordefinierten Kontingente: Kein Einreichen von QIRs (Quota Increase Request) erforderlich.
Geteilter Ressourcenpool: Alle Kunden mit nutzungsabhängiger Abrechnung nutzen denselben großen Pool.
Dynamische Zuweisung: Die Aufteilung erfolgt basierend auf dem Echtzeitbedarf globaler Kunden.
Durchsatzschwankungen: Zu Spitzenzeiten kann der Durchsatz pro Nutzer sinken.

Prioritätsverhältnis zwischen DSQ und PT

Google stellt klar:

Provisioned Throughput customers are prioritized and serviced first before on-demand requests.

Dies ist der Hauptwert von PT: Anfragen werden in der Planungs-Warteschlange von Google bevorzugt behandelt. Das äußert sich wie folgt:

PT-Anfragen → gelangen in eine exklusive Warteschlange mit hoher Priorität, was für stabile Antwortzeiten sorgt.
DSQ-Anfragen → gelangen in einen gemeinsamen Pool, wo sie zu Spitzenzeiten gedrosselt oder in eine Warteschlange gestellt werden können.

Typische Szenarien mit DSQ-Einschränkungen

Unternehmen ohne PT-Vertrag stoßen in folgenden Situationen häufig auf Probleme:

Spitzenlast bei E-Commerce-Aktionen (z. B. um Mitternacht): Der globale Pool ist überlastet, die P99-Latenz verdoppelt sich.
Bildgenerierung bei Live-Interaktionen: Hohe Anforderungen an die Echtzeitfähigkeit, DSQ-Schwankungen sind inakzeptabel.
Internationale Geschäfte: Gleichzeitige Aufrufe in mehreren Regionen mit stark variierenden DSQ-Kapazitäten.
Erste Woche nach Veröffentlichung eines neuen Modells: Google hat die offiziellen Kontingente noch nicht vollständig freigegeben, DSQ ist stark ausgelastet.

Wichtiger Hinweis: Für kleine und mittlere Unternehmen mit weniger als 50.000 Aufrufen oder 50.000 generierten Bildern pro Monat ist die Stabilität von DSQ in der Regel völlig ausreichend; der Erwerb von PT wäre hier eine Überinvestition.

PT-Laufzeitoptionen und Kaufprozess

Die Laufzeiten für PT sind so gestaltet, dass sie verschiedene Szenarien abdecken – vom ersten Test bis hin zum langfristigen Vertrag:

Vergleich der vier Laufzeitoptionen

Laufzeit	Typisches Szenario	Gesamtkostenanteil	Flexibilität
1 Woche	Kurzfristige Events/Aktionen	Basis × 1	Maximal
1 Monat	Monatliche Geschäftsplanung	~Basis × 0,95	Mittel
3 Monate	Quartalsweise Verpflichtung	~Basis × 0,88	Niedrig
1 Jahr	Langzeitvertrag + Budgetbindung	~Basis × 0,75	Am niedrigsten

Die konkreten Preise sind nach der Anmeldung in der GCP-Konsole einsehbar; sie variieren je nach Region und Modell.

Schritte zum Erwerb von PT

Standardprozess für Unternehmen beim Erwerb von PT:

Bedarfsermittlung: Nutzen Sie den offiziellen Google GSU-Rechner, um die erforderliche Kapazität abzuschätzen.
GCP-Projekt erstellen: Aktivieren Sie die Vertex AI API und konfigurieren Sie ein Service-Konto.
Kauf initiieren: Bestellen Sie über die GCP-Konsole unter Vertex AI → Provisioned Throughput.
Parameter wählen: Modell, Region, GSU-Anzahl, Laufzeit festlegen.
Finanzfreigabe: Zahlung per Kreditkarte (USD) oder ACH für Unternehmen.
Aktivierung: Die Bereitstellung erfolgt in der Regel innerhalb von 1-5 Werktagen.
API-Konfiguration: Fügen Sie im Code den Parameter provisioned_throughput_id hinzu, um auf den PT-Kanal umzuschalten.

Beispiel für die API-Nutzung von PT

Nach der Aktivierung von PT muss der Aufruf explizit spezifiziert werden:

from google import genai
from google.genai import types

client = genai.Client(
    vertexai=True,
    project="your-gcp-project",
    location="us-central1"
)

resp = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents="Eine orangefarbene Katze",
    config=types.GenerateContentConfig(
        # PT-Abonnement-ID angeben, damit die Anfrage über den Prioritätskanal läuft
        labels={"dedicated-capacity": "your-pt-subscription-id"}
    )
)

Wenn dieser Parameter nicht angegeben wird, laufen die Anfragen selbst bei bestehendem PT-Abonnement weiterhin über den DSQ-Kanal.

Vergleich der drei Abrechnungsmodelle für PT: PT vs. DSQ vs. Batch

Vertex AI bietet drei verschiedene Abrechnungsmodelle an. Die Abgrenzung dieser Modelle ist für unternehmerische Entscheidungen von entscheidender Bedeutung:

Dimension	Provisioned Throughput	Dynamic Shared Quota	Batch API
Abrechnungsmodell	Feste Vorauszahlung	Pay-as-you-go	Pay-as-you-go
Einzelpreis	Wie Pay-as-you-go	Offizieller Listenpreis	50 % Rabatt
Priorität	Höchste (exklusiv)	Geteilter Pool	Niedrigste (24h-Fenster)
Verpflichtung	Woche/Monat/Quartal/Jahr	Keine	Keine
Latenz	Stabil (niedrig)	Schwankend	24h asynchron
Einsatzszenario	Hochperformante Echtzeit	Täglicher Standard	Große Offline-Aufgaben
Einstiegshürde	Ab mehreren tausend USD	Kostenloser Start	Kostenloser Start

Kombinationsstrategie: PT + DSQ + Batch

Reife Unternehmen setzen in der Regel auf eine hybride Abrechnungsarchitektur:

PT sichert geschäftskritische Echtzeit-Dienste: z. B. Bilderzeugung im Livestream oder Benutzerinteraktionen.
DSQ deckt den täglichen Bedarf ab: Die meisten nicht kritischen Anfragen laufen über das Pay-as-you-go-Modell.
Batch verarbeitet umfangreiche nächtliche Aufgaben: Berichterstellung, Datenannotation usw.

⚡ Empfehlung für hybride Architekturen: Wenn Ihr Team klein ist und Sie keine komplexe Multi-Channel-Architektur aufbauen möchten, empfehlen wir die zentrale Anbindung über APIYI (apiyi.com). Wir haben im Backend ein intelligentes Routing implementiert: Dringende Anfragen nutzen den VIP-Kanal, Batch-Aufgaben den Batch-Kanal und tägliche Aufrufe den Standardkanal. Dies ist für die Anwendungsebene transparent – ein einziger API-Schlüssel reicht aus, um von der hybriden Strategie zu profitieren.

Detaillierte Bewertung: Wann PT geeignet ist und wann nicht

Vier Unternehmenstypen, für die sich PT wirklich lohnt

Szenario 1: Hochperformante Echtzeit-Geschäftsprozesse
E-Commerce-Aktionen, Kurzvideo-Plattformen oder Live-Interaktionen erfordern eine Spitzenlast von > 50 Anfragen/Sekunde. In diesen Fällen kann DSQ zu Drosselungen führen; PT ist hier zwingend erforderlich.

Szenario 2: P99-Latenz als harte Vorgabe
Die SLA für Benutzerinteraktionen erfordert eine P99-Latenz für das erste Paket von < 10 Sekunden, z. B. bei Echtzeit-KI-Zeichenwerkzeugen. Die P99-Latenz von DSQ liegt meist bei 15–30 Sekunden und erfüllt diese Anforderung nicht.

Szenario 3: Überschreiten der monatlichen Ausgabenschwelle
Bei monatlichen Ausgaben von > 50.000 USD werden die Fixkosten von PT durch Skaleneffekte relativiert. Die Stückkosten können unter denen von DSQ liegen, wodurch PT sowohl kosteneffizienter als auch stabiler wird.

Szenario 4: Strenge regulatorische Anforderungen
Branchen wie Finanzen oder Gesundheitswesen erfordern exklusive Ressourcenpools und Compliance-Erklärungen. PT bietet hier klare Garantien für Durchsatz und Isolation.

Fünf Szenarien, in denen PT nicht geeignet ist

Monatliches Aufrufvolumen < 50.000: Die Fixkosten von PT amortisieren sich nicht; Pay-as-you-go ist wirtschaftlicher.
Starke Volatilität des Geschäftsvolumens: Vorauszahlungsverpflichtungen führen oft zu ungenutzten Kapazitäten und Verschwendung.
Nur Wunsch nach Preissenkung: PT senkt den Einzelpreis nicht; hier sollten aggregierte Kanäle für Preisverhandlungen genutzt werden.
Mischbetrieb mehrerer Modelle: Jedes Modell erfordert eine eigene GSU-Verpflichtung, was den operativen Aufwand erhöht.
Kleine Teams: Fehlende finanzielle und operative Kapazitäten für langfristige Verträge in USD.

Wenn Sie nicht zur Zielgruppe für PT gehören, können Sie über APIYI (apiyi.com) auf die gesamte Gemini-Modellreihe mit einem Unternehmensrabatt von 63 % zugreifen. Durch zusätzliche Aufladeboni von bis zu 20 % kann der tatsächliche Preis auf etwa 32 % des offiziellen Google-Preises sinken – so erhalten Sie akzeptable Stabilität zu einem deutlich niedrigeren Preis.

Häufig gestellte Fragen (FAQ)

Q1: Ich entwickle bereits in AI Studio mit einem Gemini API-Schlüssel. Kann ich PT kaufen?

Nein. AI Studio (Gemini Developer API) und Vertex AI sind zwei getrennte Systeme; PT gehört ausschließlich zu Vertex AI. Um PT nutzen zu können, müssen Sie: ① ein GCP-Projekt erstellen und Vertex AI aktivieren; ② auf die Service-Account-Authentifizierung von Vertex AI migrieren; ③ Teile Ihres Codes für den Modellaufruf umschreiben. Wenn Sie diesen Migrationsaufwand umgehen möchten, können Sie über APIYI (apiyi.com) direkt OpenAI-kompatible base_url-Aufrufe für Gemini verwenden, ohne sich um die zugrunde liegende Kontostruktur kümmern zu müssen.

Q2: Ist der Stückpreis nach dem Kauf von PT günstiger als bei nutzungsabhängiger Abrechnung?

Der Stückpreis bleibt gleich, aber die Gesamtkosten pro "Million Tokens" können bei großflächigem Einsatz niedriger ausfallen. Der Mechanismus sieht wie folgt aus: PT wird über feste monatliche Verpflichtungen abgerechnet. Wenn Sie die gesamte GSU-Kapazität voll ausnutzen, liegt der effektive Preis bei etwa 80–95 % des DSQ-Preises; bei unzureichender Auslastung wird es hingegen teurer. Der Wert von PT liegt weniger in der Kostenersparnis als vielmehr in der Garantie des Durchsatzes, stabiler Latenz und höherer Priorität.

Q3: Kann PT während der Laufzeit gekündigt oder die GSU-Anzahl reduziert werden?

Nein. Sobald der Vertrag geschlossen wurde, kann er innerhalb der aktuellen Laufzeit weder gekündigt noch die GSU-Anzahl reduziert werden. Sie können lediglich am Ende des Zeitraums entscheiden, ob Sie verlängern möchten. Die einzige erlaubte Änderung ist die Aufstockung der GSU (bei geschäftlicher Expansion). Dies ist das größte Risiko bei PT – die Vorauszahlungsverpflichtung muss auf einer konservativen Nutzungsabschätzung basieren.

Q4: Unterstützt Gemini 3 Pro Image (Nano Banana Pro) PT?

Seit April 2026 unterstützen laut offizieller Google-Liste die Modelle der Gemini 3 Pro-Serie (einschließlich gemini-3-pro-image-preview) Provisioned Throughput. Beachten Sie jedoch, dass der GSU-Verbrauch bei Bildmodellen basierend auf Bildgröße und Tokens umgerechnet wird; eine 4K-Bildanfrage belegt deutlich mehr GSU als eine 1K-Anfrage. Maßgeblich für den Verbrauchs-Koeffizienten sind die offiziellen Daten von Google. Für einen schnellen Kostenvergleich kontaktieren Sie den Vertrieb von APIYI (apiyi.com), um eine Vergleichstabelle für Unternehmenslösungen zu erhalten.

Q5: Ich habe kein GCP-Konto und keine internationale Kreditkarte. Kann ich dennoch einen bevorzugten Kanal wie PT nutzen?

Ja. Die Unternehmenslösungen von APIYI (apiyi.com) bieten durch Multi-Account-Aggregation + VIP-exklusive Warteschlangen einen ähnlichen Priorisierungseffekt. Sie benötigen lediglich ein inländisches Unternehmen und können bequem per Firmenüberweisung bezahlen. Die P99-Latenz des Unternehmenskanals entspricht dem nativen nutzungsabhängigen Kanal von Google. Für Kunden mit weniger als 50.000 Bildanfragen pro Monat ist dies ausreichend, bei Kosten von nur 32–37 % des offiziellen nutzungsabhängigen Preises.

Q6: Können PT und die Google Batch API kombiniert werden?

Ja. Die Batch API nutzt einen unabhängigen asynchronen Kanal und steht nicht im Konflikt mit PT/DSQ. Eine ausgereifte Architektur kombiniert alle drei: Echtzeit-kritische Anfragen laufen über PT, tägliche Anfragen über DSQ und große Batch-Aufgaben in der Nacht über die Batch API (mit 50 % Rabatt). Dieser "Drei-Kanal-Mix" maximiert die Kosteneffizienz.

Fazit

Zurück zur Kernfrage dieses Artikels: Was ist Google Provisioned Throughput (PT) und zu welchem System gehört es?

Die kurze Antwort lautet: PT ist ein unternehmensweites Abonnement für Durchsatzreservierungen innerhalb von Google Cloud Vertex AI (GCP). Es wird in GSU (Generative AI Scale Unit) gemessen und bietet Laufzeiten von 1 Woche / 1 Monat / 3 Monaten / 1 Jahr. Innerhalb dieser Laufzeit werden die Preise nicht gesenkt, aber es werden eine Planungspriorität und stabiler Durchsatz garantiert. Es steht in keinem Zusammenhang mit AI Studio (generativelanguage.googleapis.com) und bildet mit dem nutzungsabhängigen DSQ (Dynamic Shared Quota)-Mechanismus eine duale Struktur aus "Priorität vs. gemeinsam genutzt".

Für die allermeisten kleinen und mittleren Unternehmen, Einzelentwickler und Content-Ersteller sind die Einstiegshürden und die Verpflichtungsdauer von PT zu hoch. Ein praktischerer Weg ist die Anbindung an die gesamte Gemini-Modellfamilie über Aggregationsplattformen wie APIYI (apiyi.com). So profitieren Sie von einem günstigeren Preis (37 % des Preises) und einem stabilen Unternehmenskanal, während Sie komplexe Themen wie grenzüberschreitende Konten, internationale Zahlungen und Compliance-Vorgaben vermeiden.

Erst wenn Ihr Geschäftsvolumen tatsächlich eine der vier Anwendungsschwellen für PT erreicht (hohe Parallelität, niedrige P99, monatliche Ausgaben >50.000 $, strenge Regulierung), ist es sinnvoll, Zeit in die Prüfung und den Kauf von PT zu investieren.

📌 Autorenhinweis: Dieser Artikel wurde vom Unternehmenslösungsteam von APIYI (apiyi.com) erstellt. Der Inhalt basiert auf der offiziellen englischsprachigen Dokumentation von Google Cloud Vertex AI und der neuesten Unternehmensrichtlinie vom April 2026. Wenn Sie schnell bewerten möchten, ob Ihr Unternehmen für PT oder eine aggregierte Anbindung geeignet ist, kontaktieren Sie uns über den Business-Eingang auf unserer offiziellen Website für eine individuelle Analyse.

Google Provisioned Throughput (PT) tiefgreifend entschlüsselt: 6 entscheidende Unterschiede zwischen Vertex AI Dedicated vs. AI Studio System (2026)

Was ist Google Provisioned Throughput (PT)?

Offizielle Definition und Hauptmerkmale von PT

Was PT nicht ist: Klärung der drei größten Irrtümer

Erläuterung der GSU (Generative AI Scale Unit)

Offizielle Definition der GSU

Beispiel für das Verhältnis zwischen GSU und Modellen

So schätzen Sie den benötigten GSU-Bedarf

Mindestbestellmenge und Staffelung von GSU

Vertex AI vs. AI Studio: Klärung der PT-Zugehörigkeit

Vertex AI: Google Cloud Platform für Unternehmen

AI Studio: Zugang für Entwickler und Privatnutzer

Unterschiede beim API-Zugriff (Code-Beispiele)

DSQ (Dynamic Shared Quota) Mechanism Explained

Kernmechanismus von DSQ

Prioritätsverhältnis zwischen DSQ und PT

Typische Szenarien mit DSQ-Einschränkungen

PT-Laufzeitoptionen und Kaufprozess

Vergleich der vier Laufzeitoptionen

Schritte zum Erwerb von PT

Beispiel für die API-Nutzung von PT

Vergleich der drei Abrechnungsmodelle für PT: PT vs. DSQ vs. Batch

Kombinationsstrategie: PT + DSQ + Batch

Detaillierte Bewertung: Wann PT geeignet ist und wann nicht

Vier Unternehmenstypen, für die sich PT wirklich lohnt

Fünf Szenarien, in denen PT nicht geeignet ist

Häufig gestellte Fragen (FAQ)

Q1: Ich entwickle bereits in AI Studio mit einem Gemini API-Schlüssel. Kann ich PT kaufen?

Q2: Ist der Stückpreis nach dem Kauf von PT günstiger als bei nutzungsabhängiger Abrechnung?

Q3: Kann PT während der Laufzeit gekündigt oder die GSU-Anzahl reduziert werden?

Q4: Unterstützt Gemini 3 Pro Image (Nano Banana Pro) PT?

Q5: Ich habe kein GCP-Konto und keine internationale Kreditkarte. Kann ich dennoch einen bevorzugten Kanal wie PT nutzen?

Q6: Können PT und die Google Batch API kombiniert werden?

Fazit

Warum Amazon-Top-Seller auf KI-Bild-Workflows umsteigen: 6 Szenarien im grenzüberschreitenden E-Commerce und selbst entwickelte Lösungen (2026)

Warum sieht man 2 temporäre Bilder beim Nano Banana Pro API-Aufruf? Offizielle vollständige Analyse des Denkprozesses

Nano Banana Pro Vollständiger Leitfaden zur Gesichtskonsistenz: 4 Tipps zur Lösung von Gesichtsverformungsproblemen bei Modellen

6 Tipps und eine zweistufige praktische Methode zur Verbesserung der Genauigkeit der Textwiedergabe in Nano Banana Bildern

Tiefgehende Analyse der Open-Source-Demo imagegen-demo von OpenAI: 4 Schritte zur Anbindung an die offizielle gpt-image-2 API

Wan2.7-Image-Pro tiefgehende Analyse: Neuer Maßstab für die Bilderzeugung mit 4K-Qualität, Denkmodus und Text-Rendering in 12 Sprachen

Was ist Google Provisioned Throughput (PT)?

Offizielle Definition und Hauptmerkmale von PT

Was PT nicht ist: Klärung der drei größten Irrtümer

Erläuterung der GSU (Generative AI Scale Unit)

Offizielle Definition der GSU

Beispiel für das Verhältnis zwischen GSU und Modellen

So schätzen Sie den benötigten GSU-Bedarf

Mindestbestellmenge und Staffelung von GSU

Vertex AI vs. AI Studio: Klärung der PT-Zugehörigkeit

Vertex AI: Google Cloud Platform für Unternehmen

AI Studio: Zugang für Entwickler und Privatnutzer

Unterschiede beim API-Zugriff (Code-Beispiele)

DSQ (Dynamic Shared Quota) Mechanism Explained

Kernmechanismus von DSQ

Prioritätsverhältnis zwischen DSQ und PT

Typische Szenarien mit DSQ-Einschränkungen

PT-Laufzeitoptionen und Kaufprozess

Vergleich der vier Laufzeitoptionen

Schritte zum Erwerb von PT

Beispiel für die API-Nutzung von PT

Vergleich der drei Abrechnungsmodelle für PT: PT vs. DSQ vs. Batch

Kombinationsstrategie: PT + DSQ + Batch

Detaillierte Bewertung: Wann PT geeignet ist und wann nicht

Vier Unternehmenstypen, für die sich PT wirklich lohnt

Fünf Szenarien, in denen PT nicht geeignet ist

Häufig gestellte Fragen (FAQ)

Q1: Ich entwickle bereits in AI Studio mit einem Gemini API-Schlüssel. Kann ich PT kaufen?

Q2: Ist der Stückpreis nach dem Kauf von PT günstiger als bei nutzungsabhängiger Abrechnung?

Q3: Kann PT während der Laufzeit gekündigt oder die GSU-Anzahl reduziert werden?

Q4: Unterstützt Gemini 3 Pro Image (Nano Banana Pro) PT?

Q5: Ich habe kein GCP-Konto und keine internationale Kreditkarte. Kann ich dennoch einen bevorzugten Kanal wie PT nutzen?

Q6: Können PT und die Google Batch API kombiniert werden?

Fazit

Ähnliche Beiträge