在企業用戶諮詢 Gemini、Nano Banana Pro 等 Google 模型的接入方案時,"Provisioned Throughput (PT)" 是一個頻繁被提及又頻繁被誤解的詞彙。常見的誤解包括:"PT 是不是 AI Studio 的企業版?"、"PT 是給 Gemini API 買優先級的嗎?"、"PT 購買後單價會打折嗎?"
這些問題的答案並不完全符合直覺。本文基於 Google Cloud Vertex AI 的最新英文官方文檔,一次性把 PT 講透:它屬於 Vertex AI 體系而不是 AI Studio、它的計量單位是 GSU (Generative AI Scale Unit)、它不降低單價但保障吞吐優先級、與之對應的按量付費機制叫 DSQ (Dynamic Shared Quota)。
理解這些概念,不僅能幫你正確評估是否應該爲企業採購 PT,還能幫你理性選擇自建 Google 接入、PT 訂閱、或通過 API易 apiyi.com 聚合平臺接入這三條路徑。

什麼是 Google Provisioned Throughput (PT)
Provisioned Throughput (PT) 是 Google Cloud Vertex AI 平臺爲生成式 AI 模型提供的固定成本、固定週期的吞吐量預留訂閱。它的核心邏輯是:企業提前承諾購買一定數量的處理能力,Google 爲你獨立預留算力,以換取調用吞吐的確定性和優先級。
PT 的官方定義與關鍵特徵
根據 Google Cloud 官方文檔:
Provisioned Throughput is a fixed-cost, fixed-term subscription available in several term-lengths that reserves throughput for supported generative AI models on Vertex AI.
拆解這句話的三個關鍵詞:
- Fixed-cost (固定成本):與實際調用量無關,按承諾預付
- Fixed-term (固定週期):1 周 / 1 月 / 3 月 / 1 年 四選一
- Reserves throughput (預留吞吐):並非預留"算力",而是預留"每秒 tokens 處理能力"
PT 不是什麼:澄清三大誤區
| 常見誤解 | 事實澄清 |
|---|---|
| "PT = AI Studio 的企業版" | ❌ PT 僅存在於 Vertex AI,與 AI Studio 無直接關聯 |
| "PT 購買後單價會打折" | ❌ PT 不降低單價,僅提供吞吐保障與優先級 |
| "PT 可以隨時取消" | ❌ 簽約後周期內不可取消,僅可追加 GSU |
| "PT 讓你獨佔 GPU" | ❌ PT 預留的是吞吐量單元 (GSU),不是硬件獨佔 |
| "PT 同時適用於所有 Google 模型" | ❌ 只有部分模型支持,需查看支持清單 |
💡 常見場景建議:如果你的核心訴求是"降低單價"而非"吞吐保障",那麼 PT 並不適合你。此時通過 API易 apiyi.com 企業方案接入 Gemini 系列模型(含 Nano Banana Pro)往往是更經濟的選擇,最低可達官方價的 37 折,同時支持人民幣結算與增值稅發票。
GSU (Generative AI Scale Unit) 計量單位詳解
要理解 PT,必須先理解它的計量單位 GSU。
GSU 的官方定義
GSU 是一個抽象的吞吐容量單位,在所有支持 PT 的 Google 模型之間保持價格和容量固定,但不同模型消耗 GSU 的效率不同。換句話說:
- 1 GSU 的價格在所有模型上是一致的
- 1 GSU 的**容量(每秒 tokens 吞吐)**在所有模型上也是一致的
- 但同一個 GSU 能支撐的模型實際調用量因模型不同而不同
GSU 與模型的對應關係示例
下表爲示意性說明(具體數值以 Google 官方最新數據爲準):
| 模型 | 1 GSU 支持吞吐 | 說明 |
|---|---|---|
| Gemini 2.5 Flash-Lite | 較高 | 輕量模型,單位 GSU 可支撐更多請求 |
| Gemini 2.5 Flash | 中等 | 平衡型,主流企業選擇 |
| Gemini 2.5 Pro | 較低 | 旗艦模型,GSU 消耗更多 |
| Gemini 3 Pro | 最低 | 新旗艦,單請求 GSU 佔用高 |
| Gemini 3 Pro Image | 按圖像尺寸換算 | 4K 單圖消耗顯著高於 1K |
這意味着:如果你的業務混用多個模型,需要分別購買對應模型的 GSU 承諾,而非共享 GSU 池。
如何估算所需 GSU 數量
Google 提供了官方的 GSU 計算器,但估算思路可以簡化爲:
所需 GSU = (峯值 QPS × 平均每請求 tokens) / (1 GSU 的吞吐容量)
實際企業估算步驟:
- 測算曆史峯值 QPS(每秒請求數)
- 測算平均每請求消耗的 tokens(input + output)
- 查閱目標模型單 GSU 吞吐量
- 向上取整,並預留 20-30% buffer 應對突發
GSU 的最小購買單位與階梯
一個 PT 訂單通常最小從若干 GSU 起購(具體數值按模型與地區不同),企業簽約後可以:
- ✅ 追加 GSU:業務增長時隨時增加承諾量
- ❌ 縮減 GSU:當前承諾期內不可減少
- ⚠️ 續約調整:承諾期結束前需重新評估規模
Vertex AI vs AI Studio:PT 歸屬關係澄清
這是最多客戶搞混的地方。Google 旗下有兩套獨立的生成式 AI 產品線:

Vertex AI:企業級 Google Cloud Platform 產品
- 歸屬:Google Cloud Platform (GCP)
- 面向對象:企業、大型開發團隊、合規敏感客戶
- 計費:通過 GCP 賬單統一結算,支持按量 (DSQ) + 預留 (PT) + 批量 (Batch)
- 控制檯:console.cloud.google.com → Vertex AI 菜單
- API 路徑:
*-aiplatform.googleapis.com - 支持 PT:✅ 是
- 區域化部署:✅ 支持全球多區域
AI Studio:開發者與個人級 Gemini 入口
- 歸屬:Google AI for Developers(獨立於 GCP)
- 面向對象:個人開發者、快速原型驗證、內容創作者
- 計費:通過 Google Pay 個人付費賬戶,按量結算
- 控制檯:aistudio.google.com
- API 路徑:
generativelanguage.googleapis.com - 支持 PT:❌ 否
- 區域化部署:❌ 全球統一池
兩者的 API 接入代碼差異
AI Studio (Gemini Developer API):
from google import genai
client = genai.Client(api_key="AIzaSy-xxx") # AI Studio 個人 Key
resp = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="一隻橘貓"
)
Vertex AI:
from google import genai
client = genai.Client(
vertexai=True,
project="your-gcp-project", # GCP 項目 ID
location="us-central1" # 區域
)
# 認證通過 gcloud ADC / Service Account 完成,不用 API Key
注意兩者的模型名、認證方式、計費歸屬均有差異。如果你一開始用的是 AI Studio 的 API Key,那麼無論如何都無法購買 PT;必須在 GCP 項目下啓用 Vertex AI,並通過 Service Account 鑑權。
🎯 接入建議:如果你不希望花力氣搞清楚 AI Studio vs Vertex AI 的邊界、Service Account 鑑權、多區域路由等複雜細節,可以直接通過 API易 apiyi.com 統一接入 Gemini 全系模型,使用兼容 OpenAI 格式的
base_url+api_key,底層由我們處理賬戶體系與路由。
DSQ (Dynamic Shared Quota) 按量付費機制詳解
DSQ 是 Vertex AI 的默認按量付費模式,也是絕大多數用戶實際使用的計費方式。理解 DSQ,才能理解 PT 的優先級價值。
DSQ 的核心機制
With DSQ, there are no predefined quota limits on your usage. Instead, DSQ provides access to a large, shared pool of resources, dynamically allocated based on real-time availability of resources and real-time demand across all customers of that model.
關鍵點:
- 無預設配額:不需要提交 QIR (Quota Increase Request)
- 共享資源池:所有按量付費客戶共用同一個大池子
- 動態分配:按全球客戶實時需求重新切分
- 吞吐波動:高峯期每個用戶得到的吞吐會下降
DSQ 與 PT 的優先級關係
Google 明確指出:
Provisioned Throughput customers are prioritized and serviced first before on-demand requests.
這是 PT 的核心價值:在 Google 側的請求調度隊列中優先被處理。具體體現在:
- PT 請求 → 進入專屬高優先級隊列,響應穩定
- DSQ 請求 → 進入共享共用池,高峯期可能被限速或排隊
DSQ 的典型限制場景
沒有購買 PT 的企業在以下場景容易遇到麻煩:
- 電商大促 0 點峯值:全球共享池被擠壓,P99 延遲翻倍
- 直播互動生圖:實時性要求高,DSQ 波動無法接受
- 跨國業務:多區域同時調用,不同區域 DSQ 容量差異大
- 新模型發佈首周:Google 官方配額未完全打開,DSQ 緊張
但需要強調:對於月調用量不足 5 萬次 / 月圖量不足 5 萬張的中小企業,DSQ 的實際穩定性已經足夠好,購買 PT 是過度投資。
PT 承諾期選項與購買流程
PT 的承諾期長度設計覆蓋了從試水到長期合約的多種場景:
四種承諾期對比
| 承諾期 | 典型場景 | 總成本佔比 | 靈活性 |
|---|---|---|---|
| 1 周 | 短期活動/大促驗證 | 基準 × 1 | 最高 |
| 1 月 | 穩定業務月度規劃 | ~基準 × 0.95 | 中等 |
| 3 月 | 季度業務承諾 | ~基準 × 0.88 | 較低 |
| 1 年 | 長期合約+預算鎖定 | ~基準 × 0.75 | 最低 |
具體價格需在 GCP 控制檯登錄後查看,不同地區、不同模型價格不同。
PT 購買步驟

企業購買 PT 的標準流程:
- 測算需求:使用 Google 官方 GSU 計算器估算所需容量
- 創建 GCP 項目:啓用 Vertex AI API,配置 Service Account
- 發起採購:通過 GCP Console → Vertex AI → Provisioned Throughput 頁面下單
- 選擇參數:模型、區域、GSU 數量、承諾期
- 財務審批:美金信用卡或企業 ACH 付款
- 激活生效:通常 1-5 個工作日內生效
- API 配置:在代碼中添加
provisioned_throughput_id參數切換到 PT 通道
PT 的API使用示例
啓用 PT 後,調用代碼需要顯式指定:
from google import genai
from google.genai import types
client = genai.Client(
vertexai=True,
project="your-gcp-project",
location="us-central1"
)
resp = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="一隻橘貓",
config=types.GenerateContentConfig(
# 指定 PT 訂閱 ID,請求走優先通道
labels={"dedicated-capacity": "your-pt-subscription-id"}
)
)
如果不指定該參數,即使賬戶下有 PT 訂閱,請求仍會走 DSQ 通道。
PT 的三種計費模式對比:PT vs DSQ vs Batch
Vertex AI 同時提供三種計費模式,理清它們的邊界是企業決策關鍵:
| 維度 | Provisioned Throughput | Dynamic Shared Quota | Batch API |
|---|---|---|---|
| 計費模型 | 固定預付 | 按量付費 | 按量付費 |
| 單價 | 與按量相同 | 官方原價 | 50% 折扣 |
| 優先級 | 最高(專屬) | 共享池 | 最低(24h 窗口) |
| 承諾 | 周/月/季/年 | 無 | 無 |
| 延遲 | 穩定(低) | 波動 | 24h 異步 |
| 適用場景 | 高併發實時 | 日常通用 | 大規模離線 |
| 起步門檻 | 數千美金起 | 免費起步 | 免費起步 |
組合策略:PT + DSQ + Batch
成熟企業通常採用混合計費架構:
- PT 保障核心實時業務:如直播生圖、用戶互動
- DSQ 兜底日常流量:大部分非關鍵請求走按量
- Batch 處理夜間大規模任務:報告生成、數據標註等
⚡ 混合架構建議:如果團隊規模較小、不想搞複雜的多通道架構,推薦通過 API易 apiyi.com 統一接入。我們在後端已經實現了智能路由:緊急請求走 VIP 通道、批量任務走 Batch 通道、日常調用走標準通道,對上層透明,單一 API Key 即可享受混合策略收益。
PT 適用與不適用場景詳細評估
真正適合購買 PT 的四類企業

場景一:高併發實時業務
電商大促、短視頻平臺、直播互動場景,要求峯值併發 > 50 請求/秒,此時 DSQ 可能觸發限速,必須靠 PT 保障。
場景二:P99 延遲硬指標
用戶交互 SLA 要求 P99 首包延遲 < 10 秒,例如實時 AI 繪畫工具。DSQ 的 P99 通常 15-30 秒,不滿足要求。
場景三:月消費門檻跨過
月消費 > $50,000 時,PT 的固定承諾成本被規模效應攤薄,單位成本可低於 DSQ,此時買 PT 既省錢又穩定。
場景四:強監管合規隔離
金融、醫療等行業要求獨佔資源池與合規聲明,PT 提供明確的吞吐隔離承諾。
不適合 PT 的五類場景
- 月調用量 < 5 萬次:PT 固定成本攤薄不足,按量更划算
- 業務量波動大:預付承諾可能產生大量閒置浪費
- 僅需降單價:PT 不降單價,應選擇聚合渠道議價
- 多模型混用:每個模型獨立 GSU 承諾,運維複雜
- 中小團隊:缺乏財務與運維能力承接長期美金合約
如果你屬於不適合 PT 的類型,通過 API易 apiyi.com 接入 Gemini 全系模型可獲得 37 折企業價,疊加充值滿贈最高 20%,實際單價可低至 Google 官方的 32% 左右——以更低價格換取可接受的穩定性。
常見問題 (FAQ)
Q1:我已經在 AI Studio 用 Gemini API Key 開發了,能買 PT 嗎?
不能。AI Studio (Gemini Developer API) 與 Vertex AI 是兩套獨立體系,PT 僅屬於 Vertex AI。如需使用 PT,必須:① 創建 GCP 項目並啓用 Vertex AI;② 遷移到 Vertex AI 的 Service Account 鑑權方式;③ 重寫部分 API 調用代碼。如果你希望跳過這套遷移工作,可以通過 API易 apiyi.com 直接使用 OpenAI 兼容的 base_url 調用 Gemini,無需關心底層賬戶體系。
Q2:PT 購買後單價會比按量付費便宜嗎?
單價不變,但按"每百萬 tokens"攤到總成本上,大規模使用時綜合成本可能更低。具體機制是:PT 以固定月度承諾計費,如果你充分利用了全部 GSU 容量,實際有效單價約爲 DSQ 的 80-95%;如果未充分利用,反而更貴。PT 的價值主要不在於省錢,而在於吞吐保障、延遲穩定、優先級更高。
Q3:PT 可以中途取消或減少 GSU 數量嗎?
不可以。一旦簽約,當前承諾期內不可取消,不可減少 GSU。只能在週期結束前選擇是否續約。唯一允許的變更是追加 GSU(業務擴張時)。這是 PT 最大的風險點——預付承諾必須基於保守的用量估算。
Q4:Gemini 3 Pro Image (Nano Banana Pro) 支持 PT 嗎?
截至 2026 年 4 月,根據 Google 官方支持清單,Gemini 3 Pro 系列模型(含 gemini-3-pro-image-preview)已支持 Provisioned Throughput。但需要注意,圖像模型的 GSU 消耗按圖像尺寸與 tokens 換算,4K 圖像單請求 GSU 佔用顯著高於 1K。具體消耗係數以 Google 官方數據爲準。如需快速對比成本,可聯繫 API易 apiyi.com 商務獲取企業方案價目對照表。
Q5:我沒有 GCP 賬戶也沒有國際信用卡,還能享受類似 PT 的優先通道嗎?
可以。API易 apiyi.com 企業方案通過多賬戶聚合 + VIP 專屬隊列實現類似的優先通道效果,你只需國內主體 + 人民幣對公付款即可開通。企業通道 P99 延遲與 Google 原生按量通道相當,對於月圖量 < 5 萬張的客戶已經足夠,成本僅爲官方按量價的 32-37%。
Q6:PT 與 Google Batch API 能疊加使用嗎?
可以。Batch API 走的是獨立的異步通道,與 PT/DSQ 互不衝突。成熟架構會把三者結合:實時關鍵請求走 PT、日常請求走 DSQ、夜間大批量任務走 Batch(享 50% 折扣)。這種"三通道混合"能最大化整體成本效率。
總結
回到本文的核心問題——什麼是 Google Provisioned Throughput (PT)?它屬於哪個體系?
簡明答案是:PT 是 Google Cloud Vertex AI (GCP) 下的企業級吞吐量預留訂閱,以 GSU (Generative AI Scale Unit) 爲計量單位,提供 1 周/1 月/3 月/1 年 四檔承諾期,在承諾期內不降單價但提供調度優先級與穩定吞吐。它與 AI Studio (generativelanguage.googleapis.com) 無關,與按量付費的 DSQ (Dynamic Shared Quota) 機制形成"優先 vs 共享"的二元結構。
對絕大多數中小企業、個人開發者與內容創作者,PT 的門檻和承諾期約束都過高。更實用的路徑是通過 API易 apiyi.com 這類聚合平臺接入 Gemini 全系模型,以更低價格(37 折)享受企業級穩定通道,並避免跨境賬戶、國際支付、英文合規等複雜事項。
只有當你的業務規模確實達到 PT 的四大適用門檻(高併發、低 P99、月消費 >$50K、強監管)之一時,投入時間研究並採購 PT 纔是理性的選擇。
📌 作者署名:本文由 API易 apiyi.com 企業解決方案團隊整理,內容基於 Google Cloud Vertex AI 官方英文文檔與 2026-04 最新企業政策。如需快速評估你的業務適合 PT 還是聚合接入,歡迎通過官網商務入口聯繫我們獲取 1 對 1 分析。
