|

Google Provisioned Throughput (PT) 深度解密:Vertex AI 專屬 vs AI Studio 體系 6 大關鍵差異 (2026)

在企業用戶諮詢 Gemini、Nano Banana Pro 等 Google 模型的接入方案時,"Provisioned Throughput (PT)" 是一個頻繁被提及又頻繁被誤解的詞彙。常見的誤解包括:"PT 是不是 AI Studio 的企業版?"、"PT 是給 Gemini API 買優先級的嗎?"、"PT 購買後單價會打折嗎?"

這些問題的答案並不完全符合直覺。本文基於 Google Cloud Vertex AI 的最新英文官方文檔,一次性把 PT 講透:它屬於 Vertex AI 體系而不是 AI Studio、它的計量單位是 GSU (Generative AI Scale Unit)、它不降低單價但保障吞吐優先級、與之對應的按量付費機制叫 DSQ (Dynamic Shared Quota)

理解這些概念,不僅能幫你正確評估是否應該爲企業採購 PT,還能幫你理性選擇自建 Google 接入、PT 訂閱、或通過 API易 apiyi.com 聚合平臺接入這三條路徑。

google-provisioned-throughput-pt-explained-vertex-vs-aistudio-2026-zh-hant 图示

什麼是 Google Provisioned Throughput (PT)

Provisioned Throughput (PT) 是 Google Cloud Vertex AI 平臺爲生成式 AI 模型提供的固定成本、固定週期的吞吐量預留訂閱。它的核心邏輯是:企業提前承諾購買一定數量的處理能力,Google 爲你獨立預留算力,以換取調用吞吐的確定性和優先級

PT 的官方定義與關鍵特徵

根據 Google Cloud 官方文檔:

Provisioned Throughput is a fixed-cost, fixed-term subscription available in several term-lengths that reserves throughput for supported generative AI models on Vertex AI.

拆解這句話的三個關鍵詞:

  1. Fixed-cost (固定成本):與實際調用量無關,按承諾預付
  2. Fixed-term (固定週期):1 周 / 1 月 / 3 月 / 1 年 四選一
  3. Reserves throughput (預留吞吐):並非預留"算力",而是預留"每秒 tokens 處理能力"

PT 不是什麼:澄清三大誤區

常見誤解 事實澄清
"PT = AI Studio 的企業版" ❌ PT 僅存在於 Vertex AI,與 AI Studio 無直接關聯
"PT 購買後單價會打折" ❌ PT 不降低單價,僅提供吞吐保障與優先級
"PT 可以隨時取消" ❌ 簽約後周期內不可取消,僅可追加 GSU
"PT 讓你獨佔 GPU" ❌ PT 預留的是吞吐量單元 (GSU),不是硬件獨佔
"PT 同時適用於所有 Google 模型" ❌ 只有部分模型支持,需查看支持清單

💡 常見場景建議:如果你的核心訴求是"降低單價"而非"吞吐保障",那麼 PT 並不適合你。此時通過 API易 apiyi.com 企業方案接入 Gemini 系列模型(含 Nano Banana Pro)往往是更經濟的選擇,最低可達官方價的 37 折,同時支持人民幣結算與增值稅發票。

GSU (Generative AI Scale Unit) 計量單位詳解

要理解 PT,必須先理解它的計量單位 GSU

GSU 的官方定義

GSU 是一個抽象的吞吐容量單位,在所有支持 PT 的 Google 模型之間保持價格和容量固定,但不同模型消耗 GSU 的效率不同。換句話說:

  • 1 GSU 的價格在所有模型上是一致的
  • 1 GSU 的**容量(每秒 tokens 吞吐)**在所有模型上也是一致的
  • 但同一個 GSU 能支撐的模型實際調用量因模型不同而不同

GSU 與模型的對應關係示例

下表爲示意性說明(具體數值以 Google 官方最新數據爲準):

模型 1 GSU 支持吞吐 說明
Gemini 2.5 Flash-Lite 較高 輕量模型,單位 GSU 可支撐更多請求
Gemini 2.5 Flash 中等 平衡型,主流企業選擇
Gemini 2.5 Pro 較低 旗艦模型,GSU 消耗更多
Gemini 3 Pro 最低 新旗艦,單請求 GSU 佔用高
Gemini 3 Pro Image 按圖像尺寸換算 4K 單圖消耗顯著高於 1K

這意味着:如果你的業務混用多個模型,需要分別購買對應模型的 GSU 承諾,而非共享 GSU 池。

如何估算所需 GSU 數量

Google 提供了官方的 GSU 計算器,但估算思路可以簡化爲:

所需 GSU = (峯值 QPS × 平均每請求 tokens) / (1 GSU 的吞吐容量)

實際企業估算步驟:

  1. 測算曆史峯值 QPS(每秒請求數)
  2. 測算平均每請求消耗的 tokens(input + output)
  3. 查閱目標模型單 GSU 吞吐量
  4. 向上取整,並預留 20-30% buffer 應對突發

GSU 的最小購買單位與階梯

一個 PT 訂單通常最小從若干 GSU 起購(具體數值按模型與地區不同),企業簽約後可以:

  • 追加 GSU:業務增長時隨時增加承諾量
  • 縮減 GSU:當前承諾期內不可減少
  • ⚠️ 續約調整:承諾期結束前需重新評估規模

Vertex AI vs AI Studio:PT 歸屬關係澄清

這是最多客戶搞混的地方。Google 旗下有兩套獨立的生成式 AI 產品線

google-provisioned-throughput-pt-explained-vertex-vs-aistudio-2026-zh-hant 图示

Vertex AI:企業級 Google Cloud Platform 產品

  • 歸屬:Google Cloud Platform (GCP)
  • 面向對象:企業、大型開發團隊、合規敏感客戶
  • 計費:通過 GCP 賬單統一結算,支持按量 (DSQ) + 預留 (PT) + 批量 (Batch)
  • 控制檯:console.cloud.google.com → Vertex AI 菜單
  • API 路徑*-aiplatform.googleapis.com
  • 支持 PT:✅ 是
  • 區域化部署:✅ 支持全球多區域

AI Studio:開發者與個人級 Gemini 入口

  • 歸屬:Google AI for Developers(獨立於 GCP)
  • 面向對象:個人開發者、快速原型驗證、內容創作者
  • 計費:通過 Google Pay 個人付費賬戶,按量結算
  • 控制檯:aistudio.google.com
  • API 路徑generativelanguage.googleapis.com
  • 支持 PT:❌
  • 區域化部署:❌ 全球統一池

兩者的 API 接入代碼差異

AI Studio (Gemini Developer API):

from google import genai
client = genai.Client(api_key="AIzaSy-xxx")  # AI Studio 個人 Key
resp = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents="一隻橘貓"
)

Vertex AI:

from google import genai
client = genai.Client(
    vertexai=True,
    project="your-gcp-project",  # GCP 項目 ID
    location="us-central1"       # 區域
)
# 認證通過 gcloud ADC / Service Account 完成,不用 API Key

注意兩者的模型名、認證方式、計費歸屬均有差異。如果你一開始用的是 AI Studio 的 API Key,那麼無論如何都無法購買 PT;必須在 GCP 項目下啓用 Vertex AI,並通過 Service Account 鑑權。

🎯 接入建議:如果你不希望花力氣搞清楚 AI Studio vs Vertex AI 的邊界、Service Account 鑑權、多區域路由等複雜細節,可以直接通過 API易 apiyi.com 統一接入 Gemini 全系模型,使用兼容 OpenAI 格式的 base_url + api_key,底層由我們處理賬戶體系與路由。

DSQ (Dynamic Shared Quota) 按量付費機制詳解

DSQ 是 Vertex AI 的默認按量付費模式,也是絕大多數用戶實際使用的計費方式。理解 DSQ,才能理解 PT 的優先級價值。

DSQ 的核心機制

With DSQ, there are no predefined quota limits on your usage. Instead, DSQ provides access to a large, shared pool of resources, dynamically allocated based on real-time availability of resources and real-time demand across all customers of that model.

關鍵點:

  • 無預設配額:不需要提交 QIR (Quota Increase Request)
  • 共享資源池:所有按量付費客戶共用同一個大池子
  • 動態分配:按全球客戶實時需求重新切分
  • 吞吐波動:高峯期每個用戶得到的吞吐會下降

DSQ 與 PT 的優先級關係

Google 明確指出:

Provisioned Throughput customers are prioritized and serviced first before on-demand requests.

這是 PT 的核心價值:在 Google 側的請求調度隊列中優先被處理。具體體現在:

  • PT 請求 → 進入專屬高優先級隊列,響應穩定
  • DSQ 請求 → 進入共享共用池,高峯期可能被限速或排隊

DSQ 的典型限制場景

沒有購買 PT 的企業在以下場景容易遇到麻煩:

  1. 電商大促 0 點峯值:全球共享池被擠壓,P99 延遲翻倍
  2. 直播互動生圖:實時性要求高,DSQ 波動無法接受
  3. 跨國業務:多區域同時調用,不同區域 DSQ 容量差異大
  4. 新模型發佈首周:Google 官方配額未完全打開,DSQ 緊張

但需要強調:對於月調用量不足 5 萬次 / 月圖量不足 5 萬張的中小企業,DSQ 的實際穩定性已經足夠好,購買 PT 是過度投資。

PT 承諾期選項與購買流程

PT 的承諾期長度設計覆蓋了從試水到長期合約的多種場景:

四種承諾期對比

承諾期 典型場景 總成本佔比 靈活性
1 周 短期活動/大促驗證 基準 × 1 最高
1 月 穩定業務月度規劃 ~基準 × 0.95 中等
3 月 季度業務承諾 ~基準 × 0.88 較低
1 年 長期合約+預算鎖定 ~基準 × 0.75 最低

具體價格需在 GCP 控制檯登錄後查看,不同地區、不同模型價格不同。

PT 購買步驟

google-provisioned-throughput-pt-explained-vertex-vs-aistudio-2026-zh-hant 图示

企業購買 PT 的標準流程:

  1. 測算需求:使用 Google 官方 GSU 計算器估算所需容量
  2. 創建 GCP 項目:啓用 Vertex AI API,配置 Service Account
  3. 發起採購:通過 GCP Console → Vertex AI → Provisioned Throughput 頁面下單
  4. 選擇參數:模型、區域、GSU 數量、承諾期
  5. 財務審批:美金信用卡或企業 ACH 付款
  6. 激活生效:通常 1-5 個工作日內生效
  7. API 配置:在代碼中添加 provisioned_throughput_id 參數切換到 PT 通道

PT 的API使用示例

啓用 PT 後,調用代碼需要顯式指定:

from google import genai
from google.genai import types

client = genai.Client(
    vertexai=True,
    project="your-gcp-project",
    location="us-central1"
)

resp = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents="一隻橘貓",
    config=types.GenerateContentConfig(
        # 指定 PT 訂閱 ID,請求走優先通道
        labels={"dedicated-capacity": "your-pt-subscription-id"}
    )
)

如果不指定該參數,即使賬戶下有 PT 訂閱,請求仍會走 DSQ 通道。

PT 的三種計費模式對比:PT vs DSQ vs Batch

Vertex AI 同時提供三種計費模式,理清它們的邊界是企業決策關鍵:

維度 Provisioned Throughput Dynamic Shared Quota Batch API
計費模型 固定預付 按量付費 按量付費
單價 與按量相同 官方原價 50% 折扣
優先級 最高(專屬) 共享池 最低(24h 窗口)
承諾 周/月/季/年
延遲 穩定(低) 波動 24h 異步
適用場景 高併發實時 日常通用 大規模離線
起步門檻 數千美金起 免費起步 免費起步

組合策略:PT + DSQ + Batch

成熟企業通常採用混合計費架構

  • PT 保障核心實時業務:如直播生圖、用戶互動
  • DSQ 兜底日常流量:大部分非關鍵請求走按量
  • Batch 處理夜間大規模任務:報告生成、數據標註等

混合架構建議:如果團隊規模較小、不想搞複雜的多通道架構,推薦通過 API易 apiyi.com 統一接入。我們在後端已經實現了智能路由:緊急請求走 VIP 通道、批量任務走 Batch 通道、日常調用走標準通道,對上層透明,單一 API Key 即可享受混合策略收益。

PT 適用與不適用場景詳細評估

真正適合購買 PT 的四類企業

google-provisioned-throughput-pt-explained-vertex-vs-aistudio-2026-zh-hant 图示

場景一:高併發實時業務
電商大促、短視頻平臺、直播互動場景,要求峯值併發 > 50 請求/秒,此時 DSQ 可能觸發限速,必須靠 PT 保障。

場景二:P99 延遲硬指標
用戶交互 SLA 要求 P99 首包延遲 < 10 秒,例如實時 AI 繪畫工具。DSQ 的 P99 通常 15-30 秒,不滿足要求。

場景三:月消費門檻跨過
月消費 > $50,000 時,PT 的固定承諾成本被規模效應攤薄,單位成本可低於 DSQ,此時買 PT 既省錢又穩定。

場景四:強監管合規隔離
金融、醫療等行業要求獨佔資源池與合規聲明,PT 提供明確的吞吐隔離承諾。

不適合 PT 的五類場景

  1. 月調用量 < 5 萬次:PT 固定成本攤薄不足,按量更划算
  2. 業務量波動大:預付承諾可能產生大量閒置浪費
  3. 僅需降單價:PT 不降單價,應選擇聚合渠道議價
  4. 多模型混用:每個模型獨立 GSU 承諾,運維複雜
  5. 中小團隊:缺乏財務與運維能力承接長期美金合約

如果你屬於不適合 PT 的類型,通過 API易 apiyi.com 接入 Gemini 全系模型可獲得 37 折企業價,疊加充值滿贈最高 20%,實際單價可低至 Google 官方的 32% 左右——以更低價格換取可接受的穩定性

常見問題 (FAQ)

Q1:我已經在 AI Studio 用 Gemini API Key 開發了,能買 PT 嗎?

不能。AI Studio (Gemini Developer API) 與 Vertex AI 是兩套獨立體系,PT 僅屬於 Vertex AI。如需使用 PT,必須:① 創建 GCP 項目並啓用 Vertex AI;② 遷移到 Vertex AI 的 Service Account 鑑權方式;③ 重寫部分 API 調用代碼。如果你希望跳過這套遷移工作,可以通過 API易 apiyi.com 直接使用 OpenAI 兼容的 base_url 調用 Gemini,無需關心底層賬戶體系。

Q2:PT 購買後單價會比按量付費便宜嗎?

單價不變,但按"每百萬 tokens"攤到總成本上,大規模使用時綜合成本可能更低。具體機制是:PT 以固定月度承諾計費,如果你充分利用了全部 GSU 容量,實際有效單價約爲 DSQ 的 80-95%;如果未充分利用,反而更貴。PT 的價值主要不在於省錢,而在於吞吐保障、延遲穩定、優先級更高

Q3:PT 可以中途取消或減少 GSU 數量嗎?

不可以。一旦簽約,當前承諾期內不可取消,不可減少 GSU。只能在週期結束前選擇是否續約。唯一允許的變更是追加 GSU(業務擴張時)。這是 PT 最大的風險點——預付承諾必須基於保守的用量估算。

Q4:Gemini 3 Pro Image (Nano Banana Pro) 支持 PT 嗎?

截至 2026 年 4 月,根據 Google 官方支持清單,Gemini 3 Pro 系列模型(含 gemini-3-pro-image-preview)已支持 Provisioned Throughput。但需要注意,圖像模型的 GSU 消耗按圖像尺寸與 tokens 換算,4K 圖像單請求 GSU 佔用顯著高於 1K。具體消耗係數以 Google 官方數據爲準。如需快速對比成本,可聯繫 API易 apiyi.com 商務獲取企業方案價目對照表。

Q5:我沒有 GCP 賬戶也沒有國際信用卡,還能享受類似 PT 的優先通道嗎?

可以。API易 apiyi.com 企業方案通過多賬戶聚合 + VIP 專屬隊列實現類似的優先通道效果,你只需國內主體 + 人民幣對公付款即可開通。企業通道 P99 延遲與 Google 原生按量通道相當,對於月圖量 < 5 萬張的客戶已經足夠,成本僅爲官方按量價的 32-37%。

Q6:PT 與 Google Batch API 能疊加使用嗎?

可以。Batch API 走的是獨立的異步通道,與 PT/DSQ 互不衝突。成熟架構會把三者結合:實時關鍵請求走 PT、日常請求走 DSQ、夜間大批量任務走 Batch(享 50% 折扣)。這種"三通道混合"能最大化整體成本效率。

總結

回到本文的核心問題——什麼是 Google Provisioned Throughput (PT)?它屬於哪個體系?

簡明答案是:PT 是 Google Cloud Vertex AI (GCP) 下的企業級吞吐量預留訂閱,以 GSU (Generative AI Scale Unit) 爲計量單位,提供 1 周/1 月/3 月/1 年 四檔承諾期,在承諾期內不降單價但提供調度優先級與穩定吞吐。它與 AI Studio (generativelanguage.googleapis.com) 無關,與按量付費的 DSQ (Dynamic Shared Quota) 機制形成"優先 vs 共享"的二元結構。

對絕大多數中小企業、個人開發者與內容創作者,PT 的門檻和承諾期約束都過高。更實用的路徑是通過 API易 apiyi.com 這類聚合平臺接入 Gemini 全系模型,以更低價格(37 折)享受企業級穩定通道,並避免跨境賬戶、國際支付、英文合規等複雜事項。

只有當你的業務規模確實達到 PT 的四大適用門檻(高併發、低 P99、月消費 >$50K、強監管)之一時,投入時間研究並採購 PT 纔是理性的選擇。

📌 作者署名:本文由 API易 apiyi.com 企業解決方案團隊整理,內容基於 Google Cloud Vertex AI 官方英文文檔與 2026-04 最新企業政策。如需快速評估你的業務適合 PT 還是聚合接入,歡迎通過官網商務入口聯繫我們獲取 1 對 1 分析。

Similar Posts