在企业用户咨询 Gemini、Nano Banana Pro 等 Google 模型的接入方案时,"Provisioned Throughput (PT)" 是一个频繁被提及又频繁被误解的词汇。常见的误解包括:"PT 是不是 AI Studio 的企业版?"、"PT 是给 Gemini API 买优先级的吗?"、"PT 购买后单价会打折吗?"
这些问题的答案并不完全符合直觉。本文基于 Google Cloud Vertex AI 的最新英文官方文档,一次性把 PT 讲透:它属于 Vertex AI 体系而不是 AI Studio、它的计量单位是 GSU (Generative AI Scale Unit)、它不降低单价但保障吞吐优先级、与之对应的按量付费机制叫 DSQ (Dynamic Shared Quota)。
理解这些概念,不仅能帮你正确评估是否应该为企业采购 PT,还能帮你理性选择自建 Google 接入、PT 订阅、或通过 API易 apiyi.com 聚合平台接入这三条路径。

什么是 Google Provisioned Throughput (PT)
Provisioned Throughput (PT) 是 Google Cloud Vertex AI 平台为生成式 AI 模型提供的固定成本、固定周期的吞吐量预留订阅。它的核心逻辑是:企业提前承诺购买一定数量的处理能力,Google 为你独立预留算力,以换取调用吞吐的确定性和优先级。
PT 的官方定义与关键特征
根据 Google Cloud 官方文档:
Provisioned Throughput is a fixed-cost, fixed-term subscription available in several term-lengths that reserves throughput for supported generative AI models on Vertex AI.
拆解这句话的三个关键词:
- Fixed-cost (固定成本):与实际调用量无关,按承诺预付
- Fixed-term (固定周期):1 周 / 1 月 / 3 月 / 1 年 四选一
- Reserves throughput (预留吞吐):并非预留"算力",而是预留"每秒 tokens 处理能力"
PT 不是什么:澄清三大误区
| 常见误解 | 事实澄清 |
|---|---|
| "PT = AI Studio 的企业版" | ❌ PT 仅存在于 Vertex AI,与 AI Studio 无直接关联 |
| "PT 购买后单价会打折" | ❌ PT 不降低单价,仅提供吞吐保障与优先级 |
| "PT 可以随时取消" | ❌ 签约后周期内不可取消,仅可追加 GSU |
| "PT 让你独占 GPU" | ❌ PT 预留的是吞吐量单元 (GSU),不是硬件独占 |
| "PT 同时适用于所有 Google 模型" | ❌ 只有部分模型支持,需查看支持清单 |
💡 常见场景建议:如果你的核心诉求是"降低单价"而非"吞吐保障",那么 PT 并不适合你。此时通过 API易 apiyi.com 企业方案接入 Gemini 系列模型(含 Nano Banana Pro)往往是更经济的选择,最低可达官方价的 37 折,同时支持人民币结算与增值税发票。
GSU (Generative AI Scale Unit) 计量单位详解
要理解 PT,必须先理解它的计量单位 GSU。
GSU 的官方定义
GSU 是一个抽象的吞吐容量单位,在所有支持 PT 的 Google 模型之间保持价格和容量固定,但不同模型消耗 GSU 的效率不同。换句话说:
- 1 GSU 的价格在所有模型上是一致的
- 1 GSU 的**容量(每秒 tokens 吞吐)**在所有模型上也是一致的
- 但同一个 GSU 能支撑的模型实际调用量因模型不同而不同
GSU 与模型的对应关系示例
下表为示意性说明(具体数值以 Google 官方最新数据为准):
| 模型 | 1 GSU 支持吞吐 | 说明 |
|---|---|---|
| Gemini 2.5 Flash-Lite | 较高 | 轻量模型,单位 GSU 可支撑更多请求 |
| Gemini 2.5 Flash | 中等 | 平衡型,主流企业选择 |
| Gemini 2.5 Pro | 较低 | 旗舰模型,GSU 消耗更多 |
| Gemini 3 Pro | 最低 | 新旗舰,单请求 GSU 占用高 |
| Gemini 3 Pro Image | 按图像尺寸换算 | 4K 单图消耗显著高于 1K |
这意味着:如果你的业务混用多个模型,需要分别购买对应模型的 GSU 承诺,而非共享 GSU 池。
如何估算所需 GSU 数量
Google 提供了官方的 GSU 计算器,但估算思路可以简化为:
所需 GSU = (峰值 QPS × 平均每请求 tokens) / (1 GSU 的吞吐容量)
实际企业估算步骤:
- 测算历史峰值 QPS(每秒请求数)
- 测算平均每请求消耗的 tokens(input + output)
- 查阅目标模型单 GSU 吞吐量
- 向上取整,并预留 20-30% buffer 应对突发
GSU 的最小购买单位与阶梯
一个 PT 订单通常最小从若干 GSU 起购(具体数值按模型与地区不同),企业签约后可以:
- ✅ 追加 GSU:业务增长时随时增加承诺量
- ❌ 缩减 GSU:当前承诺期内不可减少
- ⚠️ 续约调整:承诺期结束前需重新评估规模
Vertex AI vs AI Studio:PT 归属关系澄清
这是最多客户搞混的地方。Google 旗下有两套独立的生成式 AI 产品线:

Vertex AI:企业级 Google Cloud Platform 产品
- 归属:Google Cloud Platform (GCP)
- 面向对象:企业、大型开发团队、合规敏感客户
- 计费:通过 GCP 账单统一结算,支持按量 (DSQ) + 预留 (PT) + 批量 (Batch)
- 控制台:console.cloud.google.com → Vertex AI 菜单
- API 路径:
*-aiplatform.googleapis.com - 支持 PT:✅ 是
- 区域化部署:✅ 支持全球多区域
AI Studio:开发者与个人级 Gemini 入口
- 归属:Google AI for Developers(独立于 GCP)
- 面向对象:个人开发者、快速原型验证、内容创作者
- 计费:通过 Google Pay 个人付费账户,按量结算
- 控制台:aistudio.google.com
- API 路径:
generativelanguage.googleapis.com - 支持 PT:❌ 否
- 区域化部署:❌ 全球统一池
两者的 API 接入代码差异
AI Studio (Gemini Developer API):
from google import genai
client = genai.Client(api_key="AIzaSy-xxx") # AI Studio 个人 Key
resp = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="一只橘猫"
)
Vertex AI:
from google import genai
client = genai.Client(
vertexai=True,
project="your-gcp-project", # GCP 项目 ID
location="us-central1" # 区域
)
# 认证通过 gcloud ADC / Service Account 完成,不用 API Key
注意两者的模型名、认证方式、计费归属均有差异。如果你一开始用的是 AI Studio 的 API Key,那么无论如何都无法购买 PT;必须在 GCP 项目下启用 Vertex AI,并通过 Service Account 鉴权。
🎯 接入建议:如果你不希望花力气搞清楚 AI Studio vs Vertex AI 的边界、Service Account 鉴权、多区域路由等复杂细节,可以直接通过 API易 apiyi.com 统一接入 Gemini 全系模型,使用兼容 OpenAI 格式的
base_url+api_key,底层由我们处理账户体系与路由。
DSQ (Dynamic Shared Quota) 按量付费机制详解
DSQ 是 Vertex AI 的默认按量付费模式,也是绝大多数用户实际使用的计费方式。理解 DSQ,才能理解 PT 的优先级价值。
DSQ 的核心机制
With DSQ, there are no predefined quota limits on your usage. Instead, DSQ provides access to a large, shared pool of resources, dynamically allocated based on real-time availability of resources and real-time demand across all customers of that model.
关键点:
- 无预设配额:不需要提交 QIR (Quota Increase Request)
- 共享资源池:所有按量付费客户共用同一个大池子
- 动态分配:按全球客户实时需求重新切分
- 吞吐波动:高峰期每个用户得到的吞吐会下降
DSQ 与 PT 的优先级关系
Google 明确指出:
Provisioned Throughput customers are prioritized and serviced first before on-demand requests.
这是 PT 的核心价值:在 Google 侧的请求调度队列中优先被处理。具体体现在:
- PT 请求 → 进入专属高优先级队列,响应稳定
- DSQ 请求 → 进入共享共用池,高峰期可能被限速或排队
DSQ 的典型限制场景
没有购买 PT 的企业在以下场景容易遇到麻烦:
- 电商大促 0 点峰值:全球共享池被挤压,P99 延迟翻倍
- 直播互动生图:实时性要求高,DSQ 波动无法接受
- 跨国业务:多区域同时调用,不同区域 DSQ 容量差异大
- 新模型发布首周:Google 官方配额未完全打开,DSQ 紧张
但需要强调:对于月调用量不足 5 万次 / 月图量不足 5 万张的中小企业,DSQ 的实际稳定性已经足够好,购买 PT 是过度投资。
PT 承诺期选项与购买流程
PT 的承诺期长度设计覆盖了从试水到长期合约的多种场景:
四种承诺期对比
| 承诺期 | 典型场景 | 总成本占比 | 灵活性 |
|---|---|---|---|
| 1 周 | 短期活动/大促验证 | 基准 × 1 | 最高 |
| 1 月 | 稳定业务月度规划 | ~基准 × 0.95 | 中等 |
| 3 月 | 季度业务承诺 | ~基准 × 0.88 | 较低 |
| 1 年 | 长期合约+预算锁定 | ~基准 × 0.75 | 最低 |
具体价格需在 GCP 控制台登录后查看,不同地区、不同模型价格不同。
PT 购买步骤

企业购买 PT 的标准流程:
- 测算需求:使用 Google 官方 GSU 计算器估算所需容量
- 创建 GCP 项目:启用 Vertex AI API,配置 Service Account
- 发起采购:通过 GCP Console → Vertex AI → Provisioned Throughput 页面下单
- 选择参数:模型、区域、GSU 数量、承诺期
- 财务审批:美金信用卡或企业 ACH 付款
- 激活生效:通常 1-5 个工作日内生效
- API 配置:在代码中添加
provisioned_throughput_id参数切换到 PT 通道
PT 的API使用示例
启用 PT 后,调用代码需要显式指定:
from google import genai
from google.genai import types
client = genai.Client(
vertexai=True,
project="your-gcp-project",
location="us-central1"
)
resp = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="一只橘猫",
config=types.GenerateContentConfig(
# 指定 PT 订阅 ID,请求走优先通道
labels={"dedicated-capacity": "your-pt-subscription-id"}
)
)
如果不指定该参数,即使账户下有 PT 订阅,请求仍会走 DSQ 通道。
PT 的三种计费模式对比:PT vs DSQ vs Batch
Vertex AI 同时提供三种计费模式,理清它们的边界是企业决策关键:
| 维度 | Provisioned Throughput | Dynamic Shared Quota | Batch API |
|---|---|---|---|
| 计费模型 | 固定预付 | 按量付费 | 按量付费 |
| 单价 | 与按量相同 | 官方原价 | 50% 折扣 |
| 优先级 | 最高(专属) | 共享池 | 最低(24h 窗口) |
| 承诺 | 周/月/季/年 | 无 | 无 |
| 延迟 | 稳定(低) | 波动 | 24h 异步 |
| 适用场景 | 高并发实时 | 日常通用 | 大规模离线 |
| 起步门槛 | 数千美金起 | 免费起步 | 免费起步 |
组合策略:PT + DSQ + Batch
成熟企业通常采用混合计费架构:
- PT 保障核心实时业务:如直播生图、用户互动
- DSQ 兜底日常流量:大部分非关键请求走按量
- Batch 处理夜间大规模任务:报告生成、数据标注等
⚡ 混合架构建议:如果团队规模较小、不想搞复杂的多通道架构,推荐通过 API易 apiyi.com 统一接入。我们在后端已经实现了智能路由:紧急请求走 VIP 通道、批量任务走 Batch 通道、日常调用走标准通道,对上层透明,单一 API Key 即可享受混合策略收益。
PT 适用与不适用场景详细评估
真正适合购买 PT 的四类企业

场景一:高并发实时业务
电商大促、短视频平台、直播互动场景,要求峰值并发 > 50 请求/秒,此时 DSQ 可能触发限速,必须靠 PT 保障。
场景二:P99 延迟硬指标
用户交互 SLA 要求 P99 首包延迟 < 10 秒,例如实时 AI 绘画工具。DSQ 的 P99 通常 15-30 秒,不满足要求。
场景三:月消费门槛跨过
月消费 > $50,000 时,PT 的固定承诺成本被规模效应摊薄,单位成本可低于 DSQ,此时买 PT 既省钱又稳定。
场景四:强监管合规隔离
金融、医疗等行业要求独占资源池与合规声明,PT 提供明确的吞吐隔离承诺。
不适合 PT 的五类场景
- 月调用量 < 5 万次:PT 固定成本摊薄不足,按量更划算
- 业务量波动大:预付承诺可能产生大量闲置浪费
- 仅需降单价:PT 不降单价,应选择聚合渠道议价
- 多模型混用:每个模型独立 GSU 承诺,运维复杂
- 中小团队:缺乏财务与运维能力承接长期美金合约
如果你属于不适合 PT 的类型,通过 API易 apiyi.com 接入 Gemini 全系模型可获得 37 折企业价,叠加充值满赠最高 20%,实际单价可低至 Google 官方的 32% 左右——以更低价格换取可接受的稳定性。
常见问题 (FAQ)
Q1:我已经在 AI Studio 用 Gemini API Key 开发了,能买 PT 吗?
不能。AI Studio (Gemini Developer API) 与 Vertex AI 是两套独立体系,PT 仅属于 Vertex AI。如需使用 PT,必须:① 创建 GCP 项目并启用 Vertex AI;② 迁移到 Vertex AI 的 Service Account 鉴权方式;③ 重写部分 API 调用代码。如果你希望跳过这套迁移工作,可以通过 API易 apiyi.com 直接使用 OpenAI 兼容的 base_url 调用 Gemini,无需关心底层账户体系。
Q2:PT 购买后单价会比按量付费便宜吗?
单价不变,但按"每百万 tokens"摊到总成本上,大规模使用时综合成本可能更低。具体机制是:PT 以固定月度承诺计费,如果你充分利用了全部 GSU 容量,实际有效单价约为 DSQ 的 80-95%;如果未充分利用,反而更贵。PT 的价值主要不在于省钱,而在于吞吐保障、延迟稳定、优先级更高。
Q3:PT 可以中途取消或减少 GSU 数量吗?
不可以。一旦签约,当前承诺期内不可取消,不可减少 GSU。只能在周期结束前选择是否续约。唯一允许的变更是追加 GSU(业务扩张时)。这是 PT 最大的风险点——预付承诺必须基于保守的用量估算。
Q4:Gemini 3 Pro Image (Nano Banana Pro) 支持 PT 吗?
截至 2026 年 4 月,根据 Google 官方支持清单,Gemini 3 Pro 系列模型(含 gemini-3-pro-image-preview)已支持 Provisioned Throughput。但需要注意,图像模型的 GSU 消耗按图像尺寸与 tokens 换算,4K 图像单请求 GSU 占用显著高于 1K。具体消耗系数以 Google 官方数据为准。如需快速对比成本,可联系 API易 apiyi.com 商务获取企业方案价目对照表。
Q5:我没有 GCP 账户也没有国际信用卡,还能享受类似 PT 的优先通道吗?
可以。API易 apiyi.com 企业方案通过多账户聚合 + VIP 专属队列实现类似的优先通道效果,你只需国内主体 + 人民币对公付款即可开通。企业通道 P99 延迟与 Google 原生按量通道相当,对于月图量 < 5 万张的客户已经足够,成本仅为官方按量价的 32-37%。
Q6:PT 与 Google Batch API 能叠加使用吗?
可以。Batch API 走的是独立的异步通道,与 PT/DSQ 互不冲突。成熟架构会把三者结合:实时关键请求走 PT、日常请求走 DSQ、夜间大批量任务走 Batch(享 50% 折扣)。这种"三通道混合"能最大化整体成本效率。
总结
回到本文的核心问题——什么是 Google Provisioned Throughput (PT)?它属于哪个体系?
简明答案是:PT 是 Google Cloud Vertex AI (GCP) 下的企业级吞吐量预留订阅,以 GSU (Generative AI Scale Unit) 为计量单位,提供 1 周/1 月/3 月/1 年 四档承诺期,在承诺期内不降单价但提供调度优先级与稳定吞吐。它与 AI Studio (generativelanguage.googleapis.com) 无关,与按量付费的 DSQ (Dynamic Shared Quota) 机制形成"优先 vs 共享"的二元结构。
对绝大多数中小企业、个人开发者与内容创作者,PT 的门槛和承诺期约束都过高。更实用的路径是通过 API易 apiyi.com 这类聚合平台接入 Gemini 全系模型,以更低价格(37 折)享受企业级稳定通道,并避免跨境账户、国际支付、英文合规等复杂事项。
只有当你的业务规模确实达到 PT 的四大适用门槛(高并发、低 P99、月消费 >$50K、强监管)之一时,投入时间研究并采购 PT 才是理性的选择。
📌 作者署名:本文由 API易 apiyi.com 企业解决方案团队整理,内容基于 Google Cloud Vertex AI 官方英文文档与 2026-04 最新企业政策。如需快速评估你的业务适合 PT 还是聚合接入,欢迎通过官网商务入口联系我们获取 1 对 1 分析。
