|

Google Provisioned Throughput (PT) 深度解密:Vertex AI 专属 vs AI Studio 体系 6 大关键差异 (2026)

在企业用户咨询 Gemini、Nano Banana Pro 等 Google 模型的接入方案时,"Provisioned Throughput (PT)" 是一个频繁被提及又频繁被误解的词汇。常见的误解包括:"PT 是不是 AI Studio 的企业版?"、"PT 是给 Gemini API 买优先级的吗?"、"PT 购买后单价会打折吗?"

这些问题的答案并不完全符合直觉。本文基于 Google Cloud Vertex AI 的最新英文官方文档,一次性把 PT 讲透:它属于 Vertex AI 体系而不是 AI Studio、它的计量单位是 GSU (Generative AI Scale Unit)、它不降低单价但保障吞吐优先级、与之对应的按量付费机制叫 DSQ (Dynamic Shared Quota)

理解这些概念,不仅能帮你正确评估是否应该为企业采购 PT,还能帮你理性选择自建 Google 接入、PT 订阅、或通过 API易 apiyi.com 聚合平台接入这三条路径。

google-provisioned-throughput-pt-explained-vertex-vs-aistudio-2026 图示

什么是 Google Provisioned Throughput (PT)

Provisioned Throughput (PT) 是 Google Cloud Vertex AI 平台为生成式 AI 模型提供的固定成本、固定周期的吞吐量预留订阅。它的核心逻辑是:企业提前承诺购买一定数量的处理能力,Google 为你独立预留算力,以换取调用吞吐的确定性和优先级

PT 的官方定义与关键特征

根据 Google Cloud 官方文档:

Provisioned Throughput is a fixed-cost, fixed-term subscription available in several term-lengths that reserves throughput for supported generative AI models on Vertex AI.

拆解这句话的三个关键词:

  1. Fixed-cost (固定成本):与实际调用量无关,按承诺预付
  2. Fixed-term (固定周期):1 周 / 1 月 / 3 月 / 1 年 四选一
  3. Reserves throughput (预留吞吐):并非预留"算力",而是预留"每秒 tokens 处理能力"

PT 不是什么:澄清三大误区

常见误解 事实澄清
"PT = AI Studio 的企业版" ❌ PT 仅存在于 Vertex AI,与 AI Studio 无直接关联
"PT 购买后单价会打折" ❌ PT 不降低单价,仅提供吞吐保障与优先级
"PT 可以随时取消" ❌ 签约后周期内不可取消,仅可追加 GSU
"PT 让你独占 GPU" ❌ PT 预留的是吞吐量单元 (GSU),不是硬件独占
"PT 同时适用于所有 Google 模型" ❌ 只有部分模型支持,需查看支持清单

💡 常见场景建议:如果你的核心诉求是"降低单价"而非"吞吐保障",那么 PT 并不适合你。此时通过 API易 apiyi.com 企业方案接入 Gemini 系列模型(含 Nano Banana Pro)往往是更经济的选择,最低可达官方价的 37 折,同时支持人民币结算与增值税发票。

GSU (Generative AI Scale Unit) 计量单位详解

要理解 PT,必须先理解它的计量单位 GSU

GSU 的官方定义

GSU 是一个抽象的吞吐容量单位,在所有支持 PT 的 Google 模型之间保持价格和容量固定,但不同模型消耗 GSU 的效率不同。换句话说:

  • 1 GSU 的价格在所有模型上是一致的
  • 1 GSU 的**容量(每秒 tokens 吞吐)**在所有模型上也是一致的
  • 但同一个 GSU 能支撑的模型实际调用量因模型不同而不同

GSU 与模型的对应关系示例

下表为示意性说明(具体数值以 Google 官方最新数据为准):

模型 1 GSU 支持吞吐 说明
Gemini 2.5 Flash-Lite 较高 轻量模型,单位 GSU 可支撑更多请求
Gemini 2.5 Flash 中等 平衡型,主流企业选择
Gemini 2.5 Pro 较低 旗舰模型,GSU 消耗更多
Gemini 3 Pro 最低 新旗舰,单请求 GSU 占用高
Gemini 3 Pro Image 按图像尺寸换算 4K 单图消耗显著高于 1K

这意味着:如果你的业务混用多个模型,需要分别购买对应模型的 GSU 承诺,而非共享 GSU 池。

如何估算所需 GSU 数量

Google 提供了官方的 GSU 计算器,但估算思路可以简化为:

所需 GSU = (峰值 QPS × 平均每请求 tokens) / (1 GSU 的吞吐容量)

实际企业估算步骤:

  1. 测算历史峰值 QPS(每秒请求数)
  2. 测算平均每请求消耗的 tokens(input + output)
  3. 查阅目标模型单 GSU 吞吐量
  4. 向上取整,并预留 20-30% buffer 应对突发

GSU 的最小购买单位与阶梯

一个 PT 订单通常最小从若干 GSU 起购(具体数值按模型与地区不同),企业签约后可以:

  • 追加 GSU:业务增长时随时增加承诺量
  • 缩减 GSU:当前承诺期内不可减少
  • ⚠️ 续约调整:承诺期结束前需重新评估规模

Vertex AI vs AI Studio:PT 归属关系澄清

这是最多客户搞混的地方。Google 旗下有两套独立的生成式 AI 产品线

google-provisioned-throughput-pt-explained-vertex-vs-aistudio-2026 图示

Vertex AI:企业级 Google Cloud Platform 产品

  • 归属:Google Cloud Platform (GCP)
  • 面向对象:企业、大型开发团队、合规敏感客户
  • 计费:通过 GCP 账单统一结算,支持按量 (DSQ) + 预留 (PT) + 批量 (Batch)
  • 控制台:console.cloud.google.com → Vertex AI 菜单
  • API 路径*-aiplatform.googleapis.com
  • 支持 PT:✅ 是
  • 区域化部署:✅ 支持全球多区域

AI Studio:开发者与个人级 Gemini 入口

  • 归属:Google AI for Developers(独立于 GCP)
  • 面向对象:个人开发者、快速原型验证、内容创作者
  • 计费:通过 Google Pay 个人付费账户,按量结算
  • 控制台:aistudio.google.com
  • API 路径generativelanguage.googleapis.com
  • 支持 PT:❌
  • 区域化部署:❌ 全球统一池

两者的 API 接入代码差异

AI Studio (Gemini Developer API):

from google import genai
client = genai.Client(api_key="AIzaSy-xxx")  # AI Studio 个人 Key
resp = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents="一只橘猫"
)

Vertex AI:

from google import genai
client = genai.Client(
    vertexai=True,
    project="your-gcp-project",  # GCP 项目 ID
    location="us-central1"       # 区域
)
# 认证通过 gcloud ADC / Service Account 完成,不用 API Key

注意两者的模型名、认证方式、计费归属均有差异。如果你一开始用的是 AI Studio 的 API Key,那么无论如何都无法购买 PT;必须在 GCP 项目下启用 Vertex AI,并通过 Service Account 鉴权。

🎯 接入建议:如果你不希望花力气搞清楚 AI Studio vs Vertex AI 的边界、Service Account 鉴权、多区域路由等复杂细节,可以直接通过 API易 apiyi.com 统一接入 Gemini 全系模型,使用兼容 OpenAI 格式的 base_url + api_key,底层由我们处理账户体系与路由。

DSQ (Dynamic Shared Quota) 按量付费机制详解

DSQ 是 Vertex AI 的默认按量付费模式,也是绝大多数用户实际使用的计费方式。理解 DSQ,才能理解 PT 的优先级价值。

DSQ 的核心机制

With DSQ, there are no predefined quota limits on your usage. Instead, DSQ provides access to a large, shared pool of resources, dynamically allocated based on real-time availability of resources and real-time demand across all customers of that model.

关键点:

  • 无预设配额:不需要提交 QIR (Quota Increase Request)
  • 共享资源池:所有按量付费客户共用同一个大池子
  • 动态分配:按全球客户实时需求重新切分
  • 吞吐波动:高峰期每个用户得到的吞吐会下降

DSQ 与 PT 的优先级关系

Google 明确指出:

Provisioned Throughput customers are prioritized and serviced first before on-demand requests.

这是 PT 的核心价值:在 Google 侧的请求调度队列中优先被处理。具体体现在:

  • PT 请求 → 进入专属高优先级队列,响应稳定
  • DSQ 请求 → 进入共享共用池,高峰期可能被限速或排队

DSQ 的典型限制场景

没有购买 PT 的企业在以下场景容易遇到麻烦:

  1. 电商大促 0 点峰值:全球共享池被挤压,P99 延迟翻倍
  2. 直播互动生图:实时性要求高,DSQ 波动无法接受
  3. 跨国业务:多区域同时调用,不同区域 DSQ 容量差异大
  4. 新模型发布首周:Google 官方配额未完全打开,DSQ 紧张

但需要强调:对于月调用量不足 5 万次 / 月图量不足 5 万张的中小企业,DSQ 的实际稳定性已经足够好,购买 PT 是过度投资。

PT 承诺期选项与购买流程

PT 的承诺期长度设计覆盖了从试水到长期合约的多种场景:

四种承诺期对比

承诺期 典型场景 总成本占比 灵活性
1 周 短期活动/大促验证 基准 × 1 最高
1 月 稳定业务月度规划 ~基准 × 0.95 中等
3 月 季度业务承诺 ~基准 × 0.88 较低
1 年 长期合约+预算锁定 ~基准 × 0.75 最低

具体价格需在 GCP 控制台登录后查看,不同地区、不同模型价格不同。

PT 购买步骤

google-provisioned-throughput-pt-explained-vertex-vs-aistudio-2026 图示

企业购买 PT 的标准流程:

  1. 测算需求:使用 Google 官方 GSU 计算器估算所需容量
  2. 创建 GCP 项目:启用 Vertex AI API,配置 Service Account
  3. 发起采购:通过 GCP Console → Vertex AI → Provisioned Throughput 页面下单
  4. 选择参数:模型、区域、GSU 数量、承诺期
  5. 财务审批:美金信用卡或企业 ACH 付款
  6. 激活生效:通常 1-5 个工作日内生效
  7. API 配置:在代码中添加 provisioned_throughput_id 参数切换到 PT 通道

PT 的API使用示例

启用 PT 后,调用代码需要显式指定:

from google import genai
from google.genai import types

client = genai.Client(
    vertexai=True,
    project="your-gcp-project",
    location="us-central1"
)

resp = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents="一只橘猫",
    config=types.GenerateContentConfig(
        # 指定 PT 订阅 ID,请求走优先通道
        labels={"dedicated-capacity": "your-pt-subscription-id"}
    )
)

如果不指定该参数,即使账户下有 PT 订阅,请求仍会走 DSQ 通道。

PT 的三种计费模式对比:PT vs DSQ vs Batch

Vertex AI 同时提供三种计费模式,理清它们的边界是企业决策关键:

维度 Provisioned Throughput Dynamic Shared Quota Batch API
计费模型 固定预付 按量付费 按量付费
单价 与按量相同 官方原价 50% 折扣
优先级 最高(专属) 共享池 最低(24h 窗口)
承诺 周/月/季/年
延迟 稳定(低) 波动 24h 异步
适用场景 高并发实时 日常通用 大规模离线
起步门槛 数千美金起 免费起步 免费起步

组合策略:PT + DSQ + Batch

成熟企业通常采用混合计费架构

  • PT 保障核心实时业务:如直播生图、用户互动
  • DSQ 兜底日常流量:大部分非关键请求走按量
  • Batch 处理夜间大规模任务:报告生成、数据标注等

混合架构建议:如果团队规模较小、不想搞复杂的多通道架构,推荐通过 API易 apiyi.com 统一接入。我们在后端已经实现了智能路由:紧急请求走 VIP 通道、批量任务走 Batch 通道、日常调用走标准通道,对上层透明,单一 API Key 即可享受混合策略收益。

PT 适用与不适用场景详细评估

真正适合购买 PT 的四类企业

google-provisioned-throughput-pt-explained-vertex-vs-aistudio-2026 图示

场景一:高并发实时业务
电商大促、短视频平台、直播互动场景,要求峰值并发 > 50 请求/秒,此时 DSQ 可能触发限速,必须靠 PT 保障。

场景二:P99 延迟硬指标
用户交互 SLA 要求 P99 首包延迟 < 10 秒,例如实时 AI 绘画工具。DSQ 的 P99 通常 15-30 秒,不满足要求。

场景三:月消费门槛跨过
月消费 > $50,000 时,PT 的固定承诺成本被规模效应摊薄,单位成本可低于 DSQ,此时买 PT 既省钱又稳定。

场景四:强监管合规隔离
金融、医疗等行业要求独占资源池与合规声明,PT 提供明确的吞吐隔离承诺。

不适合 PT 的五类场景

  1. 月调用量 < 5 万次:PT 固定成本摊薄不足,按量更划算
  2. 业务量波动大:预付承诺可能产生大量闲置浪费
  3. 仅需降单价:PT 不降单价,应选择聚合渠道议价
  4. 多模型混用:每个模型独立 GSU 承诺,运维复杂
  5. 中小团队:缺乏财务与运维能力承接长期美金合约

如果你属于不适合 PT 的类型,通过 API易 apiyi.com 接入 Gemini 全系模型可获得 37 折企业价,叠加充值满赠最高 20%,实际单价可低至 Google 官方的 32% 左右——以更低价格换取可接受的稳定性

常见问题 (FAQ)

Q1:我已经在 AI Studio 用 Gemini API Key 开发了,能买 PT 吗?

不能。AI Studio (Gemini Developer API) 与 Vertex AI 是两套独立体系,PT 仅属于 Vertex AI。如需使用 PT,必须:① 创建 GCP 项目并启用 Vertex AI;② 迁移到 Vertex AI 的 Service Account 鉴权方式;③ 重写部分 API 调用代码。如果你希望跳过这套迁移工作,可以通过 API易 apiyi.com 直接使用 OpenAI 兼容的 base_url 调用 Gemini,无需关心底层账户体系。

Q2:PT 购买后单价会比按量付费便宜吗?

单价不变,但按"每百万 tokens"摊到总成本上,大规模使用时综合成本可能更低。具体机制是:PT 以固定月度承诺计费,如果你充分利用了全部 GSU 容量,实际有效单价约为 DSQ 的 80-95%;如果未充分利用,反而更贵。PT 的价值主要不在于省钱,而在于吞吐保障、延迟稳定、优先级更高

Q3:PT 可以中途取消或减少 GSU 数量吗?

不可以。一旦签约,当前承诺期内不可取消,不可减少 GSU。只能在周期结束前选择是否续约。唯一允许的变更是追加 GSU(业务扩张时)。这是 PT 最大的风险点——预付承诺必须基于保守的用量估算。

Q4:Gemini 3 Pro Image (Nano Banana Pro) 支持 PT 吗?

截至 2026 年 4 月,根据 Google 官方支持清单,Gemini 3 Pro 系列模型(含 gemini-3-pro-image-preview)已支持 Provisioned Throughput。但需要注意,图像模型的 GSU 消耗按图像尺寸与 tokens 换算,4K 图像单请求 GSU 占用显著高于 1K。具体消耗系数以 Google 官方数据为准。如需快速对比成本,可联系 API易 apiyi.com 商务获取企业方案价目对照表。

Q5:我没有 GCP 账户也没有国际信用卡,还能享受类似 PT 的优先通道吗?

可以。API易 apiyi.com 企业方案通过多账户聚合 + VIP 专属队列实现类似的优先通道效果,你只需国内主体 + 人民币对公付款即可开通。企业通道 P99 延迟与 Google 原生按量通道相当,对于月图量 < 5 万张的客户已经足够,成本仅为官方按量价的 32-37%。

Q6:PT 与 Google Batch API 能叠加使用吗?

可以。Batch API 走的是独立的异步通道,与 PT/DSQ 互不冲突。成熟架构会把三者结合:实时关键请求走 PT、日常请求走 DSQ、夜间大批量任务走 Batch(享 50% 折扣)。这种"三通道混合"能最大化整体成本效率。

总结

回到本文的核心问题——什么是 Google Provisioned Throughput (PT)?它属于哪个体系?

简明答案是:PT 是 Google Cloud Vertex AI (GCP) 下的企业级吞吐量预留订阅,以 GSU (Generative AI Scale Unit) 为计量单位,提供 1 周/1 月/3 月/1 年 四档承诺期,在承诺期内不降单价但提供调度优先级与稳定吞吐。它与 AI Studio (generativelanguage.googleapis.com) 无关,与按量付费的 DSQ (Dynamic Shared Quota) 机制形成"优先 vs 共享"的二元结构。

对绝大多数中小企业、个人开发者与内容创作者,PT 的门槛和承诺期约束都过高。更实用的路径是通过 API易 apiyi.com 这类聚合平台接入 Gemini 全系模型,以更低价格(37 折)享受企业级稳定通道,并避免跨境账户、国际支付、英文合规等复杂事项。

只有当你的业务规模确实达到 PT 的四大适用门槛(高并发、低 P99、月消费 >$50K、强监管)之一时,投入时间研究并采购 PT 才是理性的选择。

📌 作者署名:本文由 API易 apiyi.com 企业解决方案团队整理,内容基于 Google Cloud Vertex AI 官方英文文档与 2026-04 最新企业政策。如需快速评估你的业务适合 PT 还是聚合接入,欢迎通过官网商务入口联系我们获取 1 对 1 分析。

类似文章