Когда корпоративные клиенты обращаются за консультацией по поводу подключения моделей Google, таких как Gemini или Nano Banana Pro, термин «Provisioned Throughput (PT)» звучит постоянно, но его часто понимают неправильно. Распространенные заблуждения: «PT — это корпоративная версия AI Studio?», «PT — это покупка приоритета для Gemini API?», «Снижает ли PT стоимость за единицу вызова?»
Ответы на эти вопросы не совсем очевидны. В этой статье, основанной на актуальной англоязычной документации Google Cloud Vertex AI, мы разберем PT «по полочкам»: он относится к экосистеме Vertex AI, а не AI Studio, его единица измерения — GSU (Generative AI Scale Unit), он не снижает цену за запрос, но гарантирует приоритет пропускной способности, а соответствующий механизм оплаты по факту называется DSQ (Dynamic Shared Quota).
Понимание этих концепций поможет вам не только правильно оценить необходимость покупки PT для компании, но и рационально выбрать между тремя путями: самостоятельным подключением к Google, подпиской на PT или использованием агрегатора APIYI (apiyi.com).

Что такое Google Provisioned Throughput (PT)
Provisioned Throughput (PT) — это подписка на резервирование пропускной способности с фиксированной стоимостью и фиксированным сроком действия, предоставляемая платформой Google Cloud Vertex AI для генеративных моделей. Основная логика проста: компания заранее обязуется выкупить определенный объем вычислительных мощностей, а Google резервирует для вас ресурсы, чтобы гарантировать стабильность и приоритет обработки запросов.
Официальное определение и ключевые характеристики PT
Согласно официальной документации Google Cloud:
Provisioned Throughput — это подписка с фиксированной стоимостью и фиксированным сроком действия, доступная на несколько периодов, которая резервирует пропускную способность для поддерживаемых генеративных ИИ-моделей в Vertex AI.
Разберем три ключевых понятия:
- Fixed-cost (Фиксированная стоимость): не зависит от фактического объема использования, оплачивается авансом согласно обязательствам.
- Fixed-term (Фиксированный срок): на выбор 1 неделя / 1 месяц / 3 месяца / 1 год.
- Reserves throughput (Резервирование пропускной способности): резервируются не «вычислительные мощности» как таковые, а «способность обработки токенов в секунду».
Чем PT не является: развенчание трех мифов
| Распространенное заблуждение | Разъяснение фактов |
|---|---|
| «PT = корпоративная версия AI Studio» | ❌ PT существует только в Vertex AI и не имеет прямого отношения к AI Studio |
| «После покупки PT цена за единицу снизится» | ❌ PT не снижает цену, а лишь обеспечивает гарантию пропускной способности и приоритет |
| «PT можно отменить в любой момент» | ❌ После заключения контракта отмена невозможна, можно только докупить GSU |
| «PT дает эксклюзивный доступ к GPU» | ❌ PT резервирует единицы пропускной способности (GSU), а не аппаратное обеспечение |
| «PT подходит для всех моделей Google» | ❌ Поддерживаются только некоторые модели, проверяйте список совместимости |
💡 Совет для бизнеса: если ваша главная цель — «снижение стоимости за запрос», а не «гарантия пропускной способности», то PT вам не подходит. В таком случае использование корпоративных решений APIYI (apiyi.com) для подключения моделей серии Gemini (включая Nano Banana Pro) часто оказывается более выгодным выбором: скидки до 63% от официальных цен, возможность оплаты в юанях и предоставление счетов-фактур (VAT).
Подробный разбор единицы измерения GSU (Generative AI Scale Unit)
Чтобы понять, что такое PT (Provisioned Throughput), нужно сначала разобраться в его единице измерения — GSU.
Официальное определение GSU
GSU — это абстрактная единица пропускной способности. Она обеспечивает фиксированную цену и емкость для всех моделей Google, поддерживающих PT, однако эффективность использования GSU у разных моделей различается. Проще говоря:
- Цена 1 GSU одинакова для всех моделей.
- Емкость 1 GSU (пропускная способность токенов в секунду) также одинакова для всех моделей.
- Но реальное количество вызовов модели, которое можно совершить в рамках одного GSU, зависит от конкретной модели.
Пример соответствия GSU и моделей
В таблице ниже приведены ориентировочные данные (актуальные цифры всегда стоит проверять в официальной документации Google):
| Модель | Пропускная способность на 1 GSU | Примечание |
|---|---|---|
| Gemini 2.5 Flash-Lite | Высокая | Легкая модель, 1 GSU поддерживает больше запросов |
| Gemini 2.5 Flash | Средняя | Сбалансированный выбор для большинства компаний |
| Gemini 2.5 Pro | Низкая | Флагманская модель, потребляет больше GSU |
| Gemini 3 Pro | Минимальная | Новый флагман, высокое потребление GSU на запрос |
| Gemini 3 Pro Image | Зависит от размера изображения | 4K-изображения потребляют значительно больше, чем 1K |
Это означает, что если в вашем проекте используются разные модели, вам нужно покупать отдельные обязательства по GSU для каждой модели, а не использовать общий пул GSU.
Как рассчитать необходимое количество GSU
Google предоставляет официальный калькулятор GSU, но логику расчета можно упростить до следующей формулы:
Необходимое GSU = (Пиковый QPS × Среднее кол-во токенов на запрос) / (Пропускная способность 1 GSU)
Этапы расчета для бизнеса:
- Определите исторический пиковый QPS (количество запросов в секунду).
- Рассчитайте среднее потребление токенов на запрос (входные + выходные).
- Узнайте пропускную способность 1 GSU для целевой модели.
- Округлите в большую сторону и добавьте 20–30% запаса на случай скачков нагрузки.
Минимальный объем покупки и уровни GSU
Обычно заказ на PT имеет минимальный порог покупки GSU (зависит от модели и региона). После заключения контракта:
- ✅ Можно докупать GSU: при росте нагрузки вы можете увеличить объем обязательств.
- ❌ Нельзя сокращать GSU: в течение текущего периода действия контракта уменьшить объем нельзя.
- ⚠️ Корректировка при продлении: перед окончанием срока действия контракта необходимо переоценить масштабы использования.
Vertex AI vs AI Studio: проясняем принадлежность PT
Это момент, в котором чаще всего путаются клиенты. У Google есть две независимые линейки продуктов для генеративного ИИ:
{Две продуктовые линейки генеративного ИИ от Google и модели биллинга}

Vertex AI: Корпоративный продукт Google Cloud Platform
- Принадлежность: Google Cloud Platform (GCP).
- Целевая аудитория: корпорации, крупные команды разработчиков, клиенты с высокими требованиями к комплаенсу.
- Биллинг: через единый счет GCP, поддержка оплаты по факту (DSQ), резервирования (PT) и пакетной обработки (Batch).
- Консоль: console.cloud.google.com → меню Vertex AI.
- Путь API:
*-aiplatform.googleapis.com. - Поддержка PT: ✅ Да.
- Региональное развертывание: ✅ Поддерживается.
AI Studio: Вход для разработчиков и частных лиц
- Принадлежность: Google AI for Developers (независимо от GCP).
- Целевая аудитория: индивидуальные разработчики, быстрое прототипирование, создатели контента.
- Биллинг: через личный аккаунт Google Pay, оплата по факту использования.
- Консоль: aistudio.google.com.
- Путь API:
generativelanguage.googleapis.com. - Поддержка PT: ❌ Нет.
- Региональное развертывание: ❌ Единый глобальный пул.
Различия в коде для доступа к API
AI Studio (Gemini Developer API):
from google import genai
# Личный API-ключ из AI Studio
client = genai.Client(api_key="AIzaSy-xxx")
resp = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="Рыжий кот"
)
Vertex AI:
from google import genai
client = genai.Client(
vertexai=True,
project="your-gcp-project", # ID проекта GCP
location="us-central1" # Регион
)
# Аутентификация через gcloud ADC / Service Account, API-ключ не нужен
Обратите внимание: названия моделей, способы аутентификации и биллинг различаются. Если вы начали с API-ключа AI Studio, то купить PT не получится. Необходимо активировать Vertex AI в проекте GCP и настроить аутентификацию через сервисный аккаунт (Service Account).
🎯 Совет по подключению: Если вы не хотите тратить время на изучение разницы между AI Studio и Vertex AI, настройку сервисных аккаунтов и маршрутизацию по регионам, вы можете подключиться ко всей линейке моделей Gemini через APIYI. Мы предоставляем
base_urlиapi_key, совместимые с форматом OpenAI, а все сложности с аккаунтами и маршрутизацией берем на себя.
Подробный разбор механизма оплаты по факту DSQ (Dynamic Shared Quota)
DSQ — это модель оплаты по факту использования (on-demand) по умолчанию в Vertex AI, которую выбирает подавляющее большинство пользователей. Чтобы понять ценность приоритетности PT (Provisioned Throughput), нужно сначала разобраться в принципах работы DSQ.
Ключевые механизмы DSQ
With DSQ, there are no predefined quota limits on your usage. Instead, DSQ provides access to a large, shared pool of resources, dynamically allocated based on real-time availability of resources and real-time demand across all customers of that model.
Основные моменты:
- Нет заранее заданных квот: не нужно отправлять запросы на увеличение квоты (QIR).
- Общий пул ресурсов: все клиенты, платящие по факту, используют один большой общий пул.
- Динамическое распределение: ресурсы перераспределяются в реальном времени в зависимости от глобального спроса.
- Колебания пропускной способности: в часы пик доступная каждому пользователю пропускная способность может снижаться.
Приоритетность: DSQ против PT
Google четко обозначает разницу:
Provisioned Throughput customers are prioritized and serviced first before on-demand requests.
В этом и заключается главная ценность PT: ваши запросы обрабатываются в приоритетной очереди. Это работает так:
- Запросы PT → попадают в выделенную высокоприоритетную очередь, обеспечивая стабильный отклик.
- Запросы DSQ → попадают в общий пул, где в часы пик возможны ограничения скорости или очереди.
Когда DSQ может стать проблемой
Компании, не купившие PT, часто сталкиваются с трудностями в следующих сценариях:
- Пиковые нагрузки в интернет-магазинах (например, в полночь): общий пул перегружен, задержки P99 вырастают в разы.
- Генерация изображений в прямом эфире: критична низкая задержка, а колебания DSQ недопустимы.
- Международный бизнес: одновременные вызовы из разных регионов, где емкость DSQ может сильно различаться.
- Первая неделя после релиза новой модели: официальные квоты Google еще не расширены, и DSQ работает нестабильно.
Важно отметить: для малого и среднего бизнеса с объемом менее 50 000 вызовов или 50 000 генераций изображений в месяц стабильности DSQ вполне достаточно, и покупка PT будет избыточной тратой средств.
Варианты обязательств и процесс покупки PT
Сроки обязательств по PT разработаны для любых сценариев: от тестирования до долгосрочных контрактов.
Сравнение четырех вариантов обязательств
| Срок обязательств | Типичный сценарий | Доля от базовой стоимости | Гибкость |
|---|---|---|---|
| 1 неделя | Краткосрочные акции/тесты | База × 1 | Максимальная |
| 1 месяц | Плановое использование | ~База × 0.95 | Средняя |
| 3 месяца | Квартальное планирование | ~База × 0.88 | Низкая |
| 1 год | Долгосрочный контракт | ~База × 0.75 | Минимальная |
Точные цены можно увидеть в консоли GCP после авторизации; они зависят от региона и модели.
Шаги по покупке PT

Стандартный процесс покупки PT для бизнеса:
- Расчет потребностей: используйте официальный калькулятор GSU от Google.
- Создание проекта GCP: включите Vertex AI API и настройте сервисный аккаунт.
- Оформление покупки: через GCP Console → Vertex AI → Provisioned Throughput.
- Выбор параметров: модель, регион, количество GSU, срок обязательств.
- Финансовое согласование: оплата корпоративной картой или через ACH.
- Активация: обычно занимает от 1 до 5 рабочих дней.
- Настройка API: добавьте параметр
provisioned_throughput_idв код, чтобы переключиться на канал PT.
Пример использования PT в API
После активации PT необходимо явно указать его в коде:
from google import genai
from google.genai import types
client = genai.Client(
vertexai=True,
project="your-gcp-project",
location="us-central1"
)
resp = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="рыжий кот",
config=types.GenerateContentConfig(
# Указываем ID подписки PT, чтобы запрос шел через приоритетный канал
labels={"dedicated-capacity": "your-pt-subscription-id"}
)
)
Если не указать этот параметр, запрос будет обрабатываться через DSQ, даже если у вас есть активная подписка PT.
Сравнение трех моделей тарификации PT: PT vs DSQ vs Batch
Vertex AI предлагает три модели тарификации, и понимание границ между ними — ключ к принятию верных бизнес-решений:
| Параметр | Provisioned Throughput (PT) | Dynamic Shared Quota (DSQ) | Batch API |
|---|---|---|---|
| Модель оплаты | Фиксированная предоплата | Оплата по факту | Оплата по факту |
| Цена за единицу | Как при оплате по факту | Официальная цена | Скидка 50% |
| Приоритет | Максимальный (выделенный) | Общий пул | Минимальный (окно 24ч) |
| Обязательства | Нед./мес./кварт./год | Нет | Нет |
| Задержка | Стабильная (низкая) | Колеблется | 24ч (асинхронно) |
| Сценарии | Высоконагруженный Real-time | Повседневные задачи | Масштабный офлайн |
| Порог входа | От нескольких тысяч $ | Бесплатно | Бесплатно |
Комбинированная стратегия: PT + DSQ + Batch
Зрелые компании обычно используют гибридную архитектуру тарификации:
- PT для критически важных задач в реальном времени: например, генерация изображений в прямом эфире или интерактив с пользователями.
- DSQ для повседневного трафика: большинство некритичных запросов проходят по стандартной модели оплаты.
- Batch для ночных масштабных задач: генерация отчетов, разметка данных и т.д.
⚡ Совет по гибридной архитектуре: если ваша команда невелика и вы не хотите усложнять архитектуру множеством каналов, рекомендуем использовать APIYI (apiyi.com) для централизованного подключения. Мы реализовали интеллектуальную маршрутизацию на бэкенде: срочные запросы идут через VIP-канал, пакетные задачи — через Batch, а обычные вызовы — через стандартный канал. Это прозрачно для верхнего уровня, и вы получаете все преимущества гибридной стратегии, используя всего один API-ключ.
Детальная оценка сценариев использования PT
Четыре типа компаний, которым действительно стоит купить PT

Сценарий 1: Высоконагруженный Real-time бизнес
Крупные распродажи в e-commerce, платформы коротких видео, интерактивные стримы — везде, где пиковая нагрузка превышает 50 запросов в секунду. В таких условиях DSQ может вызвать ограничение скорости, поэтому для стабильности необходим PT.
Сценарий 2: Жесткие требования к задержке P99
Если SLA по взаимодействию с пользователем требует задержку первого байта P99 < 10 секунд (например, в инструментах для рисования AI в реальном времени). P99 у DSQ обычно составляет 15-30 секунд, что не соответствует требованиям.
Сценарий 3: Превышение порога ежемесячных расходов
Когда ежемесячные расходы превышают $50,000, фиксированные обязательства по PT нивелируются за счет эффекта масштаба, и стоимость единицы может стать ниже, чем у DSQ. В этом случае покупка PT — это и экономия, и стабильность.
Сценарий 4: Строгие требования регуляторов
В финансовой или медицинской сферах часто требуется выделенный пул ресурсов и декларации о соответствии. PT предоставляет четкие гарантии изоляции пропускной способности.
Пять сценариев, где PT не подходит
- Ежемесячный объем вызовов < 50 000: фиксированные затраты на PT не окупаются, оплата по факту выгоднее.
- Сильные колебания нагрузки: предоплата может привести к простаиванию ресурсов и потерям.
- Нужно просто снизить цену: PT не снижает цену за единицу, лучше использовать агрегированные каналы с возможностью торга.
- Использование нескольких моделей: для каждой модели требуется отдельное обязательство GSU, что усложняет администрирование.
- Малые команды: отсутствие ресурсов для управления долгосрочными долларовыми контрактами.
Если вы не подходите под критерии для PT, подключение к линейке моделей Gemini через APIYI (apiyi.com) позволит получить корпоративную скидку до 63% (цена 37% от официальной). С учетом бонусов при пополнении до 20%, реальная стоимость может составить около 32% от цен Google — это способ получить приемлемую стабильность по гораздо более низкой цене.
Часто задаваемые вопросы (FAQ)
Q1: Я уже веду разработку в AI Studio с использованием Gemini API-ключа, могу ли я купить PT?
Нет. AI Studio (Gemini Developer API) и Vertex AI — это две независимые системы, и PT относится исключительно к Vertex AI. Чтобы использовать PT, вам необходимо: ① создать проект в GCP и активировать Vertex AI; ② перейти на способ аутентификации через Service Account в Vertex AI; ③ переписать часть кода вызова модели. Если вы хотите избежать этой миграции, вы можете использовать APIYI (apiyi.com), чтобы вызывать Gemini через base_url, совместимый с OpenAI, не вникая в сложности базовой системы аккаунтов.
Q2: Будет ли цена за единицу после покупки PT ниже, чем при оплате по факту использования?
Цена за единицу остается прежней, но при расчете на «миллион токенов» общие затраты при масштабном использовании могут быть ниже. Механизм следующий: PT оплачивается по фиксированным ежемесячным обязательствам. Если вы полностью используете всю емкость GSU, фактическая эффективная цена составит около 80–95% от DSQ; если же вы не используете её полностью, это выйдет дороже. Ценность PT заключается не в экономии, а в гарантированной пропускной способности, стабильной задержке и более высоком приоритете.
Q3: Можно ли отменить или уменьшить количество GSU в процессе использования PT?
Нет. После подписания контракта отмена или уменьшение количества GSU в течение текущего периода обязательств невозможны. Вы можете только решить, продлевать ли подписку по окончании цикла. Единственное допустимое изменение — это увеличение количества GSU (при расширении бизнеса). Это главный риск PT: предоплатные обязательства должны основываться на консервативной оценке потребления.
Q4: Поддерживает ли Gemini 3 Pro Image (Nano Banana Pro) работу с PT?
По состоянию на апрель 2026 года, согласно официальному списку поддержки Google, модели серии Gemini 3 Pro (включая gemini-3-pro-image-preview) поддерживают Provisioned Throughput. Однако обратите внимание, что потребление GSU для моделей генерации изображений рассчитывается исходя из размера изображения и количества токенов: потребление GSU для одного запроса 4K-изображения значительно выше, чем для 1K. Коэффициенты потребления определяются официальными данными Google. Для быстрого сравнения затрат вы можете связаться с отделом продаж APIYI (apiyi.com) и получить сравнительную таблицу корпоративных тарифов.
Q5: У меня нет аккаунта GCP и международной кредитной карты, могу ли я получить приоритетный канал, похожий на PT?
Да. Корпоративные решения APIYI (apiyi.com) обеспечивают эффект приоритетного канала за счет агрегации нескольких аккаунтов + выделенной VIP-очереди. Вам достаточно иметь юридическое лицо в РФ и возможность оплаты по безналичному расчету. Задержка P99 в корпоративном канале сопоставима с нативным каналом Google с оплатой по факту использования. Для клиентов с объемом генерации менее 50 000 изображений в месяц этого более чем достаточно, а стоимость составляет всего 32–37% от официальных тарифов.
Q6: Можно ли использовать PT вместе с Google Batch API?
Да. Batch API использует независимый асинхронный канал, который не конфликтует с PT/DSQ. Зрелая архитектура объединяет все три инструмента: критически важные запросы в реальном времени идут через PT, повседневные запросы — через DSQ, а массовые задачи в ночное время — через Batch (со скидкой 50%). Такая «смешанная трехканальная» стратегия позволяет максимально оптимизировать расходы.
Итог
Возвращаясь к главному вопросу статьи — что такое Google Provisioned Throughput (PT) и к какой системе он относится?
Краткий ответ: PT — это корпоративная подписка на резервирование пропускной способности в рамках Google Cloud Vertex AI (GCP). Она измеряется в GSU (Generative AI Scale Unit) и предлагает периоды обязательств на 1 неделю / 1 месяц / 3 месяца / 1 год. В течение этого периода цена за единицу не снижается, но предоставляется приоритет планирования и стабильная пропускная способность. PT не имеет отношения к AI Studio (generativelanguage.googleapis.com) и формирует структуру «приоритет против общего доступа» в паре с механизмом оплаты по факту использования DSQ (Dynamic Shared Quota).
Для подавляющего большинства малых и средних предприятий, индивидуальных разработчиков и создателей контента порог входа и обязательства по срокам PT слишком высоки. Более практичный путь — подключение ко всей линейке моделей Gemini через агрегаторы, такие как APIYI (apiyi.com). Это позволяет пользоваться стабильным корпоративным каналом по более низкой цене (37% от официальной) и избежать сложностей с трансграничными аккаунтами, международными платежами и соблюдением англоязычных требований.
Только если масштаб вашего бизнеса действительно достигает одного из четырех порогов применения PT (высокая конкурентность, низкая задержка P99, ежемесячное потребление >$50K, строгие регуляторные требования), инвестиции времени в изучение и покупку PT станут рациональным выбором.
📌 Авторство: Статья подготовлена командой корпоративных решений APIYI (apiyi.com) на основе официальной англоязычной документации Google Cloud Vertex AI и актуальной корпоративной политики от апреля 2026 года. Если вам нужна оценка того, подходит ли вашему бизнесу PT или агрегированное подключение, свяжитесь с нами через бизнес-раздел на официальном сайте для получения индивидуальной консультации.
