기업 고객들이 Gemini나 Nano Banana Pro와 같은 구글 모델의 연동 방안을 문의할 때, **"Provisioned Throughput (PT)"**는 자주 언급되면서도 가장 흔하게 오해받는 용어 중 하나입니다. 흔한 오해로는 "PT가 AI Studio의 기업용 버전인가요?", "PT는 Gemini API의 우선순위를 구매하는 것인가요?", "PT를 구매하면 단가가 할인되나요?" 등이 있습니다.
이 질문들에 대한 답은 직관적이지 않을 수 있습니다. 본 글에서는 Google Cloud Vertex AI의 최신 영문 공식 문서를 바탕으로 PT의 모든 것을 파헤쳐 보겠습니다. PT는 AI Studio가 아닌 Vertex AI 체계에 속하며, 측정 단위는 **GSU(Generative AI Scale Unit)**입니다. 또한, PT는 단가를 낮춰주는 것이 아니라 처리량의 우선순위를 보장하며, 이에 대응하는 종량제 메커니즘은 **DSQ(Dynamic Shared Quota)**라고 합니다.
이 개념들을 이해하면 기업용 PT 도입 여부를 정확히 평가할 수 있을 뿐만 아니라, 구글 직접 연동, PT 구독, 또는 APIYI(apiyi.com)와 같은 API 중계 서비스를 통한 연동 중 어떤 경로가 최선인지 합리적으로 선택할 수 있습니다.

Google Provisioned Throughput (PT)란 무엇인가
**Provisioned Throughput (PT)**는 Google Cloud Vertex AI 플랫폼에서 대규모 언어 모델을 위해 제공하는 고정 비용, 고정 기간의 처리량 예약 구독 서비스입니다. 핵심 논리는 기업이 일정 수준의 처리 능력을 미리 구매하기로 약정하면, 구글이 해당 기업을 위해 별도의 연산 자원을 예약하여 호출 처리량의 확실성과 우선순위를 보장해 주는 것입니다.
PT의 공식 정의 및 주요 특징
Google Cloud 공식 문서에 따르면 다음과 같습니다.
Provisioned Throughput은 Vertex AI에서 지원되는 대규모 언어 모델의 처리량을 예약하기 위해 여러 기간 옵션으로 제공되는 고정 비용, 고정 기간 구독 서비스입니다.
이 문장의 세 가지 핵심 키워드를 살펴보면 다음과 같습니다.
- Fixed-cost (고정 비용): 실제 호출량과 관계없이 약정 금액을 선불로 지불합니다.
- Fixed-term (고정 기간): 1주 / 1개월 / 3개월 / 1년 중 하나를 선택합니다.
- Reserves throughput (처리량 예약): '연산 자원' 자체가 아닌, '초당 토큰 처리 능력'을 예약하는 것입니다.
PT가 아닌 것: 3대 오해 바로잡기
| 흔한 오해 | 사실 확인 |
|---|---|
| "PT = AI Studio 기업용 버전" | ❌ PT는 Vertex AI 전용이며 AI Studio와는 직접적인 관련이 없습니다. |
| "PT를 구매하면 단가가 할인됨" | ❌ PT는 단가를 낮춰주지 않으며, 처리량 보장과 우선순위만 제공합니다. |
| "PT는 언제든 취소 가능" | ❌ 계약 후 기간 내 취소는 불가하며, GSU 추가만 가능합니다. |
| "PT는 GPU 독점 제공" | ❌ PT는 처리량 단위(GSU)를 예약하는 것이지 하드웨어를 독점하는 것이 아닙니다. |
| "PT는 모든 구글 모델에 적용" | ❌ 일부 모델만 지원하므로 지원 목록을 확인해야 합니다. |
💡 상황별 제안: 만약 핵심 목적이 "처리량 보장"이 아닌 "단가 절감"이라면 PT는 적합하지 않습니다. 이 경우 APIYI(apiyi.com)의 기업용 솔루션을 통해 Gemini 시리즈(Nano Banana Pro 포함)를 연동하는 것이 훨씬 경제적입니다. 공식 가격 대비 최대 37% 수준으로 이용 가능하며, 원화 결제 및 세금 계산서 발행도 지원합니다.
GSU (Generative AI Scale Unit) 계량 단위 상세 설명
PT(Provisioned Throughput)를 제대로 이해하려면 먼저 그 계량 단위인 GSU에 대해 알아야 합니다.
GSU의 공식 정의
GSU는 추상화된 처리 용량 단위입니다. PT를 지원하는 모든 Google 모델에서 가격과 용량은 고정되어 있지만, 모델마다 GSU를 소모하는 효율은 다릅니다. 즉:
- 1 GSU의 가격은 모든 모델에서 동일합니다.
- 1 GSU의 **용량(초당 토큰 처리량)**도 모든 모델에서 동일합니다.
- 하지만 동일한 GSU로 지원할 수 있는 모델의 실제 호출량은 모델마다 다릅니다.
GSU와 모델 간의 관계 예시
다음 표는 이해를 돕기 위한 예시입니다 (정확한 수치는 Google 공식 최신 데이터를 확인하세요):
| 모델 | 1 GSU 지원 처리량 | 설명 |
|---|---|---|
| Gemini 2.5 Flash-Lite | 높음 | 경량 모델, GSU당 더 많은 요청 처리 가능 |
| Gemini 2.5 Flash | 중간 | 균형 잡힌 성능, 주류 기업용 |
| Gemini 2.5 Pro | 낮음 | 플래그십 모델, GSU 소모량 높음 |
| Gemini 3 Pro | 가장 낮음 | 신규 플래그십, 요청당 GSU 점유율 높음 |
| Gemini 3 Pro Image | 이미지 크기별 환산 | 4K 단일 이미지가 1K보다 소모량 현저히 높음 |
즉, 여러 모델을 혼용하는 경우, GSU 풀을 공유하는 것이 아니라 각 모델별로 GSU 약정을 별도로 구매해야 합니다.
필요한 GSU 수량 산정 방법
Google에서 제공하는 공식 GSU 계산기가 있지만, 간단하게 계산하는 방법은 다음과 같습니다:
필요 GSU = (피크 QPS × 요청당 평균 토큰 수) / (1 GSU의 처리 용량)
실제 기업용 산정 단계:
- 과거 피크 QPS(초당 요청 수) 측정
- 요청당 평균 토큰 소모량(입력 + 출력) 측정
- 목표 모델의 GSU당 처리량 확인
- 올림 처리 후, 돌발 상황 대비 20~30%의 버퍼 확보
GSU의 최소 구매 단위 및 단계
PT 주문은 보통 일정 GSU 이상부터 구매 가능(모델 및 지역에 따라 다름)하며, 기업 계약 후에는 다음과 같이 운영됩니다:
- ✅ GSU 추가: 비즈니스 성장 시 언제든 약정량 증액 가능
- ❌ GSU 축소: 약정 기간 내에는 감축 불가
- ⚠️ 갱신 시 조정: 약정 기간 종료 전 규모 재평가 필요
Vertex AI vs AI Studio: PT 소속 관계 명확히 하기
많은 고객이 가장 혼동하는 부분입니다. Google은 두 개의 독립적인 생성형 AI 제품 라인을 운영하고 있습니다.

Vertex AI: 기업용 Google Cloud Platform 제품
- 소속: Google Cloud Platform (GCP)
- 대상: 기업, 대규모 개발팀, 규제 준수가 중요한 고객
- 과금: GCP 청구서를 통해 통합 결제, 종량제(DSQ) + 약정(PT) + 배치(Batch) 지원
- 콘솔: console.cloud.google.com → Vertex AI 메뉴
- API 경로:
*-aiplatform.googleapis.com - PT 지원: ✅ 예
- 지역별 배포: ✅ 글로벌 다중 지역 지원
AI Studio: 개발자 및 개인용 Gemini 입구
- 소속: Google AI for Developers (GCP와 독립적)
- 대상: 개인 개발자, 빠른 프로토타입 검증, 콘텐츠 크리에이터
- 과금: Google Pay 개인 결제 계정을 통한 종량제 결제
- 콘솔: aistudio.google.com
- API 경로:
generativelanguage.googleapis.com - PT 지원: ❌ 아니오
- 지역별 배포: ❌ 글로벌 통합 풀
두 서비스의 API 연동 코드 차이
AI Studio (Gemini Developer API):
from google import genai
client = genai.Client(api_key="AIzaSy-xxx") # AI Studio 개인 키
resp = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="오렌지색 고양이 한 마리"
)
Vertex AI:
from google import genai
client = genai.Client(
vertexai=True,
project="your-gcp-project", # GCP 프로젝트 ID
location="us-central1" # 지역
)
# 인증은 gcloud ADC / 서비스 계정을 통해 완료하며, API 키를 사용하지 않음
두 서비스는 모델명, 인증 방식, 과금 소속이 모두 다릅니다. 처음에 AI Studio의 API 키를 사용했다면 어떤 방법을 써도 PT를 구매할 수 없습니다. 반드시 GCP 프로젝트 내에서 Vertex AI를 활성화하고 서비스 계정(Service Account)을 통해 인증해야 합니다.
🎯 연동 제안: AI Studio와 Vertex AI의 경계, 서비스 계정 인증, 다중 지역 라우팅 등 복잡한 세부 사항을 직접 관리하고 싶지 않다면, **APIYI (apiyi.com)**를 통해 Gemini 전체 모델을 통합 연동하세요. OpenAI 호환 형식의
base_url+api_key를 사용하면, 계정 체계와 라우팅은 저희가 모두 처리해 드립니다.
DSQ (Dynamic Shared Quota) 종량제 메커니즘 상세 분석
DSQ는 Vertex AI의 기본 종량제 모델이며, 대다수 사용자가 실제로 이용하는 과금 방식입니다. DSQ를 제대로 이해해야만 PT(Provisioned Throughput)가 제공하는 우선순위의 가치를 체감할 수 있습니다.
DSQ의 핵심 메커니즘
With DSQ, there are no predefined quota limits on your usage. Instead, DSQ provides access to a large, shared pool of resources, dynamically allocated based on real-time availability of resources and real-time demand across all customers of that model.
핵심 포인트:
- 사전 할당량 없음: QIR(할당량 증설 요청)을 제출할 필요가 없습니다.
- 공유 리소스 풀: 모든 종량제 고객이 하나의 거대한 풀을 공유합니다.
- 동적 할당: 전 세계 고객의 실시간 수요에 따라 리소스가 재분배됩니다.
- 처리량 변동: 사용자가 몰리는 피크 타임에는 사용자별 처리량이 감소할 수 있습니다.
DSQ와 PT의 우선순위 관계
Google은 다음과 같이 명시하고 있습니다:
Provisioned Throughput customers are prioritized and serviced first before on-demand requests.
이것이 바로 PT의 핵심 가치입니다. Google의 요청 스케줄링 큐에서 우선적으로 처리된다는 점이죠. 구체적으로는 다음과 같습니다:
- PT 요청 → 전용 고우선순위 큐로 진입, 안정적인 응답 보장
- DSQ 요청 → 공유 풀로 진입, 피크 타임 시 속도 제한이나 대기 발생 가능
DSQ의 일반적인 제한 상황
PT를 구매하지 않은 기업은 다음과 같은 상황에서 어려움을 겪을 수 있습니다:
- 이커머스 대규모 할인 행사(0시 피크): 전 세계 공유 풀에 부하가 집중되어 P99 지연 시간이 두 배 이상 증가
- 라이브 방송 인터랙티브 이미지 생성: 실시간성이 중요한 경우 DSQ의 변동성을 감당하기 어려움
- 글로벌 비즈니스: 여러 지역에서 동시 호출 시, 지역별 DSQ 용량 차이 발생
- 신규 모델 출시 첫 주: Google 공식 할당량이 완전히 풀리지 않아 DSQ 리소스가 매우 타이트함
하지만 강조하고 싶은 점은: 월 호출량이 5만 회 미만이거나 이미지 생성량이 월 5만 장 미만인 중소기업의 경우, DSQ의 실제 안정성만으로도 충분하므로 PT 구매는 과잉 투자일 수 있습니다.
PT 약정 기간 옵션 및 구매 절차
PT의 약정 기간은 단기 테스트부터 장기 계약까지 다양한 시나리오를 고려하여 설계되었습니다.
4가지 약정 기간 비교
| 약정 기간 | 주요 시나리오 | 총 비용 비중 | 유연성 |
|---|---|---|---|
| 1주 | 단기 이벤트/대규모 프로모션 검증 | 기준 × 1 | 최고 |
| 1개월 | 안정적인 비즈니스 월간 계획 | ~기준 × 0.95 | 보통 |
| 3개월 | 분기별 비즈니스 약정 | ~기준 × 0.88 | 낮음 |
| 1년 | 장기 계약 + 예산 고정 | ~기준 × 0.75 | 최저 |
정확한 가격은 GCP 콘솔에 로그인 후 확인 가능하며, 지역과 모델에 따라 가격이 다릅니다.
PT 구매 단계

기업의 PT 구매 표준 절차:
- 수요 산정: Google 공식 GSU 계산기를 사용하여 필요한 용량 추정
- GCP 프로젝트 생성: Vertex AI API 활성화 및 서비스 계정 구성
- 구매 시작: GCP 콘솔 → Vertex AI → Provisioned Throughput 페이지에서 주문
- 매개변수 선택: 모델, 리전, GSU 수량, 약정 기간 선택
- 재무 승인: 달러 결제 가능 신용카드 또는 기업 ACH 결제
- 활성화: 일반적으로 영업일 기준 1~5일 내 활성화
- API 구성: 코드 내
provisioned_throughput_id매개변수를 추가하여 PT 채널로 전환
PT API 사용 예시
PT를 활성화한 후, 호출 코드에서 명시적으로 지정해야 합니다:
from google import genai
from google.genai import types
client = genai.Client(
vertexai=True,
project="your-gcp-project",
location="us-central1"
)
resp = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="주황색 고양이 한 마리",
config=types.GenerateContentConfig(
# PT 구독 ID를 지정하여 우선 채널로 요청 전송
labels={"dedicated-capacity": "your-pt-subscription-id"}
)
)
이 매개변수를 지정하지 않으면 계정에 PT 구독이 있더라도 요청은 DSQ 채널을 통해 처리됩니다.
PT의 세 가지 요금제 비교: PT vs DSQ vs Batch
Vertex AI는 세 가지 요금제를 제공합니다. 기업의 의사결정을 위해 각 요금제의 차이점을 명확히 파악하는 것이 중요합니다.
| 구분 | Provisioned Throughput (PT) | Dynamic Shared Quota (DSQ) | Batch API |
|---|---|---|---|
| 요금 모델 | 고정 선불 | 종량제 | 종량제 |
| 단가 | 종량제와 동일 | 공식 정가 | 50% 할인 |
| 우선순위 | 최고 (전용) | 공유 풀 | 최저 (24시간 윈도우) |
| 약정 | 주/월/분기/연 단위 | 없음 | 없음 |
| 지연 시간 | 안정적 (낮음) | 변동성 있음 | 24시간 비동기 |
| 적용 사례 | 고동시성 실시간 서비스 | 일상적인 범용 서비스 | 대규모 오프라인 작업 |
| 진입 장벽 | 수천 달러부터 | 무료 시작 | 무료 시작 |
조합 전략: PT + DSQ + Batch
성숙한 기업들은 대개 혼합 요금 아키텍처를 채택합니다.
- PT로 핵심 실시간 서비스 보장: 라이브 스트리밍 이미지 생성, 사용자 인터랙션 등
- DSQ로 일상 트래픽 대응: 핵심적이지 않은 대부분의 요청은 종량제로 처리
- Batch로 야간 대규모 작업 처리: 보고서 생성, 데이터 라벨링 등
⚡ 혼합 아키텍처 제안: 팀 규모가 작아 복잡한 멀티 채널 아키텍처 구축이 부담스럽다면, APIYI(apiyi.com)를 통해 통합 연결하는 것을 추천합니다. 저희는 백엔드에서 이미 지능형 라우팅을 구현했습니다. 긴급 요청은 VIP 채널로, 배치 작업은 Batch 채널로, 일상 호출은 표준 채널로 자동 분기됩니다. 상위 레이어는 신경 쓸 필요 없이 단일 API 키 하나로 혼합 전략의 이점을 누릴 수 있습니다.
PT 적용 및 미적용 사례 상세 평가
PT 구매가 정말 필요한 4가지 유형의 기업

사례 1: 고동시성 실시간 서비스
이커머스 대규모 할인 행사, 숏폼 플랫폼, 라이브 스트리밍 인터랙션 등 초당 요청 수(RPS)가 50을 넘는 경우, DSQ는 속도 제한이 걸릴 수 있어 PT로 보장받아야 합니다.
사례 2: P99 지연 시간 핵심 지표
사용자 인터랙션 SLA에서 P99 첫 패킷 지연 시간이 10초 미만이어야 하는 경우(예: 실시간 AI 드로잉 도구), DSQ의 P99는 보통 15~30초로 요구사항을 충족하지 못합니다.
사례 3: 월 소비 임계값 초과
월 소비액이 5만 달러를 넘으면 PT의 고정 약정 비용이 규모의 경제로 인해 희석되어 단위 비용이 DSQ보다 낮아질 수 있습니다. 이때 PT를 구매하는 것이 비용 절감과 안정성 확보에 유리합니다.
사례 4: 강력한 규제 및 컴플라이언스 격리
금융, 의료 등 산업군에서 전용 리소스 풀과 컴플라이언스 준수를 요구할 때, PT는 명확한 처리량 격리를 보장합니다.
PT에 적합하지 않은 5가지 사례
- 월 호출량 5만 회 미만: PT 고정 비용 대비 효율이 낮아 종량제가 훨씬 경제적입니다.
- 업무량 변동이 심함: 선불 약정 시 유휴 리소스가 발생해 낭비될 수 있습니다.
- 단가 인하만 목적: PT는 단가를 낮춰주지 않습니다. 이 경우 API 중계 서비스의 협상 채널을 이용하세요.
- 다양한 모델 혼용: 모델마다 독립적인 GSU 약정이 필요해 운영이 복잡해집니다.
- 중소 규모 팀: 장기적인 달러 계약을 감당할 재무 및 운영 역량이 부족한 경우입니다.
PT가 적합하지 않은 유형이라면, APIYI(apiyi.com)를 통해 Gemini 전 모델을 기업용 할인가(공식가 대비 최대 63% 할인)로 이용하세요. 충전 시 추가 증정 혜택(최대 20%)까지 더하면 실제 단가는 구글 공식가의 약 32% 수준까지 낮아져, 더 낮은 가격으로 충분히 만족스러운 안정성을 확보할 수 있습니다.
자주 묻는 질문 (FAQ)
Q1: 이미 AI Studio에서 Gemini API 키로 개발 중인데, PT를 구매할 수 있나요?
아니요, 불가능합니다. AI Studio(Gemini Developer API)와 Vertex AI는 서로 독립적인 체계이며, PT는 Vertex AI에만 해당합니다. PT를 사용하려면 반드시 다음 과정을 거쳐야 합니다: ① GCP 프로젝트 생성 및 Vertex AI 활성화, ② Vertex AI의 서비스 계정 인증 방식으로 마이그레이션, ③ 일부 API 호출 코드 재작성. 이러한 마이그레이션 과정을 건너뛰고 싶다면, APIYI(apiyi.com)를 통해 OpenAI와 호환되는 base_url로 Gemini를 호출하세요. 복잡한 계정 체계를 신경 쓸 필요가 없습니다.
Q2: PT를 구매하면 종량제보다 단가가 저렴해지나요?
단가는 동일하지만, '100만 토큰당' 총비용으로 환산하면 대규모 사용 시 종합 비용이 더 낮아질 수 있습니다. 구체적인 메커니즘은 다음과 같습니다: PT는 고정 월간 약정 요금제입니다. 만약 GSU 용량을 모두 충분히 활용한다면 실제 유효 단가는 DSQ의 약 80~95% 수준이 되지만, 활용도가 낮으면 오히려 더 비싸집니다. PT의 가치는 비용 절감보다는 처리량 보장, 지연 시간 안정성, 높은 우선순위에 있습니다.
Q3: PT를 중간에 취소하거나 GSU 수량을 줄일 수 있나요?
아니요. 계약이 체결되면 약정 기간 내에는 취소하거나 GSU 수량을 줄일 수 없습니다. 주기 종료 시점에 갱신 여부만 결정할 수 있습니다. 유일하게 허용되는 변경 사항은 **GSU 추가(비즈니스 확장 시)**뿐입니다. 이것이 PT의 가장 큰 리스크이므로, 선불 약정은 반드시 보수적인 사용량 추정에 기반해야 합니다.
Q4: Gemini 3 Pro Image (Nano Banana Pro)는 PT를 지원하나요?
2026년 4월 기준, Google 공식 지원 목록에 따르면 Gemini 3 Pro 시리즈 모델(gemini-3-pro-image-preview 포함)은 Provisioned Throughput을 지원합니다. 단, 이미지 모델의 GSU 소모량은 이미지 크기와 토큰으로 환산되므로, 4K 이미지는 1K 이미지보다 요청당 GSU 점유율이 훨씬 높다는 점을 유의해야 합니다. 구체적인 소모 계수는 Google 공식 데이터를 기준으로 합니다. 비용을 빠르게 비교하고 싶다면 APIYI(apiyi.com) 영업팀에 문의하여 기업용 요금 비교표를 받아보세요.
Q5: GCP 계정이나 해외 신용카드가 없는데, PT와 유사한 우선 채널을 이용할 수 있나요?
네, 가능합니다. APIYI(apiyi.com) 기업 솔루션은 다중 계정 통합 + VIP 전용 큐를 통해 유사한 우선 채널 효과를 제공합니다. 국내 사업자 등록증과 원화 계좌 이체만으로 이용할 수 있습니다. 기업용 채널의 P99 지연 시간은 Google의 기본 종량제 채널과 비슷하며, 월간 이미지 처리량이 5만 장 미만인 고객에게는 충분합니다. 비용은 공식 종량제 가격의 32~37% 수준입니다.
Q6: PT와 Google Batch API를 함께 사용할 수 있나요?
네, 가능합니다. Batch API는 독립적인 비동기 채널을 사용하므로 PT/DSQ와 충돌하지 않습니다. 성숙한 아키텍처는 이 세 가지를 결합합니다: 실시간 핵심 요청은 PT, 일상적인 요청은 DSQ, 야간 대량 작업은 Batch(50% 할인 적용)를 사용합니다. 이러한 '3채널 혼합' 방식은 전체 비용 효율성을 극대화할 수 있습니다.
요약
본문의 핵심 질문으로 돌아가 보겠습니다. Google Provisioned Throughput(PT)이란 무엇이며, 어떤 체계에 속할까요?
간단한 답변은 다음과 같습니다: PT는 Google Cloud Vertex AI(GCP) 산하의 기업용 처리량 예약 구독 서비스입니다. **GSU(Generative AI Scale Unit)**를 단위로 하며, 1주/1개월/3개월/1년의 약정 기간을 제공합니다. 약정 기간 동안 단가는 낮아지지 않지만, 스케줄링 우선순위와 안정적인 처리량을 보장합니다. 이는 AI Studio(generativelanguage.googleapis.com)와는 무관하며, 종량제인 DSQ(Dynamic Shared Quota) 메커니즘과 함께 '우선순위 vs 공유'의 이원적 구조를 형성합니다.
대다수의 중소기업, 개인 개발자 및 콘텐츠 크리에이터에게 PT의 진입 장벽과 약정 기간은 너무 높습니다. 더 실용적인 방법은 APIYI(apiyi.com)와 같은 통합 플랫폼을 통해 Gemini 전 모델을 접속하는 것입니다. 이를 통해 더 저렴한 가격(37% 수준)으로 기업급 안정성을 누리면서, 해외 계정 생성, 국제 결제, 영문 규정 준수 등 복잡한 문제를 피할 수 있습니다.
비즈니스 규모가 PT의 4대 적용 기준(높은 동시성, 낮은 P99, 월 소비액 >$50K, 강력한 규제) 중 하나를 충족할 때만 PT를 연구하고 도입하는 것이 합리적인 선택입니다.
📌 작성자: 본 내용은 APIYI(apiyi.com) 기업 솔루션 팀이 정리했으며, Google Cloud Vertex AI 공식 영문 문서 및 2026년 4월 최신 기업 정책을 기반으로 합니다. 귀하의 비즈니스가 PT에 적합한지, 혹은 통합 접속이 적합한지 빠르게 평가하고 싶다면 공식 홈페이지의 비즈니스 문의를 통해 1:1 분석을 요청해 주세요.
