저자 주: Nano Banana 2에서 response_modalities를 IMAGE(이미지만 반환)로 설정했을 때의 Token 소비 차이를 심층 분석합니다. 이미지/텍스트/사고 세 가지 유형의 Token 과금 규칙을 분해하고, 최적의 비용 절감 설정 방안을 제시합니다.

Nano Banana 2로 이미지를 생성할 때, response_modalities 매개변수는 두 가지 방식으로 설정할 수 있습니다: ["Text", "Image"](기본값)와 ["Image"](이미지만). 자연스럽게 드는 질문은: 이미지만 반환하도록 설정하면, 얼마나 많은 Token과 비용을 절약할 수 있을까요?
핵심 가치: 이 글을 읽고 나면, Nano Banana 2의 세 가지 출력 Token(이미지/텍스트/사고)의 과금 규칙을 완전히 이해하게 되고, response_modalities=["Image"] 설정이 실제로 얼마나 비용을 절감하는지, 그리고 진정으로 효과적인 비용 절감 전략이 무엇인지 명확히 알게 될 것입니다.
Nano Banana 2의 세 가지 출력 토큰 과금 규칙
Nano Banana 2의 출력 과금은 단순히 '한 가지 가격'이 아니라, 세 가지 유형으로 독립적으로 책정되는 토큰으로 나뉩니다:
| 토큰 유형 | 과금 단가 | 설명 | 매개변수로 제거 가능 여부 |
|---|---|---|---|
| 이미지 출력 토큰 | $60.00 / M 토큰 | 이미지 생성에 소비되는 토큰, 총 비용의 95%+ 차지 | ❌ 불가능 (핵심 산출물) |
| 텍스트 출력 토큰 | $3.00 / M 토큰 | 이미지에 첨부된 텍스트 설명/설명문 | ✅ ["Image"] 설정으로 제거 가능 |
| 사고 토큰 (Thinking) | $3.00 / M 토큰 | 모델 내부 추론 과정 소비 | ❌ 항상 발생, 비활성화 불가 |
| 입력 토큰 | $0.50 / M 토큰 | 여러분의 프롬프트 텍스트와 참조 이미지 | ⚠️ 프롬프트 길이 최적화 가능 |
Nano Banana 2 이미지 토큰이 비용의 절대적 대부분을 차지합니다
핵심 숫자: 이미지 출력 토큰의 단가는 $60/M인 반면, 텍스트와 사고 토큰의 단가는 $3/M에 불과합니다. 이미지 토큰이 20배 더 비쌉니다.
| 해상도 | 이미지 출력 토큰 | 이미지 비용 | 총 출력 비용 대비 비율 |
|---|---|---|---|
| 512px | ~747 | ~$0.045 | ~95% |
| 1K (기본값) | ~1,120 | ~$0.067 | ~96% |
| 2K | ~1,680 | ~$0.101 | ~97% |
| 4K | ~2,520 | ~$0.151 | ~97% |
🔑 핵심 결론: 이미지 토큰이 총 출력 비용의 **95-97%**를 차지합니다. 텍스트와 사고 토큰을 합쳐도 3-5%에 불과하죠. 따라서 텍스트 출력을 완전히 제거하더라도 절약되는 비용은 매우 제한적입니다.
response_modalities 두 가지 설정의 토큰 비교

["Text", "Image"] 설정 — 기본 모드
기본적으로 Nano Banana 2는 이미지와 텍스트 설명을 함께 반환합니다. 모델은 먼저 '사고(Thinking)' 과정을 거친 후, 텍스트 설명과 이미지를 출력합니다.
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-3.1-flash-image-preview",
contents="우주복을 입은 고양이를 생성해줘",
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"], # 기본: 텍스트+이미지
)
)
출력 내용: 텍스트 설명 (예: "이것은 우주복을 입은 주황 고양이입니다…") + 이미지 1장
토큰 소비 구성 (1K 해상도 기준):
- 사고 토큰: ~200-800 (프롬프트 복잡도에 따라 다름)
- 텍스트 출력 토큰: ~50-200
- 이미지 출력 토큰: ~1,120
["Image"] 설정 — 이미지 전용 모드
텍스트 설명 없이 이미지만 반환하도록 설정합니다.
response = client.models.generate_content(
model="gemini-3.1-flash-image-preview",
contents="우주복을 입은 고양이를 생성해줘",
config=types.GenerateContentConfig(
response_modalities=["Image"], # 이미지만, 텍스트 반환 안 함
)
)
출력 내용: 이미지 1장만, 텍스트 설명 없음
토큰 소비 구성 (1K 해상도 기준):
- 사고 토큰: ~200-800 (여전히 발생, 여전히 과금됨)
- 텍스트 출력 토큰: 0 (제거됨 ✅)
- 이미지 출력 토큰: ~1,120 (변화 없음)
Nano Banana 2 두 모드의 비용 비교
| 비교 항목 | ["Text", "Image"] 기본 | ["Image"] 이미지 전용 | 차이 |
|---|---|---|---|
| 이미지 토큰 (~1,120) | $0.0672 | $0.0672 | 0 (변화 없음) |
| 사고 토큰 (~500) | $0.0015 | $0.0015 | 0 (변화 없음) |
| 텍스트 토큰 (~100) | $0.0003 | $0 | $0.0003 절약 |
| 단일 이미지 총 비용 (1K) | ~$0.069 | ~$0.069 | ~0.4% 절약 |
⚠️ 결론:
response_modalities=["Image"]설정은 텍스트 출력 토큰을 제거할 수 있지만, 텍스트 토큰의 단가가 $3/M에 불과하고 수량도 매우 적기 때문에(약 50-200개), 실제로 이미지당 약 $0.0001-$0.0006만 절약되며 거의 무시할 수 있는 수준입니다.
Nano Banana 2에서 Thinking Token을 생략할 수 없는 이유
Nano Banana 2의 비용 계산에서 가장 간과하기 쉬운 점입니다: 사용자가 사고 과정을 보든 보지 않든, Thinking Token은 항상 생성되며 항상 비용이 청구됩니다.
Google 공식 문서는 명확히 설명합니다:
includeThoughts가true로 설정되었든false로 설정되었든, 기본적으로 사고 과정은 항상 발생하므로 Thinking Token은 청구됩니다.
즉:
includeThoughts=True: 사고 과정을 볼 수 있으며, 비용 청구됨includeThoughts=False: 사고 과정을 볼 수 없지만, 여전히 비용 청구됨- Thinking Token의 청구 요율: $3/M (텍스트 출력과 동일)
Nano Banana 2는 두 가지 Thinking 레벨을 지원합니다:
| Thinking 레벨 | 설정 방법 | 소모되는 Thinking Token | 이미지 품질 | 추천 사용 시나리오 |
|---|---|---|---|---|
| minimal | 기본값 | ~200-500개 | 대부분의 상황에 충분함 | 일상적인 이미지 생성 |
| high | thinking_level="high" |
~500-2000개 | 복잡한 상황에서 더 좋음 | 다중 캐릭터/정밀한 구도 |
💡 최적화 팁: 극도의 화질이 필요하지 않다면, 기본값인
minimal사고 레벨을 유지하세요.high레벨은 수백에서 수천 개의 Thinking Token을 추가로 소모하며, 단가($3/M)는 낮지만 대량 처리 시에는 상당한 비용이 될 수 있습니다.
Nano Banana 2에서 실제로 효과적인 비용 절감 전략
response_modalities=["Image"] 설정으로는 큰 비용을 절감할 수 없다면, 어떤 전략이 실제로 효과가 있을까요?
| 비용 절감 전략 | 절감 비율 | 구체적인 방법 | 추천도 |
|---|---|---|---|
| 적절한 해상도 선택 | 최대 70% | 4K→512px 변경 시 비용 $0.151에서 $0.045로 감소 | ⭐⭐⭐⭐⭐ |
| APIYI 회당 결제 사용 | 최대 70% | $0.045/장 (4K 포함), 해상도 구분 없음 | ⭐⭐⭐⭐⭐ |
| APIYI 사용량 결제 사용 | 최대 63% | 저해상도 기준 $0.018/장 (512px) | ⭐⭐⭐⭐⭐ |
| Google Batch API 사용 | 50% | 오프라인 배치 처리, 이미지 Token 반값 | ⭐⭐⭐⭐ |
| Thinking minimal 유지 | 2-5% | 기본 사고 레벨 유지 | ⭐⭐⭐ |
| response_modalities=["Image"] 설정 | ~0.4% | 텍스트 출력 제거 | ⭐ |
Nano Banana 2: 다양한 해상도별 플랫폼 가격 비교
| 해상도 | Google 공식 | APIYI 회당 결제 | APIYI 사용량 결제 | 최대 절감율 |
|---|---|---|---|---|
| 512px | $0.045 | $0.045 | $0.018 | 60% |
| 1K | $0.067 | $0.045 | $0.025 | 63% |
| 2K | $0.101 | $0.045 | $0.03 | 70% |
| 4K | $0.151 | $0.045 | $0.045 | 70% |
🎯 최적의 실전 방법: 비즈니스에서 4K 대신 1K 해상도를 사용할 수 있다면, 바로 55%를 절약할 수 있습니다. 여기에 APIYI apiyi.com의 사용량 결제를 결합하면, 1K 해상도가 장당 $0.025로, 공식 4K 가격인 $0.151 대비 83%를 절약할 수 있습니다. 또한 플랫폼은 무료 이미지 생성 테스트 도구 AI 이미지 마스터: imagen.apiyi.com 을 제공하여, 코드 작성 없이도 다양한 해상도의 효과를 빠르게 검증할 수 있습니다.
APIYI를 통해 Nano Banana 2를 호출하는 최적의 설정
종합적으로 분석한 결과, 권장하는 최적의 설정은 다음과 같습니다:
import requests
import base64
API_KEY = "your-apiyi-api-key"
ENDPOINT = "https://api.apiyi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent"
headers = {
"Content-Type": "application/json",
"x-goog-api-key": API_KEY
}
payload = {
"contents": [{"parts": [{"text": "우주복을 입은 고양이, 디지털 아트 스타일"}]}],
"generationConfig": {
"responseModalities": ["IMAGE"], # 이미지만 반환, 텍스트 토큰 절약
"imageConfig": {
"aspectRatio": "1:1",
"imageSize": "1K" # 필요에 따라 해상도 선택, 이게 비용 절감의 핵심입니다
}
}
}
response = requests.post(ENDPOINT, headers=headers, json=payload, timeout=120)
result = response.json()
image_data = result["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
with open("output.png", "wb") as f:
f.write(base64.b64decode(image_data))
추천: APIYI apiyi.com을 통해 Nano Banana 2를 호출하면, 횟수별 요금은 해상도 구분 없이 $0.045/장, 사용량별 요금은 최저 $0.018/장입니다. Google 네이티브 형식 호출을 지원하여 마이그레이션 비용이 전혀 들지 않습니다.
자주 묻는 질문
Q1: response_modalities=[“Image”] 설정 후에도 생각(Thinking) 토큰이 생성되나요?
네, 생성됩니다. Nano Banana 2의 생각 과정(Thinking)은 기본적으로 활성화되어 있으며 비활성화할 수 없습니다. response_modalities를 ["Image"]로 설정하든 ["Text", "Image"]로 설정하든, 그리고 includeThoughts를 true로 하든 false로 하든, 생각 토큰은 항상 생성되어 요금이 부과됩니다. 다행히 생각 토큰은 텍스트 요금인 $3/M으로 청구되며, 이미지 토큰 요금인 $60/M보다 훨씬 저렴합니다.
Q2: 그렇다면 [“Image”]를 설정하는 의미는 무엇인가요?
주로 두 가지 가치가 있습니다: 첫째, 네트워크 전송량을 줄여줍니다. 텍스트 내용을 반환하지 않으므로 응답을 더 빠르게 파싱할 수 있습니다. 둘째, 코드 로직을 단순화합니다. 텍스트 부분을 추가로 처리할 필요가 없습니다. 비용 절감 효과는 1% 미만이지만, 순수 이미지 출력이 필요한 시나리오(예: 대량의 소재 생성)에서는 바로 이미지를 받는 것이 더 편리합니다.
Q3: APIYI의 횟수별 요금과 사용량별 요금 중 어느 것이 더 합리적일까요?
주로 사용하는 해상도에 따라 다릅니다. 횟수별 요금은 해상도 구분 없이 $0.045/장으로, 2K/4K와 같은 고해상도 이미지를 자주 생성하는 경우에 적합합니다. 사용량별 요금은 토큰 소비량에 따라 유연하게 가격이 책정되며, 저해상도(512px) 이미지는 단 $0.018/장에 생성할 수 있어 대량의 저해상도 이미지를 생성하는 경우에 적합합니다. APIYI apiyi.com에 등록하면 두 가지 요금 모드를 모두 사용할 수 있습니다.
요약
Nano Banana 2의 response_modalities 과금 분석 핵심 포인트:
- 이미지 토큰이 절대적인 대부분을 차지합니다: $60/M의 단가가 총 출력 비용의 95-97%를 차지하며, 텍스트와 사고 토큰을 합쳐도 3-5%에 불과합니다.
["Image"]로 설정해도 많이 절약되지 않습니다: 텍스트 출력 토큰만 제거되므로, 이미지당 약 $0.0003(0.5% 미만)만 절약됩니다.- 사고 토큰은 제거할 수 없습니다: 항상 생성되고 과금되며, $3/M 요율로
response_modalities설정과 무관합니다. - 진정한 비용 절감은 해상도와 플랫폼을 통해 가능합니다: 적절한 해상도를 선택하면 70%를 절약할 수 있으며, APIYI를 사용하면 추가로 63%를 절약할 수 있습니다.
Nano Banana 2 호출은 APIYI apiyi.com을 통해 추천합니다. 회당 $0.045/장(4K, 해상도 무제한)이며, 사용량 기반 과금 시 최저 $0.018/장까지 가능합니다. 플랫폼은 동시 호출을 제한하지 않으며, Google 네이티브 형식 호출을 지원하고, 무료 이미지 생성 도구 imagen.apiyi.com을 함께 제공합니다.
📚 참고 자료
-
Google Gemini API 가격 페이지: Nano Banana 2 공식 토큰 가격표
- 링크:
ai.google.dev/gemini-api/docs/pricing - 설명: 이미지/텍스트/사고 세 가지 토큰의 최신 가격 확인
- 링크:
-
Google AI 이미지 생성 문서:
response_modalities매개변수 설명- 링크:
ai.google.dev/gemini-api/docs/image-generation - 설명:
["Image"]와["Text","Image"]두 가지 모드의 구성 방식에 대한 공식 문서 설명
- 링크:
-
Google AI 토큰 카운팅 문서: 토큰 구성 및 과금 이해
- 링크:
ai.google.dev/gemini-api/docs/tokens - 설명: 이미지 출력 토큰 수와 해상도의 관계 이해
- 링크:
-
APIYI Nano Banana 2 문서: 회당/사용량 기반 두 가지 과금 모드 상세 정보
- 링크:
docs.apiyi.com/en/api-capabilities/nano-banana-2-image - 설명: APIYI 플랫폼의 과금 방안 및 호출 방식 설명
- 링크:
작성자: APIYI 기술 팀
기술 교류: 댓글로 의견을 나누어 주세요. 더 많은 자료는 APIYI docs.apiyi.com 문서 센터에서 확인하실 수 있습니다.
