|

Gemini 3.1 Pro 출력 토큰이 왜 이렇게 클까? 3단계로 이해하는 추론 모델의 숨겨진 Thinking Tokens

저자 주: Gemini 3.1 Pro Preview의 출력 토큰이 보이는 글자 수를 훨씬 초과하는 이유 상세 설명: Thinking Tokens 추론 체인 메커니즘, 과금 규칙, thinking_level 파라미터 조정을 통한 비용 절감 팁

"저는 한 문장만 보냈고, 모델도 열 몇 자만 답변했는데, 왜 출력 토큰이 거의 900개로 표시되나요? 돈은 어디로 간 거죠?" — 많은 개발자들이 Gemini 3.1 Pro Preview를 처음 사용할 때 느끼는 진짜 고민입니다. 스크린샷의 데이터도 이 현상을 명확히 보여줍니다: 입력은 13 토큰인데, 출력은 무려 898 토큰에 달하네요.

정답은 바로 Thinking Tokens(추론 토큰)입니다. Gemini 3.1 Pro는 추론 모델로, 여러분에게 답변하기 전에 '머릿속'에서 긴 사고 과정(추론)을 먼저 수행합니다. 이 추론 내용은 기본적으로 여러분에게 보여지지 않지만, 출력 토큰으로 계산되어 정상적으로 과금됩니다.

핵심 가치: 이 글을 읽고 나면, 추론 모델의 Thinking Tokens 메커니즘을 완전히 이해하게 되고, thinking_level 파라미터로 추론 깊이를 제어하는 법을 배워 품질을 보장하면서 출력 토큰 비용의 50-80%를 절약할 수 있습니다.

gemini-3-1-pro-thinking-tokens-output-high-explained-ko 图示


Gemini 3.1 Pro Thinking Tokens 핵심 포인트

추론 모델과 일반 대화 모델의 가장 큰 차이는 출력 토큰의 구성이 완전히 다르다는 점입니다. 이해해야 할 핵심 개념은 다음과 같습니다:

포인트 설명 실제 영향
출력 토큰 = 생각 + 답변 Gemini 3.1 Pro의 출력 토큰은 Thinking Tokens(추론 체인)과 실제 답변 두 부분을 포함합니다 보이는 글자는 적지만 총 토큰 수는 높습니다
Thinking Tokens 정상 과금 추론 과정은 보이지 않지만 출력 토큰 가격으로 과금됩니다($12/백만 토큰) 간단한 질문도 일반 모델보다 5-10배 비쌀 수 있습니다
thinking_level 조정 가능 LOW/MEDIUM/HIGH 세 단계의 추론 깊이 제어를 지원합니다 LOW 단계에서 출력 토큰 80% 이상 절약 가능
비추론 모델은 이 문제 없음 GPT-4o, Claude Sonnet 4.6(Extended Thinking 비활성화) 등 모델은 보이는 대로 과금됩니다 간단한 작업은 비추론 모델이 더 경제적입니다

Gemini 3.1 Pro Thinking Tokens의 실제 소비 사례

스크린샷의 예시로 돌아가 보겠습니다. 사용자가 간단한 질문을 보냈고, 모델은 열 몇 자 정도 답변했지만, 출력 토큰은 891-898개로 표시됩니다. 이 토큰들의 구성은 대략 다음과 같습니다:

  • 보이는 답변: 약 30-50 토큰(여러분이 본 그 열 몇 자)
  • Thinking Tokens: 약 840-860 토큰(모델 내부의 추론 과정)

즉, 출력 토큰의 95% 이상은 여러분이 볼 수 없습니다. 이 토큰들은 모델의 추론 체인에서 소비된 거죠. 마치 여러분이 수학 선생님께 "1+1은 얼마예요?"라고 물었을 때, 선생님은 입으로는 "2입니다"라고만 말했지만, 머릿속에서는 "이건 기초 산수 문제구나, 덧셈 연산이 필요해…"라고 생각한 것과 같습니다. 그리고 여러분은 선생님의 전체 사고 과정에 대해 비용을 지불하는 거죠.

이 메커니즘은 버그가 아니라 추론 모델의 설계 특성입니다. Gemini 3.1 Pro가 복잡한 문제에서 더 나은 성능을 보이는 이유(MATH 벤치마크 95.1%, ARC-AGI-2 77.1% 달성)는 바로 답변하기 전에 깊이 있는 추론을 수행하기 때문입니다.

gemini-3-1-pro-thinking-tokens-output-high-explained-ko 图示


추론 모델과 일반 모델의 본질적 차이

일반 모델(예: GPT-4o)은 여러분의 질문을 받으면 바로 답변을 생성합니다. 여러분이 보는 글자 수만큼 출력 토큰이 소비됩니다. 이것이 바로 '보는 대로 지불'입니다.

추론 모델(예: Gemini 3.1 Pro Preview)은 질문을 받으면 먼저 내부 추론 체인(Chain of Thought)을 생성한 후, 그 추론 결과를 바탕으로 최종 답변을 생성합니다. 여러분이 보는 것은 최종 답변뿐이지만, 요금은 '추론 체인 + 답변'의 총 토큰 수로 청구됩니다.

모델 유형 대표 모델 출력 토큰 구성 간단한 문제 비용 복잡한 문제 장점
일반 모델 GPT-4o, Claude Sonnet 4.6 100% 보이는 답변 낮음(보는 대로 지불) 추론 능력 일반적
추론 모델 Gemini 3.1 Pro, GPT-5.4 Thinking 추론 체인 + 보이는 답변 높음(5-10배 이상) 복잡한 추론 능력 강함
전환 가능 모델 Claude Sonnet 4.6(Extended Thinking) 추론 활성화 선택 가능 유연한 전환 필요에 따라 추론 활성화

Gemini 3.1 Pro Thinking Tokens의 3가지 핵심 세부사항

세부사항 1: Thinking Tokens의 요금 청구 방식. Google 공식 문서에 따르면, Thinking Tokens는 출력 토큰의 표준 가격으로 청구됩니다. Gemini 3.1 Pro의 출력 토큰 가격은 $12/백만 토큰입니다. 모델이 4000개의 토큰으로 추론하고, 500개의 토큰으로 답변할 때, 여러분은 4500개의 출력 토큰에 대해 비용을 지불해야 합니다—500개가 아닙니다.

세부사항 2: API 응답에서 구분하는 방법. Gemini API 응답에서 usage_metadata 필드는 thoughts_token_count(추론 토큰 수)와 candidates_token_count(총 출력 토큰 수)를 각각 반환합니다. 하지만 주의할 점: Gemini API의 candidatesTokenCount는 Thinking Tokens를 포함하지만, Vertex AI의 candidatesTokenCount는 포함하지 않습니다.

세부사항 3: 추론 체인 내용은 기본적으로 보이지 않습니다. includeThoughts: true를 설정하여 추론 과정의 요약(전체 추론 체인이 아님)을 얻을 수 있으며, Cherry Studio와 같은 도구에서 추론 체인 표시 기능을 켜 모델의 사고 과정을 볼 수도 있습니다.

🎯 비용 절약 팁: 단순한 대화나 번역 작업처럼 깊은 추론이 필요하지 않은 경우, 일반 모델(예: GPT-4o-mini 또는 Claude Sonnet 4.6)로 전환하는 것이 좋습니다. APIYI apiyi.com은 model 매개변수 하나만 수정하면 모델을 전환할 수 있도록 지원하며, 다른 코드를 변경할 필요가 없습니다.


Gemini 3.1 Pro Thinking Tokens 최적화: 3가지 비용 절약 전략

전략 1: thinking_level 매개변수를 사용해 추론 깊이 제어하기

Gemini 3.1 Pro는 thinking_level 매개변수를 제공하며, LOW, MEDIUM, HIGH 세 단계를 지원합니다. 각 단계별 토큰 소비량 차이는 매우 큽니다:

thinking_level 추론 깊이 토큰 소비 적용 시나리오 HIGH 대비
LOW 얕은 추론 최소 번역, 분류, 간단한 질문답변 약 80%+ 절약
MEDIUM 균형 추론 중간 일상적인 프로그래밍, 문서 생성, 일반 분석 약 50% 절약
HIGH 심층 추론 최대 수학적 유도, 과학 문제, 복잡한 논리 기준선

다음은 thinking_level을 설정하는 코드 예시입니다:

import openai

client = openai.OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://vip.apiyi.com/v1"
)

# 간단한 작업에는 LOW를 사용해 Thinking Tokens 크게 줄이기
response = client.chat.completions.create(
    model="gemini-3.1-pro-preview",
    messages=[{"role": "user", "content": "把这句话翻译成英文:今天天气真好"}],
    extra_body={"thinking_level": "LOW"}  # LOW / MEDIUM / HIGH
)
print(response.choices[0].message.content)
print(f"总输出 Token: {response.usage.completion_tokens}")

전체 스마트 라우팅 코드 보기 (문제 복잡도에 따라 추론 깊이 자동 선택)
import openai
import json

def smart_gemini_call(
    prompt: str,
    complexity: str = "auto",
    api_key: str = "YOUR_API_KEY"
) -> dict:
    """
    Gemini 3.1 Pro를 스마트하게 호출하여 작업 복잡도에 따라 추론 깊이 자동 선택

    Args:
        prompt: 사용자 입력
        complexity: "low" / "medium" / "high" / "auto"
        api_key: API 키
    Returns:
        답변과 토큰 사용 통계를 포함한 딕셔너리
    """
    client = openai.OpenAI(
        api_key=api_key,
        base_url="https://vip.apiyi.com/v1"
    )

    # 복잡도 자동 판단
    if complexity == "auto":
        simple_keywords = ["翻译", "translate", "分类", "classify", "总结", "summarize"]
        complex_keywords = ["推导", "证明", "计算", "分析", "比较", "为什么"]
        prompt_lower = prompt.lower()

        if any(kw in prompt_lower for kw in simple_keywords):
            thinking_level = "LOW"
        elif any(kw in prompt_lower for kw in complex_keywords):
            thinking_level = "HIGH"
        else:
            thinking_level = "MEDIUM"
    else:
        thinking_level = complexity.upper()

    response = client.chat.completions.create(
        model="gemini-3.1-pro-preview",
        messages=[{"role": "user", "content": prompt}],
        extra_body={"thinking_level": thinking_level}
    )

    return {
        "answer": response.choices[0].message.content,
        "thinking_level": thinking_level,
        "input_tokens": response.usage.prompt_tokens,
        "output_tokens": response.usage.completion_tokens,
        "total_tokens": response.usage.total_tokens
    }

# 사용 예시
# 간단한 작업 → LOW 자동 선택
result = smart_gemini_call("翻译:今天天气真好")
print(f"推理深度: {result['thinking_level']}, 输出Token: {result['output_tokens']}")

# 복잡한 작업 → HIGH 자동 선택
result = smart_gemini_call("证明勾股定理的至少两种方法")
print(f"推理深度: {result['thinking_level']}, 输出Token: {result['output_tokens']}")

제안: APIYI apiyi.com을 통해 Gemini 3.1 Pro를 호출할 때 thinking_level 매개변수를 전달할 수 있습니다. 일상적인 사용에는 MEDIUM으로 설정하고, 수학/과학 등 복잡한 추론 시나리오에서만 HIGH를 사용하는 것을 권장합니다.

전략 2: 간단한 작업에는 비추론 모델 직접 사용하기

모든 시나리오에 추론 모델이 필요한 것은 아닙니다. 번역, 형식 변환, 간단한 질문답변과 같은 작업에는 비추론 모델을 사용하면 5-10배의 토큰 비용을 절약할 수 있습니다:

  • GPT-4o-mini: 가성비가 매우 뛰어나며, 일상 대화에 최적
  • Claude Sonnet 4.6(Extended Thinking 비활성화): 출력 품질이 높고, 토큰이 보이는 대로 지불
  • Gemini 3.1 Flash: Google의 경량 모델로, 속도가 빠르고 비용이 낮음

전략 3: max_tokens 설정으로 출력 상한 제한하기

API 호출에 max_tokens 매개변수를 추가하면 추론 모델이 '지나치게 생각하는 것'을 방지할 수 있습니다. 하지만 주의할 점: max_tokens는 총 출력(추론 + 답변)을 제한하므로, 너무 낮게 설정하면 답변이 잘릴 수 있습니다. 예상 답변 길이의 2-3배로 설정하는 것을 권장합니다.

🎯 종합 제안: APIYI apiyi.com 플랫폼에서는 통일된 인터페이스로 추론 모델과 비추론 모델을 동시에 접속하여 작업 유형에 따라 동적으로 전환할 수 있습니다. 하나의 API 키로 Gemini, Claude, GPT 전 시리즈 모델을 호출할 수 있습니다.

gemini-3-1-pro-thinking-tokens-output-high-explained-ko 图示

자주 묻는 질문

Q1: Gemini 3.1 Pro Thinking Tokens는 왜 기본적으로 추론 과정을 보여주지 않나요?

이는 Google의 제품 설계 선택입니다. 완전한 추론 체인에는 수천 개의 토큰에 달하는 중간 유도 과정이 포함될 수 있어, 이를 직접 보여주면 사용자 경험이 크게 저하됩니다. includeThoughts: true를 설정하여 추론 요약을 얻거나, Cherry Studio와 같은 클라이언트에서 추론 체인 표시 기능을 켜서 사고 과정을 확인할 수 있습니다.

Q2: API 응답에서 Thinking Tokens가 정확히 얼마나 소비되었는지 어떻게 확인하나요?

Gemini API가 반환하는 usage_metadata에서 thoughts_token_count 필드를 확인하세요. APIYI apiyi.com을 통해 호출하는 경우, 플랫폼의 사용량 통계 페이지에서 각 호출의 상세한 토큰 분해(입력/출력/추론)를 확인하여 비용을 모니터링하고 최적화할 수 있습니다.

Q3: Gemini 3.1 Pro 외에 어떤 모델에 Thinking Tokens와 유사한 메커니즘이 있나요?

주요 추론 모델에는 유사한 메커니즘이 있습니다:

  • GPT-5.4 Thinking: OpenAI의 추론 모델로, 추론 토큰 역시 출력 토큰으로 청구됩니다.
  • Claude Sonnet 4.6 Extended Thinking: Anthropic의 추론 모드로, 선택적으로 켤 수 있습니다.
  • DeepSeek-R1: 오픈소스 추론 모델로, 추론 체인이 완전히 가시적입니다.

핵심 차이점은 일부 모델(예: Claude)은 추론 모드를 유연하게 켜고 끌 수 있지만, 일부 모델(예: Gemini 3.1 Pro)은 기본적으로 추론이 켜져 있다는 점입니다. APIYI apiyi.com을 통해 통일된 인터페이스로 이러한 모델들의 실제 토큰 소비를 테스트하고 비교할 수 있습니다.


요약

Gemini 3.1 Pro Thinking Tokens의 핵심 포인트는 다음과 같습니다:

  1. 출력 토큰에 숨겨진 추론 체인이 포함됨: 여러분이 보는 것은 답변 부분뿐이며, 출력 토큰의 95% 이상은 보이지 않는 Thinking Tokens에서 소비됩니다.
  2. Thinking Tokens는 정상적으로 과금됨: 출력 토큰 표준 가격으로 청구되며, 간단한 질문의 비용은 비추론 모델의 5-10배가 될 수 있습니다.
  3. thinking_level 파라미터로 비용 절약: LOW 수준은 80% 이상의 토큰을 절약할 수 있으며, MEDIUM은 일상적인 사용에 적합하고, 복잡한 작업에만 HIGH를 사용하세요.
  4. 간단한 작업에는 비추론 모델 선택: 번역, 분류, 간단한 질문답변 등의 시나리오에는 GPT-4o-mini나 Claude Sonnet 4.6을 직접 사용하는 것이 더 경제적입니다.

Thinking Tokens 메커니즘을 이해하면 추론 예산을 합리적으로 배분할 수 있습니다. APIYI apiyi.com의 통일된 인터페이스를 통해 다중 모델 호출을 관리하고, 작업 복잡도에 따라 동적으로 추론 모델 또는 비추론 모델을 선택하여 최적의 품질/비용 균형을 달성하는 것을 추천합니다.

📚 참고 자료

  1. Google Cloud 문서 – Thinking 추론 모드: Gemini 추론 모델의 공식 기술 문서

    • 링크: docs.cloud.google.com/vertex-ai/generative-ai/docs/thinking
    • 설명: Thinking Tokens 과금 규칙과 thinking_level 매개변수 설정의 권위 있는 출처
  2. Google AI 개발자 문서 – Token 카운팅: 공식 Token 카운팅과 usage_metadata 필드 설명

    • 링크: ai.google.dev/gemini-api/docs/tokens
    • 설명: API 응답에서 thoughts_token_count와 candidates_token_count를 어떻게 구분하는지
  3. Google DeepMind – Gemini 3.1 Pro 모델 카드: 모델 능력과 추론 벤치마크 상세 정보

    • 링크: deepmind.google/models/model-cards/gemini-3-1-pro/
    • 설명: MATH 95.1%, ARC-AGI-2 77.1% 등 성능 데이터의 공식 출처
  4. OpenRouter – 추론 Token 최적화 실무: 추론 모델 Token 관리의 커뮤니티 모범 사례

    • 링크: openrouter.ai/docs/guides/best-practices/reasoning-tokens
    • 설명: 다양한 모델 간 추론 Token 과금 규칙 비교와 최적화 제안

저자: APIYI 기술 팀
기술 교류: 댓글로 추론 모델의 Token 최적화 경험을 논의해 주세요. 더 많은 모델 호출 튜토리얼은 APIYI docs.apiyi.com 문서 센터를 방문하세요.

Similar Posts