Claude의 Extended Thinking(확장 사고) 모드를 사용해오셨다면 주의하세요—Claude 4.6에서 이 기능은 Deprecated (사용 중단 예정)으로 표시되었습니다. 이제 더 스마트한 모드인 **Adaptive Thinking(적응형 사고)**로 대체됩니다.
핵심 변화: 이전에는 수동으로 사고 토큰 예산(budget_tokens)을 설정해야 했지만, 이제 Claude가 스스로 '생각할 필요가 있는지', '얼마나 깊이 생각할지'를 결정합니다. 간단한 질문은 즉시 답변하고, 복잡한 문제는 심층 추론합니다—단 하나의 파라미터로 해결됩니다.
핵심 가치: 이 글을 읽고 나면 Adaptive Thinking의 API 호출 방법, 4가지 주요 업그레이드 사항, effort 파라미터 설정, 그리고 Extended Thinking에서의 마이그레이션 완전 가이드를 마스터하게 될 거예요.

Adaptive Thinking이란: 한 문장으로 이해하기
Extended Thinking (구형 모드): 개발자가 Claude에게 "너는 생각할 수 있는 토큰 예산이 10000개야"라고 알려주면, Claude는 그 예산을 모두 사용합니다.
Adaptive Thinking (신형 모드): Claude가 스스로 문제의 복잡성을 평가하여 "생각이 필요한지" 그리고 "얼마나 깊이 생각해야 하는지"를 결정합니다.
# ❌ 구형 모드 (Extended Thinking) - 사용 중단 예정
thinking={"type": "enabled", "budget_tokens": 10000}
# ✅ 신형 모드 (Adaptive Thinking) - 권장
thinking={"type": "adaptive"}
핵심 정보 빠른 확인
| 정보 항목 | 상세 내용 |
|---|---|
| 기능 이름 | Adaptive Thinking (적응형 사고) |
| 출시 시간 | 2026년 2월 5일 (Claude Opus 4.6과 함께 출시) |
| 지원 모델 | Claude Opus 4.6, Claude Sonnet 4.6 |
| API 파라미터 | thinking: {"type": "adaptive"} |
| 제어 방식 | effort 파라미터 (budget_tokens 대체) |
| 상태 | 공식 권장 방식 (Extended Thinking은 사용 중단됨) |
| 인터리빙 사고 | 자동 활성화 (베타 헤더 불필요) |
| Claude Code | 네이티브 지원, /effort 명령어로 조정 가능 |
🎯 마이그레이션 제안: 만약 여러분의 프로젝트에서 Extended Thinking(
type: "enabled")을 사용 중이라면, 가능한 한 빨리 Adaptive Thinking으로 마이그레이션하는 것을 권장합니다. APIYI(apiyi.com) 플랫폼을 통해 Claude Opus 4.6 또는 Sonnet 4.6의 API를 호출하면, 단 하나의 파라미터만 수정하면 마이그레이션이 완료됩니다.
적응적 사고 vs 확장 사고: 4가지 핵심 업그레이드

업그레이드 1: "고정 예산"에서 "동적 결정"으로
이것이 가장 근본적인 변화입니다.
기존 모드의 문제점: budget_tokens 값을 추측해야 했어요. 너무 낮게 설정하면 복잡한 문제를 충분히 추론하지 못하고, 너무 높게 설정하면 간단한 문제에서 토큰(그리고 돈)을 낭비하게 됩니다.
# 기존 모드: 이 문제가 얼마나 많은 사고 토큰이 필요할지 추측해야 함
thinking={"type": "enabled", "budget_tokens": 10000}
# 문제점: 간단한 문제도 많은 사고 토큰을 사용함
새로운 모드: Claude가 각 요청의 복잡도에 따라 자동으로 결정합니다.
# 새로운 모드: Claude가 스스로 판단
thinking={"type": "adaptive"}
# 간단한 문제: 사고하지 않거나 가벼운 사고
# 복잡한 문제: 깊은 추론
실제 영향: "때로는 간단하고 때로는 복잡한" 혼합 작업 부하(예: 코드 리뷰 시나리오 – 어떤 PR은 단순한 텍스트 수정이고, 어떤 PR은 동시성 리팩토링을 포함함)의 경우, Adaptive Thinking이 전체 성능과 비용 효율성 면에서 고정 예산보다 우수합니다.
업그레이드 2: 자동 인터리브 사고 (Interleaved Thinking)
에이전트식(Agentic) 워크플로우에서 Claude는 여러 번의 도구 호출 사이에서 사고해야 합니다.
기존 모드: 인터리브 사고는 수동으로 베타 헤더를 추가해야 했고, Opus 4.5에서는 사용할 수 없었습니다.
새로운 모드: Adaptive Thinking을 사용할 때 인터리브 사고가 자동으로 활성화되며, 추가 설정이 필요하지 않습니다.
사용자 요청 → Claude 사고 → 도구 A 호출 → Claude 다시 사고 → 도구 B 호출 → 최종 답변
이 기능은 Claude Code와 다른 에이전트식 애플리케이션에서 특히 중요합니다 – AI가 매번 도구 호출 후에 "다시 생각할" 수 있어 오류를 크게 줄여줍니다.
업그레이드 3: 더 유연한 다중 턴 대화
기존 모드: 다중 턴 대화에서 이전 턴의 assistant 메시지는 반드시 thinking block으로 시작해야 했고, 그렇지 않으면 오류가 발생했습니다. 이로 인해 대화 관리가 복잡해졌습니다.
새로운 모드: 이러한 제한이 없습니다. Adaptive Thinking은 다중 턴 대화에서 더욱 유연합니다. 왜냐하면 어떤 턴에서는 Claude가 사고를 선택하지 않을 수도 있기 때문입니다.
업그레이드 4: budget_tokens 대신 effort 매개변수
effort는 행동 신호이며 하드 제한이 아닙니다. budget_tokens보다 실제 요구사항에 더 부합합니다.
| Effort 수준 | 행동 | 적합한 시나리오 | 지원 모델 |
|---|---|---|---|
max |
항상 깊이 사고, 제약 없음 | 최고 난이도 추론 | Opus 4.6만 |
high (기본값) |
거의 항상 사고, 복잡한 문제는 깊이 추론 | 코드 리뷰, 아키텍처 설계 | Opus 4.6, Sonnet 4.6 |
medium |
중간 수준 사고, 간단한 문제는 건너뛸 수 있음 | 일상 개발, 일반 작업 | Opus 4.6, Sonnet 4.6 |
low |
사고 최소화, 속도 우선 | 간단한 질문답변, 스타일 검사 | Opus 4.6, Sonnet 4.6 |
중요: low effort에서도 문제가 충분히 복잡하다면 Claude는 여전히 사고를 선택할 수 있습니다. effort는 명령이 아니라 제안입니다.
💡 Sonnet 4.6 권장사항: Anthropic 공식에서는 Sonnet 4.6에 기본적으로
mediumeffort를 사용할 것을 권장합니다. 이렇게 하면 속도, 비용, 품질 사이에서 최적의 균형을 얻을 수 있습니다. APIYI apiyi.com을 통해 호출할 때는 요청에output_config매개변수를 추가하기만 하면 됩니다.
기본 호출: 가장 간단한 Adaptive Thinking
import openai
client = openai.OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.apiyi.com/v1" # APIYI 통합 인터페이스
)
response = client.chat.completions.create(
model="claude-opus-4-6",
messages=[
{"role": "user", "content": "Python의 GIL이 멀티스레딩에 미치는 영향 설명해줘"}
],
max_tokens=16000,
extra_body={
"thinking": {"type": "adaptive"}
}
)
print(response.choices[0].message.content)
Anthropic 네이티브 SDK 사용하기
import anthropic
client = anthropic.Anthropic(
api_key="YOUR_API_KEY",
base_url="https://api.apiyi.com" # APIYI 통합 인터페이스
)
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={"type": "adaptive"},
messages=[
{"role": "user", "content": "이 코드의 레이스 컨디션을 검토해줘..."}
]
)
# 응답 파싱: thinking 블록과 text 블록이 포함될 수 있어요
for block in response.content:
if block.type == "thinking":
print(f"[사고 과정] {block.thinking}")
elif block.type == "text":
print(f"[답변] {block.text}")
effort 파라미터로 세밀하게 제어하기
# Anthropic SDK 예시
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=16000,
thinking={"type": "adaptive"},
output_config={"effort": "medium"}, # 중간 수준의 사고 깊이
messages=[
{"role": "user", "content": "이 코드에 어떤 문제가 있나요?"}
]
)
지연 시간 줄이기: 사고 내용 생략하기
사고 과정을 볼 필요가 없다면, display: "omitted"를 사용해 전송 지연을 줄일 수 있어요:
response = client.messages.create(
model="claude-opus-4-6",
max_tokens=16000,
thinking={
"type": "adaptive",
"display": "omitted" # 사고 텍스트를 반환하지 않음
},
messages=[...]
)
# 주의: 사고에 사용된 토큰은 여전히 과금돼요
전체 코드 리뷰 워크플로 예시 보기
import anthropic
client = anthropic.Anthropic(
api_key="YOUR_API_KEY",
base_url="https://api.apiyi.com"
)
def review_pr(diff_content, risk_level="medium"):
"""위험 수준에 따라 코드를 적응형으로 리뷰"""
# 고위험: Opus + high effort
# 저위험: Sonnet + medium effort
if risk_level == "high":
model = "claude-opus-4-6"
effort = "high"
else:
model = "claude-sonnet-4-6"
effort = "medium"
response = client.messages.create(
model=model,
max_tokens=16000,
thinking={"type": "adaptive"},
output_config={"effort": effort},
system="""당신은 숙련된 코드 리뷰 전문가입니다.
코드 변경 사항을 분석하고 심각도별로 분류하세요:
🔴 반드시 수정 (보안/논리 오류)
🟡 수정 권장 (품질 문제)
💡 개선 제안""",
messages=[
{"role": "user", "content": f"리뷰:\n\n{diff_content}"}
]
)
thinking_text = ""
review_text = ""
for block in response.content:
if block.type == "thinking":
thinking_text = block.thinking
elif block.type == "text":
review_text = block.text
return {
"thinking": thinking_text,
"review": review_text,
"model": model,
"effort": effort,
"input_tokens": response.usage.input_tokens,
"output_tokens": response.usage.output_tokens
}
🚀 빠른 시작: APIYI apiyi.com을 통해 Claude 4.6 API를 호출하려면, 요청에
thinking: {"type": "adaptive"}만 추가하면 돼요. 별도 설정 없이 한 줄의 코드로 AI 추론 능력을 업그레이드할 수 있어요.
Effort 파라미터 실전: 다양한 시나리오별 최적 설정
시나리오별 설정 가이드
| 시나리오 | 추천 모델 | Effort | 이유 |
|---|---|---|---|
| 간단한 질문/번역 | Sonnet 4.6 | low |
깊은 추론 불필요, 속도 우선 |
| 코드 완성/포맷팅 | Sonnet 4.6 | low |
패턴 매칭 작업, 사고 불필요 |
| 일상적인 PR 리뷰 | Sonnet 4.6 | medium |
속도와 리뷰 깊이의 균형 |
| 복잡한 버그 디버깅 | Opus 4.6 | high |
파일 간 추론 필요 |
| 보안 취약점 감사 | Opus 4.6 | high |
고위험 문제 누락 불가 |
| 수학/논리 증명 | Opus 4.6 | max |
극한의 추론 깊이 필요 |
| 아키텍처 설계 | Opus 4.6 | max |
종합적인 트레이드오프 고려 필요 |
Claude Code에서 effort 사용하기
Claude Code 2026년 3월 업데이트 이후, /effort 명령어가 추가되었어요:
# Claude Code 터미널에서 직접 설정
/effort medium # 일상적인 코딩
/effort high # 코드 리뷰
/effort max # 아키텍처 설계 (Opus 4.6 전용)
이를 통해 개발자는 코드를 수정하지 않고도 현재 작업에 맞게 Claude의 사고 깊이를 유연하게 조정할 수 있어요.
💰 비용 최적화: effort 파라미터는 토큰 소비에 직접적인 영향을 미쳐요. 일상적인 코딩 작업의 경우, Sonnet 4.6을
medium또는low로 설정하면 비용을 크게 절감할 수 있어요. APIYI apiyi.com 플랫폼을 통해 호출하면 공식 가격보다 저렴하고, effort 파라미터와 함께 사용하면 두 배로 절약할 수 있어요.
Extended Thinking에서 Adaptive Thinking으로 마이그레이션
마이그레이션 대조표
| 이전 방식 (Extended Thinking) | 새로운 방식 (Adaptive Thinking) |
|---|---|
thinking: {"type": "enabled", "budget_tokens": 5000} |
thinking: {"type": "adaptive"}, output_config: {"effort": "low"} |
thinking: {"type": "enabled", "budget_tokens": 10000} |
thinking: {"type": "adaptive"}, output_config: {"effort": "medium"} |
thinking: {"type": "enabled", "budget_tokens": 30000} |
thinking: {"type": "adaptive"}, output_config: {"effort": "high"} |
thinking: {"type": "enabled", "budget_tokens": 100000} |
thinking: {"type": "adaptive"}, output_config: {"effort": "max"} |
| 수동으로 interleaved thinking beta 헤더 추가 | 자동 활성화, 헤더 불필요 |
마이그레이션 시 주의사항
1. 프롬프트 캐시가 중단됩니다
enabled에서 adaptive 모드로 전환할 때, 메시지 수준의 프롬프트 캐시 중단점이 무효화됩니다. 시스템 프롬프트와 도구 정의의 캐시는 영향을 받지 않습니다.
권장사항: 모든 요청을 한 번에 adaptive 모드로 마이그레이션하고, 혼합 사용을 피하세요.
2. 생각 내용은 기본적으로 요약본입니다
Claude 4.6 모델은 기본적으로 요약된 생각 내용을 반환하며, 전체 생각 텍스트가 아닙니다. 즉, 여러분이 보게 되는 thinking 블록은 단순화된 버전입니다.
- 요약본 (
display: "summarized"): 기본 동작 - 생략본 (
display: "omitted"): 생각 텍스트를 반환하지 않음 - 전체본: Anthropic 영업팀에 문의하여 활성화 필요
3. 비용은 전체 생각 기준으로 청구됩니다
여러분이 보는 것이 요약본이든 생략본이든, 비용은 전체 내부 생각의 토큰 양을 기준으로 청구됩니다. 보이는 텍스트가 적다고 해서 비용이 적게 나가는 것은 아닙니다.
4. Prefill은 더 이상 지원되지 않습니다
Claude Opus 4.6은 어시스턴트 메시지의 사전 채우기(prefill)를 더 이상 지원하지 않습니다. 사전 채우기를 보내면 400 오류가 반환됩니다. 출력 형식을 제어하려면 시스템 프롬프트나 structured output을 사용하세요.
🎯 마이그레이션 권장사항: 테스트 환경에서 먼저 마이그레이션 효과를 검증하고, 특히 adaptive 모드와 이전 고정 budget_tokens의 출력 품질 차이를 비교해 보세요. APIYI apiyi.com을 통해 동일한 키로 다른 구성을 호출하여 A/B 테스트를 편리하게 진행할 수 있습니다.

과금 메커니즘 상세 설명
생각 토큰 과금 방식 이해하기
비용을 효과적으로 관리하려면 과금 메커니즘을 이해하는 것이 중요합니다.
| 과금 항목 | 설명 |
|---|---|
| 입력 토큰 | 일반 과금 ($5/MTok Opus, $3/MTok Sonnet) |
| 생각 토큰 | 출력 토큰 가격으로 과금 ($25/MTok Opus, $15/MTok Sonnet) |
| 응답 텍스트 토큰 | 출력 토큰 가격으로 과금 |
| 요약 생성 토큰 | 추가 과금 없음 |
| display: "omitted" | 생각 토큰은 여전히 과금되며, 단지 전송되지 않음 |
비용 최적화 전략
간단한 문제는 low effort 사용 → 생각 단계 건너뛰기 가능 → 많은 출력 토큰 절약
↓
비용 50-80% 절감 가능
실제 비교 예시: 동일한 코드 스타일 검사 작업
| 설정 | 생각 토큰 | 응답 토큰 | 총 비용 (Sonnet) |
|---|---|---|---|
| effort: high | ~3000 | ~500 | ~$0.053 |
| effort: medium | ~800 | ~500 | ~$0.020 |
| effort: low | 0 (생각 건너뜀) | ~500 | ~$0.009 |
간단한 작업의 경우, low effort가 high effort보다 약 83% 저렴합니다.
💰 비용 절약 팁: 일괄 처리 시나리오(예: 100개 파일에 대한 스타일 검사)에서 effort를
low로 설정하면 상당한 비용을 절약할 수 있습니다. APIYI apiyi.com을 통해 Claude 4.6 API를 호출하면 기존 할인 가격에 effort 매개변수 최적화까지 더해 이중으로 비용을 절감할 수 있습니다.
자주 묻는 질문
Q1: Adaptive Thinking과 Extended Thinking을 함께 사용할 수 있나요?
가능하지만 권장하지 않습니다. Claude 4.6 모델에서는 Extended Thinking(type: "enabled")이 여전히 사용 가능하지만 Deprecated로 표시되어 있으며, 향후 버전에서 제거될 예정입니다. 두 모드를 혼합 사용하면 프롬프트 캐시 중단점이 무효화될 수 있습니다. 가능한 한 빨리 Adaptive Thinking으로 통일하여 마이그레이션하는 것이 좋습니다. APIYI apiyi.com을 통해 호출할 때 매개변수 형식이 완전히 호환됩니다.
Q2: Opus 4.5는 Adaptive Thinking을 지원하나요?
지원하지 않습니다. Adaptive Thinking은 Claude Opus 4.6과 Sonnet 4.6에서만 지원됩니다. Opus 4.5는 여전히 type: "enabled" 모드를 사용하고 budget_tokens를 수동으로 설정해야 합니다. Adaptive Thinking을 사용해야 한다면 4.6 시리즈 모델로 업그레이드하는 것이 좋습니다. APIYI apiyi.com은 4.5와 4.6 전 시리즈 모델의 API 접속을 모두 제공합니다.
Q3: display: “omitted”는 정말 비용을 절약하나요?
비용을 절약하지 않습니다. display: "omitted"는 API가 생각 텍스트를 반환하지 않게 하여 네트워크 전송 지연만 줄여줍니다. 하지만 내부적으로 생각 토큰은 여전히 생성되고 과금됩니다. 진정한 비용 절약 방법은 effort 수준을 낮추는 것입니다—low 또는 medium으로 설정하면 Claude가 간단한 문제에서 생각 단계를 건너뛰거나 줄입니다.
Q4: Claude가 특정 요청에서 생각을 했는지 어떻게 판단하나요?
응답에 thinking 유형의 콘텐츠 블록이 포함되어 있는지 확인하세요. Claude가 생각이 필요하지 않다고 판단하면 응답에는 text 블록만 있고 thinking 블록은 없습니다. Adaptive 모드에서는 usage 필드의 토큰 카운트를 통해 생각에 소비된 토큰 양을 판단하는 데 도움이 됩니다.
Q5: Claude Code에서 Adaptive Thinking을 어떻게 사용하나요?
Claude Code는 Opus 4.6 또는 Sonnet 4.6을 사용할 때 기본적으로 Adaptive Thinking이 활성화됩니다. /effort 명령어로 생각 깊이를 조정할 수 있습니다: /effort low (빠른 모드), /effort medium (균형 모드), /effort high (심층 모드). 2026년 3월 업데이트에서는 비표준 모델 문자열로 인한 "adaptive thinking is not supported" 오류도 수정되었습니다.
요약: Adaptive Thinking은 Claude 4.6의 핵심 업그레이드입니다
Adaptive Thinking은 AI 추론 방식의 중요한 진화를 의미합니다. "개발자가 AI가 얼마나 생각해야 할지 추측"하는 방식에서 "AI가 스스로 얼마나 생각해야 할지 판단"하는 방식으로 전환된 것이죠.
4가지 핵심 업그레이드:
- 동적 결정: 간단한 문제는 즉시 답변, 복잡한 문제는 심층 추론
- 자동 교차 사고: 에이전트 워크플로우에서 도구 호출 사이에 자동으로 추론
- 유연한 다중 턴 대화: 강제적인 thinking block 시작 없이도 가능
- effort 매개변수: budget_tokens보다 더 직관적인 제어 방식
마이그레이션 권장사항: thinking: {"type": "enabled", "budget_tokens": N}에서 thinking: {"type": "adaptive"}로 변경하고, output_config: {"effort": "..."}로 깊이를 제어하세요.
APIYI apiyi.com을 통해 Claude Opus 4.6과 Sonnet 4.6의 API를 빠르게 접속하시면, 한 줄의 매개변수 변경만으로 Adaptive Thinking이 제공하는 지능형 추론과 비용 최적화를 누릴 수 있습니다.
참고 자료
-
Claude API 문서 – Adaptive Thinking: 공식 기술 가이드
- 링크:
platform.claude.com/docs/en/build-with-claude/adaptive-thinking
- 링크:
-
Claude API 문서 – Effort 매개변수: effort 설정 상세 설명
- 링크:
platform.claude.com/docs/en/build-with-claude/effort
- 링크:
-
Anthropic 공식 – Claude Opus 4.6: 발표 공지
- 링크:
anthropic.com/news/claude-opus-4-6
- 링크:
-
Claude API 문서 – Extended Thinking: 기존 확장 사고 가이드
- 링크:
platform.claude.com/docs/en/build-with-claude/extended-thinking
- 링크:
저자: APIYI Team | Claude 최신 API 기능을 활용하려면 APIYI apiyi.com을 방문하여 Claude 4.6 전 시리즈 모델의 API 인터페이스와 기술 지원을 받아보세요.
