AI 프로그래밍 어시스턴트가 브라우저를 제어해야 할 때, 기존 Playwright MCP 방식은 많은 컨텍스트를 소비하곤 했어요. Vercel 팀이 선보인 agent-browser는 이 문제를 완전히 해결했습니다. 컨텍스트 사용량을 최대 93%나 줄이면서도 별도 설정 없이 바로 사용할 수 있어서, AI Agent의 브라우저 자동화에 최적의 선택이에요.
핵심 가치: 이 글을 읽고 나면 agent-browser의 설치와 설정 방법을 익혀서, 여러분의 AI 어시스턴트가 웹페이지 작업을 효율적으로 수행하도록 만들 수 있어요.

agent-browser 핵심 포인트
| 특징 | 설명 | 장점 |
|---|---|---|
| 93% 컨텍스트 절감 | Playwright MCP 대비 토큰 소비 대폭 감소 | 비용 절감, 컨텍스트 오버플로우 방지 |
| Rust CLI | 네이티브 Rust 구현, Node.js 폴백 제공 | 빠른 응답 속도, 크로스 플랫폼 지원 |
| 제로 설정 | MCP 설치 불필요, npm 설치 즉시 사용 | 진입 장벽 낮음 |
| Snapshot + Refs | 접근성 트리 스냅샷 + 요소 참조 | 확정적 요소 선택 |
agent-browser가 뭔가요
agent-browser는 Vercel Labs에서 선보인 오픈소스 브라우저 자동화 CLI 도구로, AI Agent를 위해 특별히 설계되었어요. 혁신적인 3계층 아키텍처를 채택하고 있습니다:
- Rust CLI – 빠른 명령어 파싱과 데몬 프로세스 통신
- Node.js Daemon – Playwright 브라우저 라이프사이클 관리
- Fallback – 네이티브 바이너리를 사용할 수 없을 때의 Node.js 실행 방안
이런 설계 덕분에 agent-browser는 Rust의 성능 이점을 누리면서도 Node.js 생태계와의 호환성을 유지할 수 있어요.
Playwright MCP보다 컨텍스트를 더 절약하는 이유
기존 Playwright MCP 방식에는 몇 가지 문제가 있었어요:
- 도구 남발: Playwright MCP가 26개 이상의 도구 메서드를 노출
- 컨텍스트 팽창: 복잡한 웹페이지의 접근성 트리가 매우 방대할 수 있음
- 의사결정 지연: AI에게 너무 많은 도구 선택지를 주면 오히려 효율이 떨어짐
agent-browser는 간소화된 명령어 세트와 "Snapshot + Refs" 워크플로우로 이런 문제들을 해결해서, 컨텍스트 사용량을 93%나 줄이는 데 성공했어요.

agent-browser 빠르게 시작하기
설치 및 설정
두 줄의 명령어만으로 설치가 완료됩니다:
npm install -g agent-browser
agent-browser install # Chromium 다운로드
Linux 시스템에서 시스템 의존성을 설치해야 하는 경우:
agent-browser install --with-deps
기본 사용법
가장 자주 사용하는 명령어 예시입니다:
# 웹페이지 열기
npx agent-browser open example.org
# 페이지 스냅샷 가져오기 (상호작용 가능한 요소만)
npx agent-browser snapshot -i
# 요소 클릭하기 (ref 참조 사용)
npx agent-browser click @e2
# 새 탭에서 열기
npx agent-browser tab new vercel.com
# 폼 채우기
npx agent-browser fill @e3 "[email protected]"
# 스크린샷
npx agent-browser screenshot output.png
전체 명령어 목록 보기
# 네비게이션 작업
agent-browser open <url> # 웹페이지 열기
agent-browser back # 뒤로 가기
agent-browser forward # 앞으로 가기
agent-browser reload # 새로고침
# 요소 상호작용
agent-browser click <selector> # 클릭
agent-browser dblclick <selector> # 더블클릭
agent-browser fill <sel> <text> # 입력창 채우기
agent-browser type <sel> <text> # 한 글자씩 입력
agent-browser press <key> # 키 입력
agent-browser hover <selector> # 호버
agent-browser select <sel> <val> # 드롭다운 선택
agent-browser check <selector> # 체크박스 선택
agent-browser scroll <direction> # 스크롤
agent-browser drag <from> <to> # 드래그
agent-browser upload <sel> <file> # 파일 업로드
# 정보 가져오기
agent-browser get text <selector> # 텍스트 가져오기
agent-browser get html <selector> # HTML 가져오기
agent-browser get value <selector> # 값 가져오기
agent-browser get attr <sel> <attr> # 속성 가져오기
agent-browser get title # 제목 가져오기
agent-browser get url # URL 가져오기
agent-browser is visible <selector> # 표시 여부 확인
agent-browser is enabled <selector> # 활성화 여부 확인
# 스냅샷 및 스크린샷
agent-browser snapshot # 전체 스냅샷
agent-browser snapshot -i # 상호작용 가능한 요소만
agent-browser snapshot --json # JSON 형식 출력
agent-browser screenshot # 스크린샷
# 세션 관리
agent-browser --session mytest open url # 세션에 이름 지정
agent-browser close # 세션 종료
팁:
--json파라미터를 사용하면 구조화된 출력을 얻을 수 있어요. AI Agent가 파싱하기에 훨씬 편리합니다.
Snapshot + Refs 워크플로우 상세 설명
agent-browser의 가장 핵심적인 혁신 기능입니다. 접근성 트리 스냅샷과 요소 참조를 통해 확정적인 작업을 수행할 수 있어요.
스냅샷 가져오기
agent-browser snapshot -i
출력 예시:
button "Submit" [ref=e2]
input "Email" [ref=e3]
link "Learn more" [ref=e4]
Refs를 사용한 작업 실행
# @e# 문법으로 요소 참조하기
agent-browser click @e2 # Submit 버튼 클릭
agent-browser fill @e3 "[email protected]" # 이메일 입력
워크플로우의 장점
| 전통적인 방식 | Snapshot + Refs |
|---|---|
| 매번 DOM을 다시 조회해야 함 | 스냅샷에서 refs를 가져와서 반복 조회 불필요 |
| CSS 선택자가 작동하지 않을 수 있음 | 페이지가 변경되지 않으면 refs가 안정적으로 유지됨 |
| 복잡한 요소 탐색 로직 필요 | @e#로 바로 참조 가능 |
agent-browser와 Playwright MCP 비교

| 비교 항목 | agent-browser | Playwright MCP |
|---|---|---|
| 컨텍스트 사용량 | 93% 감소 | 전체 접근성 트리 |
| 설치 및 설정 | npm install로 바로 사용 | MCP Server 설정 필요 |
| 실행 방식 | Bash 명령어 | MCP 프로토콜 |
| 호환성 | Bash 지원 모든 Agent | MCP 지원 필요 |
AI 코딩 어시스턴트에서 사용하기
Claude Code 통합
Claude Code와 대화할 때 agent-browser를 사용하도록 알려주세요:
agent-browser를 사용해서 example.org를 열고 로그인 버튼을 클릭해주세요
Claude Code는 다음과 같이 실행해요:
npx agent-browser open example.org
npx agent-browser snapshot -i
# 스냅샷을 분석해서 로그인 버튼 찾기
npx agent-browser click @e5
Cursor / Copilot / Codex 통합
이 도구들은 모두 Bash 명령어 실행을 지원하기 때문에 agent-browser를 바로 사용할 수 있어요. 핵심은 프롬프트에서 fetch나 web-search 도구 대신 agent-browser를 사용하도록 명확히 알려주는 거예요.
베스트 프랙티스
- 도구를 명확히 지정하기: AI에게 agent-browser를 사용하도록 알려주어 다른 브라우저 도구를 호출하지 않게 해요
- JSON 출력 활용하기:
--json파라미터를 사용하면 AI가 결과를 더 쉽게 파싱할 수 있어요 - Snapshot 잘 활용하기: 먼저 스냅샷을 가져온 다음 작업을 실행하세요
- 세션 이름 지정하기:
--session을 사용해서 여러 브라우저 인스턴스를 관리해요
자주 묻는 질문
Q1: agent-browser와 browser-use의 차이점은 무엇인가요?
agent-browser는 Bash 명령어로 호출하는 CLI 도구이고, browser-use는 API로 호출하는 Python 라이브러리예요. agent-browser는 AI 코딩 어시스턴트와 통합하기에 더 적합한데, 대부분의 Agent가 Bash 명령어 실행을 지원하기 때문이죠.
Q2: 컨텍스트 사용량이 93%나 줄어드는 이유는?
Playwright MCP는 완전한 접근성 트리를 AI에게 전송하는데, 복잡한 페이지는 수천 개의 노드를 가질 수 있어요. agent-browser는 Snapshot + Refs 메커니즘을 통해 간결한 요소 참조 목록만 반환해서, 전달해야 하는 정보량을 대폭 줄였답니다.
Q3: Headed와 Headless 모드는 어떻게 전환하나요?
기본값은 Headless 모드예요. 시각적 디버깅이 필요하면 --headed 파라미터를 사용하세요:
agent-browser --headed open example.org
이렇게 하면 브라우저 창을 볼 수 있어서 디버깅과 작업 검증이 편리해져요.
정리
agent-browser의 핵심 포인트를 정리해볼게요:
- 93% 컨텍스트 절약: Playwright MCP 대비 토큰 사용량을 대폭 줄여서 긴 컨텍스트 경고를 피할 수 있어요
- 설정 없이 바로 사용: MCP 설치 불필요, npm 전역 설치만으로 바로 쓸 수 있죠
- Snapshot + Refs: 혁신적인 워크플로우 설계로 결정론적 요소 선택이 가능하고, DOM 반복 쿼리가 필요 없어요
- 광범위한 호환성: Claude Code, Cursor, Codex, Copilot, Gemini 등 Bash를 지원하는 모든 AI Agent와 함께 쓸 수 있어요
AI 어시스턴트로 브라우저 조작이 필요한 상황에서, agent-browser는 현재 가장 효율적인 선택이에요.
AI 코딩 어시스턴트를 사용해서 웹 개발이나 테스트를 하고 있다면, agent-browser를 꼭 써보세요. APIYI apiyi.com에서 제공하는 AI 모델 서비스와 결합하면 더욱 효율적인 자동화 워크플로우를 구축할 수 있답니다.
번역된 내용
Vercel Labs에서 만든 agent-browser는 AI 에이전트가 웹 브라우저를 더 쉽게 제어할 수 있도록 도와주는 도구예요. Playwright 기반으로 만들어졌고, Model Context Protocol(MCP) 서버로 작동하면서 Claude Desktop 같은 AI 어시스턴트와 원활하게 연동돼요.
핵심 기능
agent-browser의 주요 기능들을 살펴볼게요:
1. 브라우저 자동화
AI 에이전트가 브라우저를 직접 조작할 수 있어요:
- 웹페이지 열기 및 탐색
- 버튼 클릭, 폼 작성
- 스크린샷 캡처
- 페이지 콘텐츠 추출
2. MCP 프로토콜 지원
Model Context Protocol을 통해 AI 에이전트와 표준화된 방식으로 통신해요:
- Claude Desktop과 바로 연동 가능
- 다른 MCP 호환 클라이언트와도 작동
- 확장 가능한 아키텍처
3. 간단한 도구 인터페이스
복잡한 Playwright API 대신 AI에게 최적화된 간단한 도구들을 제공해요:
navigate: URL로 이동click: 요소 클릭type: 텍스트 입력screenshot: 화면 캡처extract: 콘텐츠 추출
왜 agent-browser를 사용해야 할까요?
기존 방식의 문제점
Playwright를 직접 사용하면 AI 에이전트가 수십 개의 복잡한 API를 이해해야 해요. 이는:
- 토큰 사용량 증가
- 에러 발생 가능성 상승
- 응답 속도 저하
agent-browser의 해결책
agent-browser는 이런 문제들을 해결해요:
- 단순화된 API: AI가 이해하기 쉬운 몇 가지 핵심 도구만 제공
- 컨텍스트 효율성: 불필요한 정보를 제거하여 토큰 절약
- 안정성: AI 에이전트에 최적화된 에러 처리
설치 및 설정
1. 프로젝트 클론
git clone https://github.com/vercel-labs/agent-browser.git
cd agent-browser
2. 의존성 설치
npm install
3. 빌드
npm run build
4. Claude Desktop 설정
claude_desktop_config.json 파일에 다음 내용을 추가하세요:
{
"mcpServers": {
"agent-browser": {
"command": "node",
"args": ["/path/to/agent-browser/dist/index.js"]
}
}
}
실제 사용 예시
Claude Desktop과 연동하면 이런 작업들을 자연어로 요청할 수 있어요:
"Google에서 'Vercel AI SDK'를 검색하고 첫 번째 결과의 스크린샷을 찍어줘"
"example.com에 가서 로그인 폼에 내 정보를 입력해줘"
"이 페이지의 모든 제품 이름과 가격을 추출해줘"
기술적 장점
1. Playwright 도구 범람 문제 해결
Playwright MCP 도구가 너무 많아지는 문제(speakeasy.com/blog/playwright-tool-proliferation 참고)를 agent-browser가 효과적으로 해결했어요. 꼭 필요한 기능만 선별하여 제공하죠.
2. 토큰 효율성
복잡한 API 문서를 전부 컨텍스트에 포함하는 대신, 간결한 도구 설명만 제공하여 토큰을 크게 절약해요.
3. 확장 가능성
필요한 경우 새로운 도구를 쉽게 추가할 수 있는 구조로 설계되어 있어요.
개발 로드맵
agent-browser는 계속 발전하고 있어요. 프로젝트 작성자인 Chris Tate(x.com/ctatedev)의 Twitter를 팔로우하면 최신 업데이트를 확인할 수 있어요.
현재 논의되고 있는 기능들:
- 더 고급 선택자 지원
- 파일 업로드/다운로드 기능
- 멀티 탭 관리
- 쿠키 및 세션 관리
마무리
agent-browser는 AI 에이전트의 웹 자동화를 훨씬 쉽고 효율적으로 만들어주는 도구예요. Playwright의 강력함을 유지하면서도 AI가 사용하기 쉬운 인터페이스를 제공하죠.
더 자세한 정보는 공식 GitHub 저장소(github.com/vercel-labs/agent-browser)에서 확인하실 수 있어요. 문서도 잘 정리되어 있고, 예제 코드도 풍부하게 제공되니까 직접 실습해보시는 걸 추천드려요!
참고자료
⚠️ 링크 형식 안내: 모든 외부 링크는
자료명: domain.com형식으로 표시되어 복사는 가능하지만 클릭으로 이동은 되지 않아요. SEO 권중 손실을 방지하기 위함이에요.
-
agent-browser GitHub 저장소: Vercel Labs 공식 프로젝트, 완전한 문서와 예제 포함
- 링크:
github.com/vercel-labs/agent-browser - 설명: 최신 기능 업데이트와 사용 가이드 확인
- 링크:
-
Chris Tate Twitter: agent-browser 작성자의 Twitter 계정
- 링크:
x.com/ctatedev - 설명: 프로젝트 최신 동향과 사용 팁 얻기
- 링크:
-
Playwright MCP 비교 문서: Playwright MCP 도구 범람 문제 분석
- 링크:
speakeasy.com/blog/playwright-tool-proliferation - 설명: agent-browser가 해결하는 문제점 이해하기
- 링크:
작성자: 기술팀
기술 교류: 댓글로 자유롭게 토론해주세요. 더 많은 자료는 APIYI apiyi.com 기술 커뮤니티에서 확인하실 수 있어요
