Claude Code의 deep-research, 어떻게 작동하고 언제 써야 할까?

"이거 그냥 검색이랑 뭐가 달라요?"

Claude Code에서 deep-research를 처음 접하면 드는 첫 번째 의문이에요. 이름부터 그럴싸하긴 한데, 실제로 뭘 하는 건지, 어떤 상황에서 꺼내야 하는 건지 감이 잘 안 잡히시는 분들이 많더라고요.

이 글에서는 deep-research 스킬의 정체부터 내부 동작 원리, 일반 웹 검색과의 차이, ChatGPT Deep Research와의 비교까지 리서치 결과 기반으로 차근차근 풀어드릴게요.

deep-research, 사실은 '공식 코어 명령어'가 아니에요

가장 먼저 짚어야 할 부분입니다. Claude Code에서 사용하는 deep-research는 Anthropic이 번들로 제공하는 코어 슬래시 커맨드가 아니에요.

정확히는 obra/superpowers-skills라는 오픈소스 생태계에서 제공하는 **에이전트 스킬(Agent Skill)**이에요. Jesse Vincent가 만들고 Claude Code 공식 플러그인 마켓플레이스에 등재된 서드파티 스킬입니다.

스킬 자체의 설명을 그대로 옮기면 이렇습니다:

"Deep research harness — fan-out web searches, fetch sources, adversarially verify claims, synthesize a cited report"

확인해보면 Anthropic이 superpowers 5.1.0에 직접 번들한 코어 스킬 14종(brainstorming, test-driven-development, systematic-debugging 등)에는 research 계열 스킬이 포함되어 있지 않아요. research 스킬은 별도 저장소인 obra/superpowers-skills로 분리되어 2025-10-09에 공개됐습니다.

이 점이 왜 중요하냐면, deep-research를 "Claude Code 내장 기능"으로 소개하는 글들이 꽤 있는데 엄밀히 말하면 정확하지 않아요. 스킬은 설치가 필요하고, 동작 방식도 플러그인 형태로 트리거됩니다.

비유하자면 이렇습니다.

냉장고(Claude Code)에 끼우는 정수기 필터 카트리지(스킬)예요. Anthropic이 만든 '순정 필터'가 아니라, 호환 인증을 받은 서드파티(obra/superpowers) 필터입니다. 끼우면 "물을 거르고 출처를 검증해서 내보내는" 기능이 활성화되는 거죠.

내부에서 어떻게 작동할까요? — 9단계 멀티 에이전트 흐름

deep-research가 단순 검색과 달리 느리고 무거운 이유가 여기 있어요. 내부에서 9단계짜리 멀티 에이전트 파이프라인이 돌아가거든요.

Anthropic의 멀티 에이전트 리서치 시스템(2025-06-13 게시) 아키텍처와 superpowers-skills research 스킬 설명을 교차 확인하면 다음 흐름이 나옵니다.

1단계: Scope / Plan

리드 에이전트(coordinator)가 질문을 분해하고 AS_OF(기준일)을 명시합니다. "이 리서치는 어느 시점 기준인지"를 처음부터 고정하는 거예요.

2단계: Fan-out (병렬 검색)

서브에이전트 여러 개를 동시에 dispatch합니다. 각자 웹 검색을 수행하고 소스를 fetch하며, 결과는 각자의 태스크 파일에 기록해요. 리드 에이전트는 raw 검색 컨텍스트를 직접 받지 않고 최소화합니다.

3단계: Citation Registry 구축

출처마다 source_type, as_of(발행일), authority(권위도)를 기록합니다. 시간 민감한 주장은 발행일을 반드시 동반하고, 오래된 출처는 자동으로 신뢰도가 내려가요.

4단계: Triangulate (교차 검증)

중요한 주장은 최소 2개 이상의 출처가 뒷받침해야 통과합니다. 1개 출처만 있으면 high-confidence 마커를 달 수 없어요.

5단계: Evidence Outline

증거 매핑을 만들면서 counter-claim(반박 가능한 주장)에도 플래그를 달아둡니다.

6단계: Draft from notes

중요한 규칙이에요. raw 검색 결과에서 직접 초안을 쓰는 게 아니라, 정제된 research-notes에서만 작성합니다. 오염된 소스가 그대로 글에 녹아드는 걸 방지하는 거예요.

7~9단계: Counter-review → Verify → Polish

각 주장을 adversarial하게 다시 공격합니다. 출처가 정말 그 주장을 지지하는지, 신뢰도는 충분한지 재검증해요. 마지막으로 confidence 마커와 "인용 N개 / 주장 M개" 요약이 붙은 최종 리포트로 패키징합니다.

Anthropic 내부 실험 결과: Claude Opus 4 리드 + Claude Sonnet 4 서브에이전트 구성이 단일 에이전트 Opus 4 대비 90.2% 우수한 성능을 기록했다고 해요(2025-06-13 엔지니어링 블로그). 병렬 fan-out 구조 자체가 단순히 "빠르게 하려고"가 아니라, 정확도를 올리는 핵심 설계인 거죠.

일반 웹 검색과 뭐가 다른가요?

핵심 차이는 검증 가능성이에요. 표로 정리하면 이렇습니다.

항목	일반 WebSearch	Claude Code deep-research 스킬
검색 방식	단발 검색, 요약	병렬 fan-out 서브에이전트
출처 검증	없음	citation registry + 2출처 교차 + adversarial counter-review
발행일 추적	없음	AS_OF 기준일 명시, stale source 자동 강등
산출물	텍스트 요약	confidence 마커 + cited 리포트 파일
반론 처리	없음	counter-claim 플래그 포함

일반 WebSearch는 "검색해서 요약해줘"예요. deep-research는 "여러 곳을 동시에 뒤지고, 주장마다 2개 이상 출처로 교차 검증한 뒤, 반론까지 포함해서 리포트 파일로 내놔" 수준이죠.

비유하면, WebSearch가 "편의점에서 빨리 사 오기"라면, deep-research는 "여러 마트를 돌며 유통기한 확인하고 성분 비교해서 최적 제품 정리해 오기"예요. 훨씬 느리지만, 결과물의 신뢰도가 달라요.

또 한 가지 중요한 차이가 있어요. Claude Code 환경에서 돌아가기 때문에 리서치 결과가 곧바로 로컬 파일(research_report.md 등)로 저장돼요. 여기서 끝이 아니라, 코드베이스나 다른 스킬과 파이프라인으로 바로 연결할 수 있다는 게 웹 서비스형 리서치 도구와 결정적으로 다른 점입니다.

언제 쓰면 좋고, 언제는 쓰지 않는 게 나을까요?

deep-research가 강력하다고 해서 모든 상황에 쓰는 건 오버엔지니어링이에요. 용도에 맞는 도구를 쓰는 게 훨씬 빠르고 경제적입니다.

이럴 때 쓰세요

여러 출처를 모아 종합 리포트가 필요할 때
주장마다 출처와 발행일 검증이 필요할 때 (시장 조사, 기술 동향 분석)
반론까지 포함한 균형 잡힌 분석이 필요할 때
stale한 정보를 걸러내야 하는 시간 민감 주제일 때
리서치 결과를 이후 작업(콘텐츠 생성, 코드 구현 등)에 파이프라인으로 연결할 때

이럴 때는 다른 도구가 더 빨라요

단일 사실 하나만 확인하는 경우 → WebSearch
코드 라이브러리 문법이나 API 문서 → context7 MCP
이미 아는 내용을 정리하는 경우 → 일반 응답
아이디어를 빠르게 발산하고 싶을 때 → brainstorming 스킬
빠른 답이 우선일 때 → deep-research는 느립니다

결국 "다출처 교차 검증이 필요한 비단순 질문"이 핵심 적합 조건이에요.

ChatGPT Deep Research, Perplexity와는 어떻게 다른가요?

"에이전트형 딥 리서치" 카테고리 자체는 OpenAI와 Perplexity가 먼저 열었어요.

OpenAI Deep Research: 2025-02-02 출시. o3 모델 기반, 웹 브라우징과 데이터 분석에 최적화. 수십 분간 다단계 리서치를 수행해요.
Perplexity Deep Research: 2025-02(약 2025-02-14경) 출시. 2~4분 내 출처 인용 리포트, 빠른 다출처 조회가 강점이에요.
Anthropic Claude Research (Claude.ai 제품): 2025-04-15 탑재. 웹 + Google Workspace 교차, 멀티 에이전트 방식.
Claude Code deep-research 스킬: 2025-10-09 공개. obra/superpowers-skills 오픈소스, 터미널 멀티 에이전트 fan-out + 출처 검증.

항목	ChatGPT/Perplexity Deep Research	Claude Code deep-research 스킬
실행 환경	웹 앱 (채팅 UI)	로컬 터미널 (Claude Code)
산출물 위치	앱 내 리포트	로컬 파일시스템
커스터마이즈	불가	오픈소스, 직접 수정 가능
코드베이스 연동	불가	파이프라인으로 연결 가능
출처 관리	제품별 상이	citation registry + adversarial counter-review

웹 서비스 기반 도구들은 UI가 편하고 즉시 쓸 수 있다는 장점이 있어요. 반면 Claude Code deep-research 스킬은 결과물을 로컬 파일로 받아서 이후 워크플로우에 바로 연결할 수 있다는 게 개발자 관점에서의 핵심 차별점입니다.

참고로, Anthropic Claude.ai의 Research 기능과 Claude Code의 deep-research 스킬은 같은 설계 철학(멀티 에이전트 fan-out)을 공유하지만 별개 구현체예요. 전자는 Anthropic 코어 제품, 후자는 커뮤니티(obra)가 터미널 환경에서 재현한 것입니다.

마무리

deep-research 스킬을 한 줄로 정리하면 이렇습니다.

"Claude Code 터미널 환경에서 멀티 에이전트 fan-out + 출처 교차 검증 + adversarial 반론 체크를 수행해 cited 리포트 파일을 내놓는 서드파티 에이전트 스킬"

공식 코어 명령어가 아니라는 점, 느린 대신 검증 가능성이 높다는 점, 로컬 파일 및 다른 스킬과 파이프라인 연결이 가능하다는 점이 핵심이에요.

단순 사실 하나를 빠르게 확인하는 게 목적이라면 WebSearch로 충분합니다. 하지만 여러 각도에서 검증된 리포트가 필요하다면, deep-research 스킬을 꺼낼 차례예요.

궁금한 점 있으면 댓글로 남겨주세요!

자주 묻는 질문 (FAQ)

Q: deep-research는 Anthropic 공식 슬래시 커맨드인가요?

아니요. deep-research는 Anthropic이 코어에 번들한 공식 슬래시 커맨드가 아니에요. obra/superpowers-skills 오픈소스 저장소에서 배포하는 에이전트 스킬이고, Claude Code 공식 플러그인 마켓플레이스에 등재되어 있어요. Anthropic이 superpowers 5.1.0에 직접 포함한 14종 코어 스킬 목록에는 research 계열이 없고, 별도 repo에서 제공됩니다. 설치 시 플러그인 마켓플레이스를 통해 추가해야 해요.

Q: 일반 웹 검색(WebSearch)이랑 뭐가 다른가요?

핵심 차이는 검증 가능성이에요. 일반 WebSearch는 단발 검색 후 요약을 내놓는데, deep-research 스킬은 citation registry(출처 타입·발행일·권위도 기록), 고신뢰 주장당 최소 2개 출처 교차 검증, stale source 자동 강등, adversarial counter-review(반론 검증)까지 수행해요. 결과물도 텍스트 요약이 아니라 confidence 마커와 인용이 달린 리포트 파일로 로컬에 저장됩니다.

Q: 어떤 상황에서 쓰면 좋나요?

"다출처 교차 검증이 필요한 비단순 질문"이 핵심 조건이에요. 시장·기술 동향 분석, 여러 출처를 모아야 하는 종합 리포트, 반론까지 포함한 균형 분석, 이후 파이프라인 연결이 필요한 리서치 등에서 강점을 발휘해요. 반대로 단일 사실 하나 확인(→ WebSearch), 코드 라이브러리 문법(→ context7 MCP), 빠른 아이디어 발산(→ brainstorming 스킬) 같은 경우엔 deep-research가 과한 선택이에요.

Q: ChatGPT Deep Research와 어떻게 다른가요?

둘 다 멀티 에이전트 기반 에이전트형 리서치라는 설계 철학은 비슷해요. 차이는 실행 환경과 산출물이에요. ChatGPT Deep Research는 웹 앱 UI에서 동작하고 결과가 앱 안에 남아요. Claude Code deep-research 스킬은 터미널에서 동작하고 결과가 로컬 파일로 저장돼서, 코드베이스나 다른 스킬과 파이프라인으로 연결할 수 있어요. 또 오픈소스라서 직접 수정도 가능하다는 차이가 있습니다.

Claude Code의 deep-research, 어떻게 작동하고 언제 써야 할까? — 쉽게 풀어쓴 가이드