모든 주요 AI 기업이 이제 "딥 리서치" 기능을 제공합니다. Google도, OpenAI도, Perplexity도 갖추고 있습니다. 데모에서는 모두 인상적입니다 — 복잡한 질문을 하고 몇 분 기다리면 출처가 포함된 여러 페이지 분량의 보고서를 받습니다.
문제는 품질이 아닙니다. 이 도구들 중 어느 것도 여러분의 에이전트가 사용하도록 설계되지 않았다는 점입니다.
이들은 채팅 인터페이스 안에 갇혀 있습니다. 사람이 읽기 위한 형식의 보고서를 만들 뿐, 후속 처리를 위한 구조화된 데이터를 제공하지 않습니다. 에이전트가 프로그래밍 방식으로 도구를 호출할 수 없다면, 그 도구는 워크플로우에 존재하지 않는 것과 같습니다.
딥 리서치가 실제로 다르게 하는 일
일반 검색 — grounded search조차도 — 한 번의 패스로 하나의 질문에 답합니다. 질문하면 검색하고, 종합합니다.
딥 리서치는 복잡한 질문을 하위 질문으로 분해하고, 여러 차례 검색을 실행하며, 상충하는 출처를 상호 참조하고, 결과를 구조화된 보고서로 정리합니다. "Acme의 가격은 얼마인가요?"와 "기업용 AI 검색 도구의 경쟁 환경을 분석하세요 — 가격, 차별화 요소, 개발자 평가를 포함하여"의 차이입니다.
결과물은 한 문단이 아닙니다. 20100개 이상의 출처가 종합되어 분석가 보고서에 가까운 형태로 제공됩니다. 지연 시간도 그에 비례하여 길어집니다 — 몇 초가 아닌 215분. 비용도 더 높습니다 — 1센트 미만이 아닌 보고서당 $0.50~$5 이상.
에이전트가 실제로 사용할 수 있는지에 따른 도구 순위
AnyCap Deep Research는 에이전트를 위해 만들어진 유일한 도구입니다. 스킬로 설치하고(claude mcp add anycap-cli-nightly), 에이전트가 다른 도구처럼 호출합니다. 출력은 구조화되어 있습니다 — 텍스트 보고서가 아닌, 섹션, 인용, 신뢰도 점수가 포함된 JSON입니다. 에이전트는 이를 파싱하고, 필터링하고, 워크플로우의 다음 단계로 전달할 수 있습니다:
anycap research \
--query "AI agent capability runtime market Q2 2026" \
--depth comprehensive --output market-analysis.md
Google Gemini Deep Research는 훌륭한 보고서를 생성합니다. 검색 품질에 중요한 Google의 검색 인덱스를 기반으로 합니다. 하지만 API 출력은 포맷된 텍스트일 뿐 — 구조화된 인용도, JSON 섹션도 없습니다. 에이전트가 호출할 수는 있지만, 출력 파싱이 취약합니다. Google이 포맷을 바꾸면 파서가 깨집니다.
Perplexity Deep Research는 깔끔한 인용과 실시간 웹 액세스를 갖추고 있습니다 — Perplexity의 핵심 강점입니다. 하지만 딥 리서치는 UI 전용입니다. API 엔드포인트가 없습니다. 에이전트가 말 그대로 호출할 수 없습니다.
OpenAI Deep Research는 월 $200의 ChatGPT Pro 구독이 필요하며 역시 UI 전용입니다. 보고서는 철저합니다 — o3 기반 추론은 다단계 연구에 진정으로 뛰어납니다. 하지만 API가 없습니다. 에이전트가 사용할 방법이 없습니다.
GPT Researcher와 STORM은 직접 호스팅하는 오픈소스 대안입니다. 완전한 통제가 가능하고 쿼리당 비용이 없습니다. 절충점: 자체 호스팅 웹 크롤링은 Google이나 Bing이 지원하는 도구의 검색 품질보다 현저히 떨어집니다. 설정도 만만치 않습니다. 유지보수할 팀이 있고 볼륨이 인프라를 정당화할 수 있다면 실행 가능합니다. 대부분의 팀은 그렇지 못합니다.
데모 너머에서 살펴볼 것
소비자용 딥 리서치가 데모에서 잘 보이는 이유는 인상적인 보고서를 만들어내기 때문입니다. 에이전트 사용을 위해 도구를 평가할 때는 기준이 달라집니다:
에이전트가 구조화된 출력을 얻을 수 있는가? "내가 보고서를 읽을 수 있는가"가 아닙니다. 에이전트가 섹션을 파싱하고, 인용을 추출하고, 파이프라인의 다음 단계에서 발견 사항을 사용할 수 있는지입니다. 도구가 텍스트 덩어리를 반환한다면 답은 '아니요'입니다.
인용 밀도는 어느 정도인가? 모든 주장을 출처에 연결하는 인용이 없는 딥 리서치 보고서는 더 나은 포맷의 자신감 넘치는 환각일 뿐입니다. 처음 몇 개의 보고서에서 인용을 무작위로 샘플링해 보세요. 인용이 실제로 주장을 뒷받침하지 않는 경우가 얼마나 많은지 놀랄 것입니다.
깊이를 제어할 수 있는가? 빠른 경쟁 개요는 5~10개의 출처와 2분이 필요합니다. 포괄적인 환경 분석은 50개 이상의 출처와 10분 이상이 필요합니다. 도구는 선택할 수 있게 하고, 실행 전에 비용을 알려줘야 합니다.
CLI인가 UI인가? 이것이 대부분의 옵션을 제거하는 필터입니다. 도구가 채팅 인터페이스에만 존재한다면 에이전트가 사용할 수 없습니다. 평가는 거기서 끝입니다.
실제 워크플로우에서 딥 리서치가 자리하는 곳
딥 리서치의 가치는 연구 자체가 아닙니다. 그 이후에 일어나는 일입니다.
경쟁 분석을 수행하는 에이전트는 먼저 시장 환경을 딥 리서치합니다. 그런 다음 발견한 각 경쟁사의 가격 정보를 검색합니다. 그다음 비교 인포그래픽을 생성합니다. 마지막으로 모든 것을 보고서로 정리해 발행합니다.
네 개의 CLI 명령이 목표를 이해하는 에이전트에 의해 연결됩니다:
anycap research --query "AI search tools market 2026" --depth comprehensive --output landscape.md
anycap search "competitor-name pricing 2026" --citations --output pricing.json
anycap image generate --prompt "comparison infographic from landscape.md" -o comparison.png
anycap page publish report.md --title "AI Search Tools: Market Analysis 2026"
SDK도 없고, 미들웨어도 없습니다. 런타임에 존재하기 때문에 에이전트가 호출할 수 있는 도구들일 뿐입니다.
추가 읽을거리:
- AI 에이전트를 위한 AI 검색: Grounded Search vs RAG — Grounded Search와 딥 리서치가 상호 보완하는 방법
- AI 워크플로우 자동화: 에이전트 파이프라인 구축하기 — 전체 파이프라인: 연구 → 생성 → 발행
- 2026년 에이전트 분석 도구 — 딥 리서치가 분석 워크플로우에 어떻게 맞는지