아마 이런 순간을 겪어보셨을 겁니다. 코딩 에이전트가 우아한 리팩터링을 완성하고 완벽한 아키텍처 다이어그램을 생성한 후, "우리 최대 경쟁사는 지금 얼마에 팔고 있어?"라고 물었을 때 — 에이전트가 그럴듯한 거짓말을 하거나, 학습 데이터가 6개월 전에 끊겼다고 알려주는 순간 말입니다.
이건 모델의 잘못이 아닙니다. Claude, GPT, Gemini — 모두 추론 능력은 탁월합니다. 하지만 어느 것도 스스로 실시간 웹을 볼 수 없습니다. 그래서 개발자들은 Google API 키, 벡터 데이터베이스, LLM 호출을 이어 붙여서 본래 명령어 하나로 되어야 할 것을 구축하려고 애씁니다.
이 문제에는 이름이 있습니다. AI 에이전트 인프라에서의 검색 격차입니다. 그리고 해결책은 더 많은 RAG 파이프라인이 아닙니다. 완전히 다른 접근 방식입니다.
RAG는 내부 문서용으로 설계되었습니다. 인터넷용이 아닙니다.
Retrieval-Augmented Generation은 데이터가 벡터 데이터베이스에 있고 분기에 한 번 정도 변경될 때 아름답게 작동합니다. 직원 핸드북, 제품 사양, 과거 데이터. 인덱싱하고, 쿼리하고, 끝입니다.
문제는 인덱스에 없는 정보가 필요할 때 시작됩니다.
경쟁사가 새로운 가격 체계를 출시했습니다. 규제가 변경되었습니다. 여러분이 의존하는 라이브러리에 치명적인 버그가 발생해 Hacker News에서 모두가 이야기하고 있습니다. RAG 파이프라인은 이 중 아무것도 모릅니다. 알 수 없습니다 — 마지막으로 인덱스를 재구축했을 때 제공한 정보만 볼 수 있을 뿐입니다.
저는 팀들이 더 빠른 재구축 일정으로 이 문제를 해결하려는 것을 보았습니다. 그다음에는 하이브리드 검색으로, 그다음에는 내부 데이터와 외부 데이터를 위한 별도 파이프라인으로. 각 계층이 시스템을 더 유능하게 — 그리고 더 취약하게 만듭니다. 새로운 데이터 소스는 곧 새로운 통합입니다. 모든 통합은 새벽 2시에 장애를 일으킬 또 다른 요소입니다.
진짜 문제는 RAG가 나쁘다는 게 아닙니다. RAG가 "X에 대한 우리 회사 정책은 무엇인가"에 답하도록 설계되었을 뿐, "지금 세계에서 무슨 일이 일어나고 있는가"에 답하도록 설계되지 않았다는 점입니다.
Grounded Search가 실제로 하는 일
Grounded Search는 여러분이 묻는 순간 웹에서 실시간 정보를 가져옵니다. 인덱스에서도, 스냅샷에서도 아닙니다. 지금 이 순간 공개적으로 이용 가능한 모든 것에서, 모든 주장에 출처 URL이 첨부된 채로 말입니다.
이것은 여러분이 직접 조사하는 방식에 더 가깝습니다. 검색하고, 몇 가지 출처를 훑어보고, 답을 종합하고, 각 부분이 어디서 왔는지 인용하는 방식입니다. 차이점은 에이전트가 몇 분이 아닌 몇 초 만에 해낸다는 점입니다.
차이를 구체적으로 보여주는 간단한 비교:
| 항목 | 전통적 RAG | Grounded Search |
|---|---|---|
| 데이터 출처 | 여러분이 인덱싱한 문서 | 지금 현재의 실시간 웹 |
| 알 수 있는 범위 | 인덱싱한 것만 | 공개적으로 접근 가능한 모든 것 |
| 정보가 낡는 시점 | 원본이 변경되는 즉시 | 낡지 않음 — 매번 새로 가져옴 |
| 설정 | 인덱싱 파이프라인, 벡터 DB, 청킹 | CLI 명령어 하나 |
비공개 데이터 — 고객 기록, 내부 재무 정보, 공개 인터넷에 닿아서는 안 되는 모든 것 — 에 대해서는 RAG가 여전히 우위에 있습니다. 대부분의 팀이 최종적으로 도달하는 실용적 아키텍처는 이것입니다. 내부 지식에는 RAG, 외부 컨텍스트에는 Grounded Search. 에이전트는 질문 내용에 따라 선택합니다.
에이전트가 실제로 사용하는 방식
CLI가 의도적으로 단순한 이유는 에이전트가 라이브러리를 임포트하지 않고 명령어를 실행하기 때문입니다.
anycap search "Acme Corp enterprise pricing Q2 2026" \
--citations \
--output acme-pricing.json
에이전트는 인용이 포함된 구조화된 답변을 받습니다. 답변을 사용자에게 전달하거나, 워크플로우의 다음 단계에 입력하거나, 나중을 위해 저장할 수 있습니다. API 키를 다루는 번거로움도, Python SDK를 감싸는 작업도 없습니다. 에이전트가 ls나 git diff를 호출하는 것과 같은 방식으로 호출할 수 있는 도구일 뿐입니다.
이것을 강력하게 만드는 것은 검색 단독이 아닙니다. 검색이 에이전트가 연쇄적으로 사용할 수 있는 여러 도구 중 하나가 된다는 점입니다. 경쟁사 가격을 검색하고, 시장 환경을 심층 조사하고, 비교 비주얼을 생성하고, 모든 것을 보고서로 컴파일하고, 게시합니다.
하나의 CLI. 하나의 인증. 에이전트는 각 단계마다 커스텀 통합 코드 없이 여러 기능을 오갑니다.
저는 이 패턴이 특히 경쟁사 모니터링에서 효과적으로 작동하는 것을 보았습니다. 에이전트가 매주 경쟁사 가격을 확인하고, 이전 주와 비교하고, 변경 사항을 플래그 지정하고, Slack에 요약을 보냅니다. 크론 잡 하나, 미들웨어 제로.
검색 도구를 선택할 때 실제로 중요한 것
잠시 기능 비교표는 잊으세요. 제가 Grounded Search 도구를 평가한다면 실제로 테스트할 항목들입니다.
인용이 정확한가? 정답을 알고 있는 쿼리 20개를 테스트하세요. 각각에 대해 인용 링크를 클릭해서 도구가 주장한 내용을 실제로 뒷받침하는지 확인하세요. 잘못된 인용으로 "올바른" 답변을 반환하는 도구는 모른다고 인정하는 도구보다 더 위험합니다. 저는 실제로 반대 내용을 말하는 출처를 인용한 검색 도구의 "사실"을 쫓느라 반나절을 낭비한 적이 있습니다.
실제 속도는? 마케팅 레이턴시가 아닙니다. 50개의 에이전트가 동시에 요청할 때의 P99 레이턴시입니다. 검색 단계마다 8초를 기다리는 에이전트 파이프라인은 관련된 모든 사람을 좌절시킬 것입니다.
엣지 케이스를 우아하게 처리하는가? 모호한 것, 최근의 것, 출처 간 의견이 갈리는 것을 물어보세요. 좋은 도구는 갈등을 표면화합니다. 의견 불일치를 평균 내어 무의미한 답변으로 만드는 도구는 아닙니다.
CLI인가 SDK인가? 생각보다 훨씬 중요합니다. 에이전트는 from x import y를 하지 않습니다. 명령어를 실행합니다. Python 라이브러리 뒤에 숨은 도구는 여러분이 먼저 래퍼를 작성하지 않으면 에이전트가 사용할 수 없는 도구입니다.
생각보다 더 중요한 이유
검색 격차는 사소한 불편이 아닙니다. 에이전트가 실제 연구 워크플로우를 처리하지 못하게 하는 가장 큰 단일 요인입니다. 추론할 수 있지만 검색할 수 없는 에이전트는 Stack Overflow가 차단된 개발자와 같습니다 — 능력은 있지만 실제로 필요한 정보에서 단절되어 있습니다.
해결책은 복잡하지 않습니다. 다만 대부분의 팀이 처음에 선택하지 않을 뿐입니다. RAG는 익숙하고, 검색 격차는 에이전트가 신뢰한 사람에게 자신만만하게 잘못된 정보를 전달할 때에야 비로소 명백해지기 때문입니다.
에이전트가 그 벽에 부딪히고 있다면 — 내부 데이터에서는 완벽하게 작동하다가 외부 정보가 필요해지는 순간 무너진다면 — 아마도 모델 때문이 아닐 것입니다. 아마도 프롬프트 때문이 아닐 것입니다. 검색 아키텍처가 다른 문제를 위해 구축되었기 때문일 것입니다.
추가 읽을거리:
- 2026년 AI 에이전트를 위한 최고의 Deep Research 도구 — 단일 검색으로는 부족할 때
- 개발자를 위한 Google AI Search 가이드 — Google의 AI 검색 변화가 에이전트 빌더에게 의미하는 것
- 엔터프라이즈 검색을 위한 최고의 AI 도구 — Glean, Perplexity, Copilot과 Grounded Search 비교
- 에이전트 워크플로우: 완전 가이드 — 검색, 생성, 액션을 연쇄하는 파이프라인 구축