
대부분의 AI 도구는 인간을 위해 설계되었습니다. 그래픽 인터페이스, 버튼, 드롭다운 메뉴, 시각적 피드백을 갖추고 있죠. 클릭하고 스크롤하는 사람이 반대편에 있다고 가정합니다.
AI 에이전트는 클릭하지 않습니다. 스크롤하지도 않습니다. 구조화된 텍스트를 읽고 API 호출을 수행합니다.
이러한 불일치 — 인간이 설계한 도구를 비인간 에이전트가 사용하는 것 — 는 에이전트 스택의 모든 계층에서 마찰을 일으킵니다. 해결책은 에이전트 우선 설계(Agent-First Design) 라는 디자인 철학입니다: 인간이 사용하는 것뿐만 아니라 에이전트가 소비할 수 있도록 설계된 도구를 만드는 것입니다.
GUI 문제: 인간 인터페이스가 에이전트를 망가뜨리는 이유
에이전트가 인간용 도구를 사용하려고 할 때 세 가지 문제에 직면합니다:
1. 시각적 의존성
인간은 버튼을 보고 클릭합니다. 에이전트는 HTML 마크업을 보고 어떤 요소가 어떤 작업을 트리거하는지 파악해야 합니다. 비전 기능이 있는 모델에서도 인간의 눈을 위해 설계된 인터페이스를 파싱하는 것은 느리고, 오류가 발생하기 쉬우며, 토큰 비용이 많이 듭니다.
2. 상태 유지 세션
인간용 도구는 지속적인 세션을 가정합니다. 한 번 로그인하고, 로그인 상태를 유지하며, 여러 페이지를 탐색합니다. 에이전트는 일시적인 환경에서 실행됩니다 — 각 세션은 새로 시작됩니다. 인간을 위해 설계된 웹 흐름을 통해 재인증하는 것은 취약합니다.
3. 비구조화된 출력
인간용 도구는 레이아웃, 이미지, 대화형 요소가 포함된 풍부한 HTML 페이지를 반환합니다. 에이전트는 결정을 내리기 위해 구조화된 데이터 — 예측 가능한 스키마의 JSON 객체 — 가 필요합니다. 데이터 추출을 위해 HTML을 파싱하는 것은 해결된 문제이지만, 그래야 할 필요가 없어야 합니다.
에이전트 우선 설계란 어떤 모습인가
에이전트 우선 도구에는 네 가지 특성이 있습니다:
1. 터미널 네이티브 인터페이스
주요 인터페이스는 GUI가 아닌 CLI입니다. 에이전트는 버튼을 클릭하는 대신 명령을 호출합니다.
# 에이전트 우선
anycap image generate --model nano-banana-2 --prompt "hero image" -o hero.png
# 인간 우선 방식의 동등한 작업
브라우저 열기 → 웹사이트 이동 → "생성" 클릭 → 프롬프트 입력 → "만들기" 클릭 → 대기 → 다운로드
CLI 버전은 하나의 명령입니다. 인간 버전은 7단계입니다. 에이전트에게 CLI 버전은 단순히 더 빠른 것이 아니라 — 안정적으로 작동하는 유일한 버전입니다.
2. 구조화되고 예측 가능한 출력
모든 응답은 기계가 읽을 수 있는 JSON입니다. 스키마는 모든 기능에서 일관됩니다. 에이전트는 다섯 개의 서로 다른 도구에서 다섯 개의 서로 다른 응답 형식을 처리할 필요가 없습니다.
{
"status": "success",
"local_path": "/workspace/hero.png",
"url": "https://cdn.example.com/hero.png",
"model": "nano-banana-2",
"dimensions": "1024x1024"
}
HTML 파싱도, 정규식 추출도, 추측도 없습니다.
3. 무상태 인증
에이전트는 한 번 인증하고 자격 증명이 유지됩니다. 브라우저 쿠키도, 인간의 재로그인이 필요한 세션 타임아웃도 없습니다. 일시적 환경에서도 작동하는 토큰이나 API 키만 있으면 됩니다.
4. 검색 가능한 명령
에이전트는 인간을 위해 작성된 문서를 읽지 않고도 사용 가능한 도구를 발견할 수 있습니다. 도움말 명령이나 스키마 엔드포인트가 사용 가능한 명령, 해당 매개변수, 예상 출력 형식을 모두 구조화된 형태로 반환합니다.
대부분의 AI 도구가 이를 잘못하는 이유
AI 업계는 시각적 인터페이스에 편향되어 있습니다. 이해할 만합니다 — 시각적 요소는 제품을 판매합니다. 투자자는 대시보드를 보고 싶어 합니다. 사용자는 진행률 표시줄을 보고 싶어 합니다.
하지만 에이전트는 대시보드에 관심이 없습니다. 지연 시간, 안정성, 구조화된 출력에 관심이 있습니다. 인간의 눈을 위해 설계된 UI의 모든 픽셀은 소비자가 에이전트일 때 오버헤드입니다.
이것이 API 우선 기업이 에이전트 시대에 이점을 갖는 이유입니다. 그들의 도구는 이미 프로그래밍 방식 접근을 위해 설계되었습니다. 그러나 API 우선 도구조차도 종종 부족합니다: 서로 다른 스키마를 반환하고, 서로 다른 인증 방법을 사용하며, 서로 다른 속도 제한 동작을 가집니다.
에이전트 우선 설계는 한 걸음 더 나아갑니다: 모든 기능에서 인터페이스를 통일합니다. 에이전트는 하나의 패턴을 배우고 어디에나 적용합니다.
인간 우선 설계의 토큰 비용
에이전트 우선 설계는 단순한 철학이 아닙니다 — 에이전트 성능과 비용에 측정 가능한 영향을 미칩니다.
번들형 기능 런타임(에이전트 우선)을 사용하는 에이전트와 다섯 개의 개별 MCP 서버(도구로 포장된 인간 우선 설계)를 사용하는 에이전트의 차이를 생각해 보세요:
| 에이전트 우선 런타임 | 5개의 개별 MCP 서버 | |
|---|---|---|
| 도구 설명 (토큰) | ~2,000 | ~24,000 |
| 처리할 출력 형식 | 1개 (JSON) | 5개 (JSON, 텍스트, 바이너리, HTML) |
| 인증 흐름 | 1개 | 5개 |
| 기억할 명령 | 5개 (일관됨) | 25개 이상 (다양함) |
| 오류 패턴 | 1가지 유형 | 5가지 다른 유형 |
토큰 절약만으로도 — 세션당 22,000 토큰이 확보됨 — 에이전트가 실제 추론에 더 많은 컨텍스트를 사용할 수 있음을 의미합니다. 200K 컨텍스트 윈도우에서 이는 코드, 대화, 복잡한 지침을 위한 11% 더 많은 공간입니다.
에이전트 우선 스택
에이전트 우선 개발 스택에는 세 가지 원칙이 있습니다:
GUI보다 CLI. 모든 기능은 터미널 명령을 통해 노출됩니다. 브라우저 자동화, 스크린샷 파싱, 요소 선택은 없습니다.
HTML보다 JSON. 모든 출력은 구조화됩니다. 에이전트는 응답이 무엇을 의미하는지 "알아내야" 할 필요가 전혀 없습니다. 스키마가 알려줍니다.
여럿보다 하나. 하나의 자격 증명, 하나의 출력 형식, 하나의 오류 처리 패턴. 에이전트는 한 번 배우고 어디에나 적용합니다.
도구 제작자에게 의미하는 것
AI 에이전트 시대를 위한 도구를 만들고 있다면:
- CLI 바이너리를 먼저 출시하고, 대시보드는 나중에. 에이전트는 대시보드를 사용할 수 없습니다.
- 형식화된 텍스트가 아닌 JSON을 반환하세요. 에이전트는 JSON을 파싱합니다. 인간은 둘 다 읽을 수 있습니다.
- 하나의 인증 모델을 사용하세요. 인간용은 OAuth. 에이전트용은 API 키 또는 디바이스 플로우.
- 기계를 위해 문서화하세요. 구조화된 출력을 반환하는
--help플래그가 문서 페이지보다 낫습니다. - 워크플로우가 아닌 명령으로 생각하세요. "이미지 생성"은 명령입니다. "여기를 클릭하고, 그 다음 저기를 클릭하세요"는 인간의 워크플로우입니다.
변화는 이미 시작되었습니다
Claude Code, Codex CLI, Windsurf, Cursor는 모두 터미널 또는 터미널 인접 환경에서 실행됩니다. 필요에 의해 에이전트 우선입니다 — 샌드박스 VM에는 GUI가 없기 때문입니다.
하지만 이들이 연결하는 도구들은 아직 따라잡지 못했습니다. 대부분의 MCP 서버는 인간용 API를 감싼 래퍼입니다. 대부분의 이미지 생성 도구는 인간이 참조 사진을 업로드한다고 가정합니다. 대부분의 스토리지 솔루션은 브라우저 기반 업로드 흐름을 기대합니다.
에이전트 우선 설계는 다음 물결입니다. 트렌디해서가 아니라, 에이전트가 문자 그대로 다른 것을 사용할 수 없기 때문입니다.
마지막 업데이트: 2026년 5월