하나의 CLI, 다섯 가지 기능: 번들형 에이전트 런타임이 이기는 이유

하나의 CLI와 하나의 인증으로 이미지 생성, 비디오, 웹 검색, 클라우드 스토리지, 퍼블리싱까지 처리합니다. 번들형 capability runtime이 AI 코딩 에이전트의 설정 부담을 어떻게 없애는지 설명합니다.

by AnyCap

AnyCap-style flagship hero with one centered CLI and five large capability cards, keeping the brand system but giving this page its own homepage-style composition

시각적으로 설명하면, 한 번의 설치와 하나의 CLI만으로 이미 돌아가고 있는 에이전트 워크플로에 빠져 있는 기능 계층을 추가할 수 있다는 뜻입니다.

당신의 AI 코딩 에이전트는 똑똑합니다. 여러 단계의 리팩터링을 계획하고, 아키텍처를 추론하고, 실제 운영 수준의 코드를 생성할 수 있습니다. 하지만 텍스트를 넘어서는 무언가 — 이미지, 비디오, 웹 검색 결과, 배포된 페이지 — 를 만들어야 하는 순간 멈춰 버립니다.

역량이 없어서가 아닙니다. 도구가 없기 때문입니다.

기존의 해결 방식은 개별 서비스를 각각 설정하는 것이었습니다. 여기엔 이미지 API, 저기엔 비디오 API, 검색용 MCP 서버, 클라우드 스토리지 버킷, 배포 플랫폼이 필요합니다. 각각 별도의 API 키와 설정, 유지보수가 필요합니다. 에이전트가 코드 한 줄 쓰기 전에 이미 한 시간을 인프라에 써버리게 됩니다.

더 나은 방법이 있습니다. 하나의 CLI, 하나의 인증, 다섯 가지 기능입니다.


모든 에이전트에 필요한 다섯 가지 기능

1. 이미지 생성

에이전트가 랜딩 페이지를 만듭니다. 그러려면 히어로 이미지가 필요합니다. 이미지 생성 기능이 없으면 HTML만 작성하고 멈춥니다. 시각 자산은 당신이 직접 찾아오거나 만들어야 합니다.

이미지 생성 기능이 있으면 에이전트가 직접 이미지를 만듭니다.

anycap image generate --model nano-banana-2 --prompt "modern SaaS dashboard" -o hero.png

명령 하나면 됩니다. CDN URL이 반환됩니다. 모델 선택도, API 키 관리도, 포맷 변환도 필요 없습니다. 런타임이 전부 처리합니다.

2. 비디오 생성

제품 데모, 기능 안내, 소셜 미디어 콘텐츠. 에이전트는 스크립트는 쓸 수 있지만 비디오는 만들지 못합니다. 그 기능을 주지 않는 한 말이죠.

비디오는 이미지보다 더 어렵습니다. 렌더 시간, 포맷 제약, 모델 선택이 얽혀 있습니다. 전용 비디오 기능은 이 모든 복잡성을 하나의 명령 뒤로 숨겨 줍니다.

3. 근거 기반 웹 검색

에이전트는 React 20에서 무엇이 바뀌었는지, 경쟁사가 얼마를 받고 있는지, 최신 보안 권고에 무엇이 담겨 있는지를 알아야 할 수 있습니다. 검색 기능이 없으면 당신이 에이전트와 인터넷 사이를 이어 주는 인간 브리지 역할을 해야 합니다.

근거 기반 검색은 출처가 포함된 요약 답변을 반환합니다. 단순한 URL 목록이 아닙니다. 에이전트는 파싱할 원시 HTML이 아니라 바로 활용할 수 있는 정보를 받습니다.

4. 클라우드 스토리지

에이전트는 파일을 생성합니다. 그다음엔 어디로 가야 할까요? 클라우드 스토리지는 출력을 공유 가능한 산출물로 바꿉니다. 이미지는 CDN URL이 되고, 빌드는 저장되고 버전 관리되며, 보고서는 어디서든 접근할 수 있습니다.

스토리지가 없으면 에이전트는 모든 것을 로컬에 저장합니다. 업로드는 당신이 수동으로 처리해야 합니다.

5. 퍼블리싱

페이지를 만들 수는 있지만 배포할 수 없는 에이전트는 절반만 끝낸 것입니다. 퍼블리싱은 이 루프를 닫아 줍니다. 에이전트가 페이지를 만들고, 자산을 생성하고, 저장하고, 한 세션 안에서 결과를 게시합니다.


왜 하나의 CLI가 중요한가

대안인 기능별 개별 MCP 서버 방식에는 숨은 비용이 있습니다.

개별 MCP 서버 5개 번들형 CLI 1개
설정 시간 약 75분 약 2분
관리해야 할 API 키 6개 1개
토큰 오버헤드 약 24,000토큰 약 2,000토큰
유지보수 서버별 개별 업데이트 단일 업데이트
출력 형식 서버마다 다름 통합 JSON
온보딩 신규 팀원당 자격 증명 6개 자격 증명 1개

토큰 관점의 계산도 강력합니다. 도구 설명에 쓰는 토큰이 22,000개 줄어들면 200K 컨텍스트 윈도의 11%를 실제 작업에 더 쓸 수 있습니다. 50턴짜리 에이전트 세션이라면 생산적인 상호작용이 15턴 더 늘어나는 셈입니다.


실제로 “하나의 CLI”가 의미하는 것

즉, 에이전트의 워크플로가 다음과 같은 상태에서,

에이전트: "히어로 이미지가 필요합니다."
사람: API 키를 설정하고, MCP 서버를 구성하고, 연결을 테스트한다.
에이전트: 이미지 도구를 호출한다.
에이전트: "이제 경쟁사 가격 정보가 필요합니다."
사람: 또 다른 API 키와 또 다른 MCP 서버를 설정한다.
에이전트: 검색 도구를 호출한다.
에이전트: "이제 빌드를 저장합니다."
사람: S3 자격 증명과 세 번째 MCP 서버를 설정한다.

다음처럼 바뀐다는 뜻입니다.

에이전트: 이미지 도구 호출 → CDN URL 획득 ✅
에이전트: 검색 도구 호출 → 출처 포함 결과 획득 ✅
에이전트: 스토리지 도구 호출 → 자산 업로드 완료 ✅
에이전트: 퍼블리시 도구 호출 → 페이지 라이브 ✅

중간에 사람이 개입하지 않습니다. 인프라를 붙잡고 돌볼 필요도 없습니다. 에이전트가 자신이 만든 것을 직접 배포합니다.


아키텍처

번들형 capability runtime은 에이전트와 서비스들 사이에 위치합니다.

에이전트 (Claude Code, Cursor, Codex)
    │
    ▼
Capability Runtime (단일 CLI)
    │
    ├── 이미지 생성 (Nano Banana 2, Seedream 5)
    ├── 비디오 생성 (Veo 3.1, Kling 3.0, Seedance)
    ├── 웹 검색 (근거 기반, 출처 포함)
    ├── 클라우드 스토리지 (Drive, CDN)
    └── 퍼블리싱 (정적 페이지 배포)

에이전트는 하나의 엔드포인트와만 통신합니다. 런타임이 모델 선택, 인증, rate limiting, 출력 포맷팅을 처리합니다. 에이전트는 어떤 기능을 호출하든 매번 구조화된 JSON을 받습니다.


이런 팀과 개발자에게 적합합니다

번들형 런타임이 특히 잘 맞는 경우는 다음과 같습니다.

  • 개인 개발자라면 한 시간 뒤가 아니라 지금 바로 기능을 쓰고 싶을 때
  • 소규모 팀이라면 도구 인프라를 유지할 전담 DevOps가 없을 때
  • 에이전트에 4개 이상의 기능이 필요하다면 여러 MCP 서버로 인한 토큰 비대화가 실제 문제가 될 때
  • 프로토타이핑 중이라면 도구 설정이 추진력을 꺾지 않게 하고 싶을 때
  • 일관성을 중시한다면 출력 형식도 하나, 에러 패턴도 하나, 배워야 할 것도 하나로 가져가고 싶을 때

내부 데이터베이스나 Slack 봇처럼 특화된 도구 한두 개만 필요하다면 개별 MCP 서버가 맞는 선택입니다. 하지만 모든 에이전트가 필요로 하는 다섯 가지 기능 — 이미지, 비디오, 검색, 스토리지, 퍼블리싱 — 에 대해서는 묶어서 제공하는 편이 설정 비용 자체를 사라지게 합니다.


진짜 이점: 에이전트가 끝까지 배포한다

결국 중요한 지표는 설정 시간이나 토큰 수가 아닙니다. 에이전트가 시작한 일을 끝까지 마치는지가 중요합니다.

기능이 없으면 에이전트는 코드를 작성한 뒤 당신에게 넘깁니다. 마지막 구간 — 이미지, 자산, 배포 — 는 당신 몫입니다.

capability runtime이 있으면 에이전트가 전체 파이프라인을 처리합니다. 코드, 자산, 스토리지, 배포까지 모두 다룹니다. 당신은 중간 과정을 보는 대신 결과를 검토합니다.

이것이 일을 돕는 에이전트와 실제로 일을 해내는 에이전트의 차이입니다.


최종 업데이트: 2026년 5월


다음에 읽을 글