DeepSeek V4에 멀티모달 추가: 이미지, 비디오, 검색

DeepSeek V4는 텍스트 전용입니다. AnyCap을 사용하면 2분 이내에 DeepSeek V4 에이전트에 이미지 생성, 비디오, 웹 검색, 클라우드 저장소, 게시 기능을 추가할 수 있으며, 공급자별 API 키 없이 단 하나의 CLI로 가능합니다.

DeepSeek V4는 텍스트 전용 모델입니다. 이것은 버그가 아니라, 추론 비용을 낮추고 추론 성능을 높이기 위한 의도적인 설계 선택입니다. 하지만 에이전트가 방금 만든 랜딩 페이지용 히어로 이미지를 생성하거나, 제품 데모 영상을 만들거나, 최신 API 문서를 검색하거나, 생성한 자산을 안정적으로 보관해야 할 때, 텍스트 엔진만으로는 한계에 부딪힙니다. 여기서는 DeepSeek V4 기반 에이전트에 이미지 생성, 비디오, 웹 검색, 클라우드 저장소, 웹 퍼블리싱까지 포함한 완전한 멀티모달 기능을 2분 이내에 추가하는 방법을 소개합니다.

DeepSeek V4가 텍스트 전용인 이유와 그 의미

DeepSeek V4와 V4 Pro는 총 1T+ 파라미터를 가진 Mixture-of-Experts 언어 모델입니다. 이들은 추론 벤치마크에서 GPT-5.5와 Claude Opus 4.7에 필적합니다. 또한 100만 토큰 컨텍스트 윈도우를 지원해 전체 코드베이스를 입력할 수 있습니다. Claude Code와 OpenClaw 같은 에이전트 도구에 맞게 최적화되어 있습니다.

하지만 기본적으로 제공하지 않는 기능은 있습니다. 네이티브 이미지 생성, 비디오 생성, 오디오 처리, 웹 검색 기능입니다. 공식 문서는 이를 분명히 밝힙니다: "텍스트 전용. 미리보기에서는 네이티브 이미지, 오디오, 비디오 입력 또는 출력이 없습니다."

이것은 누락이 아닙니다. DeepSeek는 전략적 선택을 했습니다. 경쟁 모델 대비 훨씬 낮은 비용으로 최고의 텍스트 추론 엔진을 만들고($0.28/1M 입력 토큰 vs GPT-5.5의 $5/1M), 멀티모달 기능은 생태계에 맡긴 것입니다. 이 모델은 Apache 2.0 라이선스를 따르며, 양자화를 통해 소비자용 하드웨어에서도 실행됩니다. 빠르고, 저렴하며, 개방적입니다.

하지만 에이전트 워크플로는 텍스트만으로 끝나지 않습니다. 에이전트는 무언가를 만듭니다. 이미지, 비디오, 검색, 저장, 게시가 필요합니다. 그 간극을 메우는 방법은 다음과 같습니다.

멀티모달로 가는 두 가지 길: DIY MCP 서버 vs AnyCap 런타임

DeepSeek V4 에이전트가 빠뜨린 모든 기능 — 이미지 생성, 비디오, 웹 검색, 저장, 게시 — 은 MCP(Model Context Protocol)로 추가할 수 있습니다. MCP는 AI 에이전트가 외부 도구와 연결되도록 하는 개방형 표준입니다. Claude Code, Cursor, OpenClaw는 모두 MCP를 기본 지원합니다.

기능을 추가하는 방법은 두 가지입니다.

옵션 1: DIY — 개별 MCP 서버를 직접 설정

이미지 생성용 MCP 서버를 찾습니다. 설치합니다. 이미지 API 제공업체(Replicate, fal.ai, OpenAI Images)에서 계정을 만듭니다. API 키를 발급받습니다. 서버 설정을 .mcp.json에 추가합니다. 테스트합니다. 그런 다음 비디오 생성(다른 제공업체), 웹 검색(다른 제공업체), 클라우드 저장소(다른 제공업체), 웹 퍼블리싱(다른 제공업체)에 대해 같은 작업을 반복합니다.

결과: 공급자 5개, API 키 5개, .mcp.json 항목 5개, 변경 사항을 감시해야 할 지점 5개. 낙관적으로 잡아도 45~90분이 걸립니다.

옵션 2: AnyCap — 하나의 런타임, 모든 기능

단일 명령으로 AnyCap을 설치합니다. 하나의 런타임이 이미지 생성, 비디오 제작, 웹 검색, 클라우드 저장소(Drive), 웹 퍼블리싱(Page)을 모든 MCP 호환 에이전트에 추가합니다. 여기에는 Claude Code 또는 OpenClaw로 구성한 DeepSeek V4 환경도 포함됩니다.

결과: 설치 1번, 인증 흐름 1번, 크레딧 잔액 1개, 명령 표면 1개. 소요 시간: 2분 이내.

단계별: AnyCap으로 DeepSeek V4에 멀티모달 추가하기

사전 조건

DeepSeek V4 API 접근 권한(DeepSeek 플랫폼, OpenRouter 또는 자체 호스팅)
Claude Code, Cursor 또는 OpenClaw 설치 완료(AnyCap은 MCP 호환 에이전트 셸과 함께 동작)
터미널 접근 권한

1단계: AnyCap 설치

npx -y skills add anycap-ai/anycap -a claude-code

이 명령은 AnyCap 기능 런타임을 MCP 스킬로 설치합니다. 이제 에이전트는 AnyCap 도구를 직접 호출할 수 있습니다. Claude Code, Cursor, OpenClaw를 사용하더라도 명령은 동일합니다.

2단계: 인증하기

anycap login

브라우저가 열려 1회성 인증을 진행합니다. 로그인 후 세션 토큰은 로컬에 저장됩니다. 더 이상 API 키를 관리할 필요가 없습니다. AnyCap이 다섯 가지 기능의 인증을 모두 처리합니다.

3단계: 에이전트가 DeepSeek V4를 사용하도록 설정

Claude Code에서는 모델 라우팅을 DeepSeek V4로 설정합니다.

# OpenRouter 경유(권장 API 접근 방식)
export OPENROUTER_API_KEY=sk-or-your-key
claude --model openrouter/deepseek/deepseek-v4-pro

또는 Cursor에서: Settings → Models → OpenRouter 또는 커스텀 엔드포인트로 DeepSeek V4 추가.

이제 에이전트는 추론과 코드 생성은 DeepSeek V4로, 멀티모달 기능은 AnyCap으로 사용합니다.

4단계: 첫 이미지 생성

에이전트 세션에서 다음과 같이 입력합니다.

Generate a hero image for a SaaS landing page about AI agent analytics.

DeepSeek V4가 추론을 담당하는 에이전트는 이미지 생성을 위해 AnyCap을 호출합니다. 이미지는 AnyCap Drive에 저장되고, 공유 가능한 링크를 받게 됩니다.

5단계: 비디오 생성

Create a 30-second product demo video showing how the analytics dashboard works.

같은 에이전트 세션, 같은 인증입니다. 에이전트는 anycap video generate를 호출합니다. 새 제공업체를 추가로 설정할 필요가 없습니다.

6단계: 웹 검색

Search for the latest DeepSeek V4 API pricing changes and summarize them.

에이전트는 AnyCap의 검색 기능으로 실시간 웹 결과를 가져옵니다. 100만 토큰 컨텍스트를 가진 DeepSeek V4는 검색 결과 전체를 한 번에 흡수하고 요약할 수 있습니다.

7단계: 저장 및 게시

Store the generated hero image and demo video in Drive, then publish a changelog page with both assets embedded.

AnyCap Drive는 저장과 공유 링크를 처리합니다. AnyCap Page는 게시를 담당합니다. 에이전트는 생성 → 저장 → 게시의 전체 흐름을 다섯 개의 서로 다른 제공업체 통합 사이를 오가지 않고 수행합니다.

이제 DeepSeek V4 에이전트가 할 수 있는 일

기능	AnyCap 이전	AnyCap 이후
코드 추론	✅ 1M 토큰당 $0.28로 세계 최고 수준	✅ 1M 토큰당 $0.28로 세계 최고 수준
이미지 생성	❌ 텍스트 전용 모델	✅ `anycap image generate`
비디오 생성	❌ 텍스트 전용 모델	✅ `anycap video generate`
웹 검색	❌ 텍스트 전용 모델	✅ `anycap search`
파일 저장	❌ 텍스트 전용 모델	✅ `anycap drive upload`
콘텐츠 게시	❌ 텍스트 전용 모델	✅ `anycap page publish`

DeepSeek V4는 추론을 맡고, AnyCap은 나머지를 맡습니다. 이것이 가장 합리적인 아키텍처입니다. 가장 저렴한 최전선 추론 모델과, 모든 멀티모달 공백을 채우는 기능 런타임의 조합입니다.

이 아키텍처가 DeepSeek의 멀티모달 출시를 기다리는 것보다 나은 이유

DeepSeek는 멀티모달 기능을 개발 중이라고 밝혔습니다. 하지만 일정은 없습니다. V4 프리뷰는 여전히 텍스트 전용입니다. "DeepSeek-V4에는 아직 멀티모달이 없지만, 나는 기다릴 것이다."라는 제목의 Reddit 스레드는 개발자들의 분위기를 잘 보여줍니다.

기다린다는 것은 에이전트가 알 수 없는 수개월 동안 텍스트 전용으로 남는다는 뜻입니다. AnyCap을 통해 기능을 추가하면, 에이전트는 오늘 당장 멀티모달 작업을 수행할 수 있습니다. 그리고 DeepSeek가 결국 네이티브 멀티모달을 출시하더라도, 이미 여러 모델에서 동작하는 런타임을 갖추고 있게 됩니다. 특정 모델에 종속되지 않습니다.

더 중요한 점은, DeepSeek가 네이티브 멀티모달을 추가하더라도 아마 이미지 이해와 이미지 생성 정도를 커버할 가능성이 큽니다. 비디오 생성, 웹 검색, 클라우드 저장소, 웹 퍼블리싱은 모델 기능이 아니라 플랫폼 기능이기 때문입니다. AnyCap 같은 기능 런타임은 어떤 단일 모델이 네이티브로 무엇을 지원하든 계속 유용합니다.

FAQ

DeepSeek V4는 네이티브 이미지 생성을 지원하나요?

아니요. 2026년 4월 프리뷰 기준으로 DeepSeek V4와 V4 Pro는 텍스트 전용 모델입니다. 공식 문서는 "네이티브 이미지, 오디오 또는 비디오 입력/출력 없음"이라고 명시합니다. 이미지 생성은 MCP 서버나 AnyCap 같은 기능 런타임으로 추가할 수 있습니다.

DeepSeek V4를 Claude Code와 함께 사용할 수 있나요?

네. CNBC는 DeepSeek V4가 Claude Code와 OpenClaw에 맞게 최적화되었다고 보도했습니다. OpenRouter나 커스텀 API 엔드포인트를 통해 Claude Code를 DeepSeek V4로 라우팅할 수 있습니다. AnyCap은 기능 계층으로 함께 설치됩니다.

멀티모달 DeepSeek V4 에이전트를 가장 저렴하게 운영하는 방법은 무엇인가요?

추론에는 DeepSeek V4 Flash($0.14/1M 입력 토큰), 에이전트 셸로는 Claude Code 또는 OpenClaw, 멀티모달 기능에는 AnyCap($5 무료 크레딧 제공)을 사용하세요. 코드 생성, 이미지 생성, 웹 검색이 포함된 세션의 총비용은 DeepSeek API 요금과 AnyCap 크레딧 사용량뿐이며, GPT-5.5로 같은 워크플로를 실행하는 것보다 훨씬 저렴합니다.

AnyCap은 셀프 호스팅된 DeepSeek V4와도 작동하나요?

네. DeepSeek V4를 로컬이나 자체 인프라에서 실행하는 경우에도 AnyCap은 독립적인 MCP 스킬로 설치됩니다. 에이전트 셸(Claude Code, Cursor, OpenClaw)이 셀프 호스팅 엔드포인트로 라우팅을 담당하고, AnyCap이 멀티모달 기능을 담당합니다.

에이전트 워크플로에서 DeepSeek V4와 GPT-5.5는 어떻게 비교되나요?

DeepSeek V4 Pro는 agentic coding 벤치마크에서 GPT-5.5와 같거나 그 이상을 보이면서, 토큰당 비용은 대략 1/18 수준입니다. GPT-5.5는 DALL-E 통합을 통한 네이티브 이미지 생성을 제공하지만, DeepSeek V4는 그렇지 않습니다. AnyCap을 사용하면 DeepSeek V4도 이미지 생성, 비디오, 검색, 저장, 게시 기능을 확보해 비용 우위를 유지하면서 기능 격차를 해소할 수 있습니다.

DeepSeek V4 에이전트에 멀티모달을 추가하세요:

npx -y skills add anycap-ai/anycap -a claude-code

AnyCap 설치 · DeepSeek V4 개발자 가이드 · Claude Code 설정

DeepSeek V4 에이전트에 멀티모달 기능을 추가하는 방법 (2026)