O DeepSeek V4 é um modelo apenas de texto. Isso não é um bug — é uma escolha de design deliberada que mantém o custo de inferência baixo e a qualidade de raciocínio alta. Mas quando o seu agente precisa gerar uma imagem de destaque para a landing page que acabou de criar, fazer um vídeo de demonstração do produto, buscar a documentação mais recente da API ou armazenar os ativos gerados de forma durável, um mecanismo apenas de texto bate em uma parede. Veja como adicionar capacidades multimodais completas — geração de imagens, vídeo, busca na web, armazenamento em nuvem e publicação na web — a um agente alimentado por DeepSeek V4 em menos de dois minutos.
Por que o DeepSeek V4 é apenas texto (e por que isso importa)
O DeepSeek V4 e o V4 Pro são modelos de linguagem Mixture-of-Experts com mais de 1T parâmetros no total. Eles competem com GPT-5.5 e Claude Opus 4.7 em benchmarks de raciocínio. Eles suportam uma janela de contexto de 1 milhão de tokens — suficiente para ingerir codebases inteiras. Foram otimizados para ferramentas de agente como Claude Code e OpenClaw.
O que eles não têm: geração nativa de imagens, criação de vídeos, processamento de áudio ou recursos de busca na web. A documentação oficial é explícita: "Apenas texto. Sem entrada ou saída nativa de imagem, áudio ou vídeo na versão de preview."
Isso não é uma omissão. O DeepSeek fez uma escolha estratégica: construir o melhor mecanismo de raciocínio textual possível por uma fração do custo dos modelos concorrentes ($0.28/1M tokens de entrada vs GPT-5.5 a $5/1M) e deixar as capacidades multimodais para o ecossistema. O modelo tem licença Apache 2.0. Roda em hardware de consumo com quantização. É rápido, barato e aberto.
Mas o seu fluxo de trabalho de agente não é só texto. Ele constrói coisas. Precisa de imagens, vídeos, busca, armazenamento e publicação. Veja como fechar essa lacuna.
Dois caminhos para multimodal: servidores MCP DIY vs runtime AnyCap
Cada capacidade que falta ao seu agente DeepSeek V4 — geração de imagens, vídeo, busca na web, armazenamento, publicação — pode ser adicionada via MCP (Model Context Protocol). MCP é o padrão aberto que permite aos agentes de IA se conectarem a ferramentas externas. Claude Code, Cursor e OpenClaw oferecem suporte nativo a MCP.
Você tem duas opções para adicionar capacidades:
Opção 1: DIY — configurar servidores MCP individuais
Encontre um servidor MCP de geração de imagens. Instale-o. Crie uma conta em um provedor de API de imagens (Replicate, fal.ai ou OpenAI Images). Obtenha uma chave de API. Adicione a configuração do servidor ao .mcp.json. Teste. Depois repita para geração de vídeo (provedor diferente), busca na web (provedor diferente), armazenamento em nuvem (provedor diferente) e publicação na web (provedor diferente).
Resultado: cinco provedores, cinco chaves de API, cinco entradas no .mcp.json, cinco superfícies para monitorar mudanças quebrando compatibilidade. Tempo: 45–90 minutos, de forma otimista.
Opção 2: AnyCap — um runtime, todas as capacidades
Instale o AnyCap com um único comando. Um runtime adiciona geração de imagens, criação de vídeos, busca na web, armazenamento em nuvem (Drive) e publicação na web (Page) a qualquer agente compatível com MCP — incluindo sua configuração DeepSeek V4 no Claude Code ou OpenClaw.
Resultado: uma instalação, um fluxo de autenticação, um saldo de créditos, uma superfície de comando. Tempo: menos de dois minutos.
Passo a passo: adicionar multimodal ao DeepSeek V4 com AnyCap
Pré-requisitos
- Acesso à API DeepSeek V4 (via plataforma DeepSeek, OpenRouter ou self-hosted)
- Claude Code, Cursor ou OpenClaw instalados (a AnyCap funciona com qualquer shell de agente compatível com MCP)
- Acesso ao terminal
Passo 1: Instalar a AnyCap
npx -y skills add anycap-ai/anycap -a claude-code
Isso instala o runtime de capacidades da AnyCap como uma skill MCP. Seu agente agora pode chamar as ferramentas da AnyCap diretamente. O comando é o mesmo seja você usando Claude Code, Cursor ou OpenClaw.
Passo 2: Autenticar
anycap login
Abre um navegador para autenticação única. Depois do login, um token de sessão é armazenado localmente. Sem chaves de API para gerenciar — a AnyCap cuida da autenticação para todas as cinco capacidades.
Passo 3: Configurar seu agente para usar DeepSeek V4
No Claude Code, defina o modelo para rotear pelo DeepSeek V4:
# Via OpenRouter (recomendado para acesso à API)
export OPENROUTER_API_KEY=sk-or-your-key
claude --model openrouter/deepseek/deepseek-v4-pro
Ou no Cursor: Settings → Models → adicione DeepSeek V4 via OpenRouter ou endpoint personalizado.
Agora o seu agente usa DeepSeek V4 para raciocínio e geração de código, com a AnyCap disponível para capacidades multimodais.
Passo 4: Gere sua primeira imagem
Na sessão do agente, peça:
Generate a hero image for a SaaS landing page about AI agent analytics.
Seu agente — alimentado pelo DeepSeek V4 para raciocínio — chama a AnyCap para geração de imagens. A imagem aparece no seu AnyCap Drive. Você recebe um link compartilhável.
Passo 5: Criar um vídeo
Create a 30-second product demo video showing how the analytics dashboard works.
Mesma sessão de agente. Mesma autenticação. O agente chama anycap video generate. Não há novo provedor para configurar.
Passo 6: Pesquisar na web
Search for the latest DeepSeek V4 API pricing changes and summarize them.
O agente usa a capacidade de busca da AnyCap para puxar resultados web em tempo real. O DeepSeek V4 — com seu contexto de 1M tokens — pode ingerir e sintetizar toda a saída da busca em uma única passada.
Passo 7: Armazenar e publicar
Store the generated hero image and demo video in Drive, then publish a changelog page with both assets embedded.
O AnyCap Drive cuida do armazenamento e dos links de compartilhamento. O AnyCap Page cuida da publicação. O agente executa o fluxo completo — geração → armazenamento → publicação — sem alternar entre cinco integrações de provedores diferentes.
O que seu agente DeepSeek V4 agora pode fazer
| Capacidade | Antes da AnyCap | Depois da AnyCap |
|---|---|---|
| Raciocínio de código | ✅ Classe mundial a $0.28/1M tokens | ✅ Classe mundial a $0.28/1M tokens |
| Gerar imagens | ❌ Modelo apenas de texto | ✅ anycap image generate |
| Criar vídeos | ❌ Modelo apenas de texto | ✅ anycap video generate |
| Buscar na web | ❌ Modelo apenas de texto | ✅ anycap search |
| Armazenar arquivos | ❌ Modelo apenas de texto | ✅ anycap drive upload |
| Publicar conteúdo | ❌ Modelo apenas de texto | ✅ anycap page publish |
O DeepSeek V4 cuida do raciocínio. A AnyCap cuida de todo o resto. Essa é a arquitetura que faz sentido: o modelo de raciocínio frontier mais barato combinado com um runtime de capacidades que preenche todas as lacunas multimodais.
Por que essa arquitetura é melhor do que esperar o DeepSeek lançar multimodal
O DeepSeek já disse que está trabalhando em capacidades multimodais. Mas não existe cronograma. A prévia do V4 continua sendo apenas texto. O tópico do Reddit intitulado "Ainda sem multimodal no DeepSeek-V4. Mas vou esperar." captura o sentimento dos desenvolvedores.
Esperar significa manter seus agentes apenas de texto por um número desconhecido de meses. Adicionar capacidades via AnyCap significa que seus agentes fazem trabalho multimodal hoje — e quando o DeepSeek finalmente lançar multimodal nativo, você já terá um runtime que funciona em vários modelos. Você não fica preso a um único modelo.
O ponto mais profundo: mesmo quando o DeepSeek adicionar multimodal nativo, ele provavelmente cobrirá compreensão e geração de imagens. Talvez não cubra criação de vídeos, busca na web, armazenamento em nuvem ou publicação na web — essas são capacidades de plataforma, não capacidades de modelo. Um runtime de capacidades como a AnyCap continua útil independentemente do que qualquer modelo suporte nativamente.
FAQ
O DeepSeek V4 suporta geração de imagens nativamente?
Não. O DeepSeek V4 e o V4 Pro são modelos apenas de texto na prévia de abril de 2026. A documentação oficial afirma: "Sem entrada ou saída nativa de imagem, áudio ou vídeo." Você pode adicionar geração de imagens via servidores MCP ou um runtime de capacidades como a AnyCap.
Posso usar o DeepSeek V4 com o Claude Code?
Sim. A CNBC reportou que o DeepSeek V4 foi otimizado para Claude Code e OpenClaw. Você pode rotear o Claude Code pelo DeepSeek V4 via OpenRouter ou um endpoint de API personalizado. A AnyCap entra ao lado como camada de capacidades.
Qual é a forma mais barata de rodar um agente DeepSeek V4 multimodal?
Use o DeepSeek V4 Flash ($0.14/1M tokens de entrada) para raciocínio, Claude Code (ou OpenClaw) como shell do agente e a AnyCap ($5 de crédito grátis para começar) para capacidades multimodais. O custo total de uma sessão que inclua geração de código, criação de imagens e busca na web é a soma das cobranças da API DeepSeek com o uso de crédito da AnyCap — significativamente mais barato do que executar o mesmo fluxo pelo GPT-5.5.
A AnyCap funciona com DeepSeek V4 self-hosted?
Sim. Se você estiver executando o DeepSeek V4 localmente ou na sua própria infraestrutura, a AnyCap é instalada de forma independente como uma skill MCP. O shell do agente (Claude Code, Cursor, OpenClaw) cuida do roteamento para seu endpoint self-hosted. A AnyCap cuida das capacidades multimodais.
Como o DeepSeek V4 se compara ao GPT-5.5 para fluxos de trabalho de agentes?
O DeepSeek V4 Pro iguala ou supera o GPT-5.5 em benchmarks de coding agentic, custando cerca de 1/18 por token. O GPT-5.5 tem geração nativa de imagens via integração DALL-E; o DeepSeek V4 não. Com a AnyCap, o DeepSeek V4 ganha geração de imagens, vídeo, busca, armazenamento e publicação — fechando a lacuna de capacidades enquanto mantém a vantagem de custo.
Adicione multimodal ao seu agente DeepSeek V4:
npx -y skills add anycap-ai/anycap -a claude-code
Instalar a AnyCap · Guia de Desenvolvedor do DeepSeek V4 · Configuração do Claude Code