Adicionar multimodal ao DeepSeek V4: imagens, vídeo e pesquisa

O DeepSeek V4 é apenas texto. Adiciona geração de imagens, vídeo, pesquisa na web, armazenamento na cloud e publicação ao teu agente DeepSeek V4 em menos de 2 minutos com o AnyCap. Um único CLI, sem chaves de API por fornecedor.

O DeepSeek V4 é um modelo apenas de texto. Isto não é um bug — é uma escolha de design deliberada que mantém os custos de inferência baixos e a capacidade de raciocínio alta. Mas quando o teu agente precisa de gerar uma imagem hero para a landing page que acabou de construir, criar um vídeo de demonstração de produto, procurar a documentação API mais recente ou guardar os ativos gerados num local duradouro, um motor apenas de texto atinge um limite. Eis como adicionar capacidades multimodais completas — geração de imagens, vídeo, pesquisa na web, armazenamento na cloud e publicação na web — a um agente com DeepSeek V4 em menos de dois minutos.

Porque é que o DeepSeek V4 é apenas texto (e porque isso importa)

O DeepSeek V4 e o V4 Pro são modelos de linguagem Mixture-of-Experts com mais de 1T parâmetros no total. Competem com o GPT-5.5 e o Claude Opus 4.7 em benchmarks de raciocínio. Suportam uma janela de contexto de 1 milhão de tokens — suficiente para ingerir bases de código inteiras. Foram otimizados para ferramentas de agentes como Claude Code e OpenClaw.

O que não têm: geração nativa de imagens, criação de vídeo, processamento de áudio ou capacidades de pesquisa na web. A documentação oficial é explícita: "Apenas texto. Sem entrada ou saída nativa de imagem, áudio ou vídeo na versão de pré-visualização."

Isto não é uma omissão. O DeepSeek fez uma escolha estratégica: construir o melhor motor de raciocínio textual possível a uma fração do custo dos modelos concorrentes ($0.28/1M tokens de entrada vs GPT-5.5 a $5/1M) e deixar as capacidades multimodais para o ecossistema. O modelo tem licença Apache 2.0. Funciona em hardware de consumo com quantização. É rápido, barato e aberto.

Mas o teu fluxo de trabalho de agente não é apenas texto. Ele constrói coisas. Precisa de imagens, vídeos, pesquisa, armazenamento e publicação. Eis como fechar essa lacuna.

Dois caminhos para multimodal: servidores MCP DIY vs runtime AnyCap

Cada capacidade que o teu agente DeepSeek V4 não tem — geração de imagens, vídeo, pesquisa na web, armazenamento, publicação — pode ser adicionada através de MCP (Model Context Protocol). O MCP é o padrão aberto que permite aos agentes de IA ligarem-se a ferramentas externas. Claude Code, Cursor e OpenClaw suportam MCP de forma nativa.

Tens duas opções para adicionar capacidades:

Opção 1: DIY — configurar servidores MCP individuais

Encontra um servidor MCP de geração de imagens. Instala-o. Cria uma conta num fornecedor de API de imagens (Replicate, fal.ai ou OpenAI Images). Obtém uma chave de API. Adiciona a configuração do servidor ao .mcp.json. Testa. Depois repete para geração de vídeo (fornecedor diferente), pesquisa na web (fornecedor diferente), armazenamento na cloud (fornecedor diferente) e publicação na web (fornecedor diferente).

Resultado: cinco fornecedores, cinco chaves de API, cinco entradas no .mcp.json, cinco superfícies para monitorizar alterações disruptivas. Tempo: 45–90 minutos, de forma otimista.

Opção 2: AnyCap — um runtime, todas as capacidades

Instala o AnyCap com um único comando. Um runtime adiciona geração de imagens, criação de vídeo, pesquisa na web, armazenamento na cloud (Drive) e publicação na web (Page) a qualquer agente compatível com MCP — incluindo a tua configuração DeepSeek V4 em Claude Code ou OpenClaw.

Resultado: uma instalação, um fluxo de autenticação, um saldo de crédito, uma superfície de comando. Tempo: menos de dois minutos.

Passo a passo: adicionar multimodal ao DeepSeek V4 com AnyCap

Pré-requisitos

Acesso à API DeepSeek V4 (via plataforma DeepSeek, OpenRouter ou self-hosted)
Claude Code, Cursor ou OpenClaw instalados (o AnyCap funciona com qualquer shell de agente compatível com MCP)
Acesso ao terminal

Passo 1: Instalar o AnyCap

npx -y skills add anycap-ai/anycap -a claude-code

Isto instala o runtime de capacidades AnyCap como uma skill MCP. O teu agente pode agora chamar diretamente as ferramentas AnyCap. O comando é o mesmo quer uses Claude Code, Cursor ou OpenClaw.

Passo 2: Autenticar

anycap login

Abre um navegador para autenticação única. Depois do login, um token de sessão é guardado localmente. Sem chaves de API para gerir — o AnyCap trata da autenticação para todas as cinco capacidades.

Passo 3: Configurar o teu agente para usar DeepSeek V4

No Claude Code, define o modelo para encaminhar através do DeepSeek V4:

# Via OpenRouter (recomendado para acesso à API)
export OPENROUTER_API_KEY=sk-or-your-key
claude --model openrouter/deepseek/deepseek-v4-pro

Ou no Cursor: Settings → Models → adiciona DeepSeek V4 via OpenRouter ou endpoint personalizado.

O teu agente passa agora a usar DeepSeek V4 para raciocínio e geração de código, com o AnyCap disponível para capacidades multimodais.

Passo 4: Gerar a tua primeira imagem

Na sessão do agente, escreve:

Generate a hero image for a SaaS landing page about AI agent analytics.

O teu agente — alimentado por DeepSeek V4 para raciocínio — chama o AnyCap para geração de imagens. A imagem aparece no teu AnyCap Drive. Recebes um link partilhável.

Passo 5: Criar um vídeo

Create a 30-second product demo video showing how the analytics dashboard works.

A mesma sessão de agente. A mesma autenticação. O agente chama anycap video generate. Não há novo fornecedor para configurar.

Passo 6: Pesquisar na web

Search for the latest DeepSeek V4 API pricing changes and summarize them.

O agente usa a capacidade de pesquisa do AnyCap para obter resultados web em tempo real. O DeepSeek V4 — com o seu contexto de 1M de tokens — consegue ingerir e sintetizar toda a saída da pesquisa num único passo.

Passo 7: Guardar e publicar

Store the generated hero image and demo video in Drive, then publish a changelog page with both assets embedded.

O AnyCap Drive trata do armazenamento e dos links de partilha. O AnyCap Page trata da publicação. O agente executa o fluxo completo — geração → armazenamento → publicação — sem alternar entre cinco integrações de fornecedores diferentes.

O que o teu agente DeepSeek V4 pode fazer agora

Capacidade	Antes do AnyCap	Depois do AnyCap
Raciocínio de código	✅ Classe mundial a $0.28/1M tokens	✅ Classe mundial a $0.28/1M tokens
Gerar imagens	❌ Modelo apenas de texto	✅ `anycap image generate`
Criar vídeos	❌ Modelo apenas de texto	✅ `anycap video generate`
Pesquisar na web	❌ Modelo apenas de texto	✅ `anycap search`
Guardar ficheiros	❌ Modelo apenas de texto	✅ `anycap drive upload`
Publicar conteúdo	❌ Modelo apenas de texto	✅ `anycap page publish`

O DeepSeek V4 trata do raciocínio. O AnyCap trata do resto. Esta é a arquitetura que faz sentido: o modelo de raciocínio frontier mais barato combinado com um runtime de capacidades que preenche todas as lacunas multimodais.

Porque é que esta arquitetura supera esperar que o DeepSeek lance multimodal

O DeepSeek afirmou que está a trabalhar em capacidades multimodais. Mas não há calendário. A pré-visualização do V4 é apenas texto. O tópico do Reddit intitulado "Ainda sem multimodal no DeepSeek-V4. Mas vou esperar." capta bem o sentimento dos developers.

Esperar significa que os teus agentes continuam apenas com texto durante um número desconhecido de meses. Adicionar capacidades através do AnyCap significa que os teus agentes fazem trabalho multimodal hoje — e quando o DeepSeek eventualmente lançar multimodal nativo, já tens um runtime que funciona em vários modelos. Não ficas preso a um único modelo.

O ponto mais profundo: mesmo quando o DeepSeek adicionar multimodal nativo, é provável que cubra compreensão e geração de imagens. Pode não cobrir criação de vídeo, pesquisa na web, armazenamento na cloud ou publicação na web — essas são capacidades de plataforma, não capacidades do modelo. Um runtime de capacidades como o AnyCap continua útil independentemente do que qualquer modelo suporte nativamente.

FAQ

O DeepSeek V4 suporta geração de imagens nativamente?

Não. O DeepSeek V4 e o V4 Pro são modelos apenas de texto, na pré-visualização de abril de 2026. A documentação oficial afirma: "Sem entrada ou saída nativa de imagem, áudio ou vídeo." Podes adicionar geração de imagens através de servidores MCP ou de um runtime de capacidades como o AnyCap.

Posso usar o DeepSeek V4 com o Claude Code?

Sim. A CNBC noticiou que o DeepSeek V4 foi otimizado para Claude Code e OpenClaw. Podes encaminhar o Claude Code através do DeepSeek V4 via OpenRouter ou um endpoint de API personalizado. O AnyCap instala-se ao lado como camada de capacidades.

Qual é a forma mais barata de executar um agente DeepSeek V4 multimodal?

Usa o DeepSeek V4 Flash ($0.14/1M tokens de entrada) para raciocínio, Claude Code (ou OpenClaw) como shell do agente e AnyCap ($5 de crédito grátis para começar) para capacidades multimodais. O custo total de uma sessão que inclua geração de código, criação de imagens e pesquisa na web é a soma das taxas da API DeepSeek mais o consumo de crédito do AnyCap — significativamente mais barato do que executar o mesmo fluxo através do GPT-5.5.

O AnyCap funciona com DeepSeek V4 self-hosted?

Sim. Se estiveres a correr o DeepSeek V4 localmente ou na tua própria infraestrutura, o AnyCap instala-se independentemente como uma skill MCP. O shell do agente (Claude Code, Cursor, OpenClaw) trata do encaminhamento para o teu endpoint self-hosted. O AnyCap trata das capacidades multimodais.

Como se compara o DeepSeek V4 com o GPT-5.5 para fluxos de trabalho de agentes?

O DeepSeek V4 Pro iguala ou supera o GPT-5.5 em benchmarks de coding agentic, custando cerca de 1/18 por token. O GPT-5.5 tem geração nativa de imagens via integração DALL-E; o DeepSeek V4 não tem. Com o AnyCap, o DeepSeek V4 ganha geração de imagens, vídeo, pesquisa, armazenamento e publicação — fechando a lacuna de capacidades enquanto mantém a vantagem de custo.

Adiciona multimodal ao teu agente DeepSeek V4:

npx -y skills add anycap-ai/anycap -a claude-code

Instalar AnyCap · Guia de Developer do DeepSeek V4 · Configuração do Claude Code

Como adicionar capacidades multimodais aos agentes DeepSeek V4 (2026)