Guia Completo do DeepSeek V4: O Que Pode e Não Pode Fazer

Tudo que o DeepSeek V4 pode e não pode fazer, e como preencher as lacunas. Cobre contexto de 1M de tokens, codificação agêntica, self-hosting, limitações multimodais e extensão de capacidades com o AnyCap.

O DeepSeek V4 é um modelo de linguagem Mixture-of-Experts com 1,6 trilhão de parâmetros que rivaliza com o GPT-5.5 em benchmarks de codificação agêntica a 1/18 do custo. Ele possui uma janela de contexto de 1 milhão de tokens — a mais longa entre todos os modelos frontier. É licenciado sob Apache 2.0, o que significa que você pode fazer self-hosting, fine-tuning e deployment sem restrições. E é exclusivamente textual: sem geração de imagens nativa, sem vídeo, sem áudio, sem pesquisa na web, sem armazenamento, sem publicação.

Este guia cobre tudo que o DeepSeek V4 pode fazer, tudo que não pode fazer, e como preencher as lacunas para que seus agentes consigam entregar trabalho completo. Para um guia técnico detalhado sobre arquitetura, benchmarks e API, confira o nosso guia do desenvolvedor DeepSeek V4.

O que o DeepSeek V4 pode fazer

Raciocínio frontier a 1/18 do custo

O DeepSeek V4 Pro alcança 81% no SWE-bench Verified, 85,2% no MMLU-Pro e 96,8% no MATH-500 — todos muito próximos do GPT-5.5 e do Claude Opus 4.7. A diferença está no preço: o DeepSeek V4 Pro custa $0,28/1M de tokens de entrada e $1,12/1M de tokens de saída. O GPT-5.5 custa $5/1M de entrada e $30/1M de saída.

Em uma sessão típica de codificação agêntica — 10 mil tokens de entrada, 2 mil de saída — o DeepSeek V4 Pro custa cerca de $0,005. O GPT-5.5 custa cerca de $0,11. Ao longo de um mês de uso diário, a diferença chega a centenas de dólares. Para uma comparação direta de benchmarks, preços e funcionalidades, veja DeepSeek V4 vs GPT-5.5.

Janela de contexto de 1 milhão de tokens

O DeepSeek V4 consegue processar 1 milhão de tokens em uma única passagem — aproximadamente 750 mil palavras, ou o equivalente a três romances completos. Para desenvolvedores, isso significa que é possível inserir uma base de código inteira no modelo sem chunking, sumarização ou retrieval. O Claude Code, quando roteado pelo DeepSeek V4, consegue indexar e compreender um monorepo grande em uma única sessão.

Isso é viabilizado pela arquitetura Multi-head Latent Attention (MLA) da DeepSeek, que comprime o cache key-value para reduzir o uso de memória durante inferências de contexto longo. O resultado é prático: contexto de 1 milhão de tokens a um custo que não compromete seu orçamento de API.

Codificação agêntica — SOTA open-source

O DeepSeek V4 Pro alcança resultados de ponta entre os modelos open-source nos benchmarks de codificação agêntica. Foi especificamente treinado adicionalmente para tarefas de agentes: chamada de ferramentas, planejamento em múltiplas etapas, recuperação de erros e execução de código. A CNBC noticiou no dia do lançamento que o V4 foi otimizado para uso com o Claude Code e o OpenClaw.

Na prática, um agente baseado no DeepSeek V4 pode:

Ler um repositório completo e construir um mapa interno da base de código
Planejar alterações em múltiplas etapas abrangendo dezenas de arquivos
Executar essas alterações, rodar testes e iterar sobre falhas
Invocar ferramentas externas via function calling ou MCP

Para um guia completo de configuração, veja DeepSeek V4 com Claude Code: Guia de Integração de Agentes.

Self-hosting e soberania de dados

O DeepSeek V4 é lançado sob a licença Apache 2.0. Você pode baixar os pesos, rodar o modelo no seu próprio hardware e fazer deployment em ambientes air-gapped. O V4 Flash quantizado para 4 bits roda em uma única GPU de consumidor. O V4 Pro requer mais VRAM, mas é viável em hardware de nível workstation.

Para equipes com requisitos de conformidade, restrições de soberania de dados ou preferência por propriedade da infraestrutura, isso é uma vantagem decisiva em relação a modelos exclusivamente via API como o GPT-5.5 ou o Claude.

Roteamento multi-modelo

O DeepSeek V4 pode ser usado em conjunto com outros modelos por meio de camadas de roteamento como o OpenRouter. Um padrão comum: usar o DeepSeek V4 Flash ($0,14/1M tokens) para tarefas simples, o DeepSeek V4 Pro para raciocínio complexo e um modelo multimodal para tarefas que exijam compreensão nativa de imagens. O roteamento multi-modelo está se tornando prática padrão — e o preço do DeepSeek V4 o torna a escolha padrão para níveis de roteamento sensíveis ao custo.

O que o DeepSeek V4 não pode fazer

Sem suporte multimodal nativo

Esta é a maior limitação. O DeepSeek V4 é exclusivamente textual. A documentação oficial afirma: "Sem input ou output nativo de imagem, áudio ou vídeo na prévia."

Especificamente, um agente baseado no DeepSeek V4 não consegue, por padrão:

Gerar imagens ou editar fotos
Criar vídeos ou analisar conteúdo em vídeo
Processar áudio — transcrição, síntese de voz, geração de música
Compreender imagens — descrever uma foto, extrair texto de uma captura de tela, responder perguntas sobre um diagrama
Pesquisar a web em tempo real para obter informações atuais
Armazenar arquivos em cloud storage ou gerar links de compartilhamento
Publicar conteúdo na web

Sem processamento de voz ou áudio

O GPT-5.5 e o Gemini 3.1 suportam modo de voz e compreensão de áudio. O DeepSeek V4 não. Se seu fluxo de trabalho envolve transcrição de reuniões, criação de agentes de voz ou processamento de arquivos de áudio, o DeepSeek V4 sozinho não é a ferramenta certa.

Corte de conhecimento

Como todos os grandes modelos de linguagem, o DeepSeek V4 possui um corte nos dados de treinamento. Ele não conhece eventos após sua data de treinamento. A janela de contexto de 1 milhão de tokens ajuda — você pode inserir documentação recente ou resultados de pesquisa — mas o próprio modelo não tem consciência em tempo real.

Maturidade do ecossistema de API

O ecossistema de API da DeepSeek é mais novo e menor do que o da OpenAI ou da Anthropic. A Assistants API, outputs estruturados, API de fine-tuning e opções de deployment gerenciado são menos maduros. Para equipes que dependem fortemente de infraestrutura de IA gerenciada, isso é uma consideração — embora a licença Apache 2.0 signifique que você pode construir qualquer infraestrutura necessária sobre o modelo.

Como preencher as lacunas de capacidade

Cada limitação listada acima tem uma solução. A arquitetura é simples: o DeepSeek V4 cuida do raciocínio e da geração de código. Outras ferramentas cuidam do restante.

Geração de imagens, vídeo, pesquisa, armazenamento e publicação

Essas capacidades podem ser adicionadas via MCP (Model Context Protocol), o padrão aberto para conectar agentes de IA a ferramentas externas. O Claude Code, o Cursor e o OpenClaw suportam MCP nativamente. O caminho mais rápido: instalar o AnyCap com um único comando. Um runtime adiciona as cinco capacidades a qualquer agente compatível com MCP:

npx -y skills add anycap-ai/anycap -a claude-code

Após a instalação, seu agente baseado no DeepSeek V4 pode:

Capacidade	Comando
Gerar imagens	`anycap image generate "descrição"`
Criar vídeos	`anycap video generate "descrição"`
Pesquisar na web	`anycap search "consulta"`
Armazenar arquivos	`anycap drive upload ./caminho`
Publicar conteúdo	`anycap page publish ./arquivo.md`

Guia completo: Como Adicionar Capacidades Multimodais a Agentes DeepSeek V4

Integração com Claude Code e OpenClaw

O DeepSeek V4 foi otimizado para ferramentas de agentes. A CNBC confirmou isso no lançamento. Para rotear o Claude Code pelo DeepSeek V4:

export OPENROUTER_API_KEY=sk-or-your-key
claude --model openrouter/deepseek/deepseek-v4-pro

Seu agente usa o DeepSeek V4 para raciocínio e geração de código, o Claude Code para execução do agente (leitura de arquivos, execução de comandos, gerenciamento de git) e o AnyCap para capacidades multimodais.

Guia completo: DeepSeek V4 com Claude Code: Guia de Integração de Agentes

Pesquisa na web e informação em tempo real

A janela de contexto de 1 milhão de tokens do DeepSeek V4 é ideal para fluxos de trabalho enriquecidos com pesquisa. Insira resultados de pesquisa da busca web do AnyCap e o modelo consegue processar e sintetizar toda a saída em uma única passagem — sem chunking, sem pipeline de retrieval-augmented generation, apenas contexto bruto.

Comparação de modelos: DeepSeek V4 vs GPT-5.5

Se você está avaliando o DeepSeek V4 frente ao GPT-5.5 especificamente — benchmarks, preços, lacuna multimodal, flexibilidade de deployment — veja a comparação completa.

Comparação completa: DeepSeek V4 vs GPT-5.5: Comparação de Capacidades

Stacks recomendados para diferentes casos de uso

Desenvolvimento de agentes com foco em custo

DeepSeek V4 Flash ($0,14/1M tokens)
  + Claude Code (execução de agentes)
  + AnyCap (capacidades multimodais)
= Stack de agente completo a ~$5-10/mês para uso diário

Máximo desempenho, melhor custo

DeepSeek V4 Pro ($0,28/1M tokens) para raciocínio complexo
DeepSeek V4 Flash ($0,14/1M tokens) para tarefas simples
  + Claude Code ou OpenClaw (execução de agentes)
  + AnyCap (capacidades multimodais)
  + Roteador multi-modelo (OpenRouter)
= Codificação agêntica frontier a ~$15-30/mês

Self-hosted, air-gapped

DeepSeek V4 Pro (self-hosted em GPU de workstation)
  + Claude Code (execução de agentes)
  + AnyCap (capacidades multimodais)
  + Apenas rede local
= Nenhum dado sai da sua infraestrutura

Ecossistema OpenAI enterprise

GPT-5.5 para tarefas multimodais nativas
DeepSeek V4 Flash para geração de código econômica
  + Roteador multi-modelo
  + AnyCap (camada de capacidade unificada para ambos os modelos)
= O melhor dos dois ecossistemas

Perguntas Frequentes

O DeepSeek V4 é realmente gratuito?

Os pesos do modelo são gratuitos e open-source sob Apache 2.0. Rodá-lo você mesmo implica custos de computação — eletricidade e hardware. Usar a API DeepSeek custa $0,28/1M de tokens de entrada para o V4 Pro, $0,14/1M para o V4 Flash. Usá-lo pelo OpenRouter ou outros provedores pode ter preços diferentes.

O DeepSeek V4 consegue gerar imagens?

Não nativamente. É um modelo exclusivamente textual. Você pode adicionar geração de imagens via servidores MCP ou um runtime de capacidades como o AnyCap. O modelo cuida do raciocínio e do código; a camada de capacidades cuida dos outputs multimodais. Veja o nosso guia para adicionar capacidades multimodais ao DeepSeek V4.

Qual é a diferença entre o V4 Pro e o V4 Flash?

O V4 Pro é o modelo completo: 1,6 trilhão de parâmetros no total, 49 bilhões ativos por token, melhor desempenho de raciocínio. O V4 Flash é uma variante menor e mais rápida: menor latência, custo mais baixo ($0,14 vs $0,28/1M tokens), pontuações de benchmark ligeiramente menores. Use o Flash para iteração rápida e tarefas simples. Use o Pro para refactoring complexo de múltiplos arquivos e raciocínio arquitetural.

O DeepSeek V4 funciona com o Cursor?

Sim. Adicione o DeepSeek V4 como provedor de modelo nas configurações do Cursor. O AnyCap é instalado da mesma forma como uma skill MCP. O mesmo stack funciona no Claude Code, no Cursor e no OpenClaw — você não fica preso a um único shell de agente.

Como o DeepSeek V4 se compara ao Claude Opus 4.7?

Eles são competitivos nos benchmarks. As principais diferenças: o Claude Opus 4.7 é mais caro (preço de assinatura ou API), tem integração mais estreita com o Claude Code (nativa, não roteada) e se beneficia da capacidade de extended thinking da Anthropic. O DeepSeek V4 custa 1/35, é open-source e pode ser executado em self-hosting. A escolha depende de você valorizar mais a fluidez da integração ou o custo e a flexibilidade de deployment.

Guia de Capacidades do DeepSeek V4: O Que Ele Pode (e Não Pode) Fazer (2026)