DeepSeek V4 Chegou: Pesos, Benchmarks e Primeiras Impressões
Os pesos completos do DeepSeek V4 já estão disponíveis no HuggingFace sob a licença Apache 2.0. Após meses de artigos de arquitetura, o preview do V4 Lite e a crescente expectativa da comunidade, o modelo completo foi finalmente lançado.
Veja o que os dados iniciais mostram e o que os desenvolvedores precisam saber para começar a usá-lo agora.
O Que Foi Lançado
O lançamento inclui:
- Pesos completos do V4 (~1 trilhão de parâmetros no total, 37B ativos por token via Mixture-of-Experts)
- Repositório no HuggingFace sob Apache 2.0 — uso comercial permitido, sem restrições de uso
- Acesso via API pela plataforma DeepSeek, com preço estimado em torno de $0,30 por milhão de tokens de entrada
A licença Apache 2.0 é um diferencial importante. Ao contrário de alguns lançamentos recentes de modelos open-weight com restrições não comerciais ou por campo de uso, o V4 pode ser implantado comercialmente, ajustado (fine-tuned) e redistribuído. Para equipes empresariais e startups que constroem sobre modelos abertos, esta é a opção mais permissiva nesse nível de capacidade.
Primeiros Resultados de Benchmark
A avaliação independente começou horas após a disponibilização dos pesos. Veja o que os primeiros resultados mostram:
Programação (HumanEval / LiveCodeBench):
Os primeiros testes colocam o V4 acima do V3 no LiveCodeBench, consistente com os resultados de ablação do artigo de escalonamento MoE que mostram melhor desempenho em tarefas de programação com a nova configuração de especialistas.
Matemática (MATH-500):
Os resultados são competitivos com GPT-4o e Claude 3.7 Sonnet nos benchmarks matemáticos padrão. A especialização por especialista parece se traduzir em ganhos mensuráveis em tarefas de raciocínio estruturado.
Recuperação de Contexto Longo (Needle-in-a-Haystack):
Este é o teste principal do V4. Avaliações independentes iniciais do Engram com 1 milhão de tokens estão retornando precisão na faixa de 93–96% — ligeiramente abaixo da afirmação interna da DeepSeek de 97%, mas substancialmente acima da linha de base de 84,2% para atenção padrão.
O benchmark interno de 97% ainda não foi completamente replicado de forma independente. A faixa de 93–96% é um número mais defensável neste momento e ainda representa uma melhoria significativa em relação a abordagens alternativas.
Como o Engram Performa na Prática
Engram — o mecanismo de memória condicional do V4 para recuperação de contexto longo — é o recurso arquitetural que atraiu mais interesse dos desenvolvedores antes do lançamento. Os primeiros testes da comunidade em tarefas realistas de contexto longo (análise completa de codebase, revisão de contratos longos, recall de conversas extensas) são amplamente positivos.
Principais observações dos primeiros testadores:
- Revisão de código de repositório completo: O V4 identifica corretamente dependências entre arquivos e revela contexto relevante que o GPT-4o perde na mesma profundidade de tokens
- Análise de documentos com 500 mil tokens: A qualidade de recuperação é visivelmente mais consistente do que a do V3 nesse comprimento
- Latência: A latência do primeiro token na API hospedada é comparável à do V3 para contextos de comprimento padrão; requisições de contexto longo são mais lentas que as curtas, como esperado, mas a desaceleração é menos severa do que com abordagens de full-attention convencionais
O overhead de inferência do mecanismo Engram — uma questão que o artigo de arquitetura deixou em aberto — parece ser moderado na prática.
Preço e o Que Isso Significa
Com ~$0,30 por milhão de tokens de entrada, o V4 está precificado aproximadamente:
- 16× mais barato que o GPT-5.5 ($5/MTok de entrada)
- Comparável ao nível de preço do GPT-4o Mini para alguns provedores
- Abaixo do preço de lançamento do V3 na maioria das plataformas de inferência
Para fluxos de trabalho agentivos onde uma única tarefa pode consumir centenas de milhares de tokens em múltiplas chamadas, essa diferença de preço não é superficial. Um loop de agente que custa $15 no GPT-5.5 custa menos de $1 no V4 pelo preço de tabela.
O porém: a inferência auto-hospedada de um modelo MoE com 1 trilhão de parâmetros exige infraestrutura significativa. O valor de $0,30 se aplica à API hospedada. Auto-hospedagem nessa escala só é viável para equipes com grandes clusters de GPU.
Acessando o V4 Pelo AnyCap
Se você quer usar o DeepSeek V4 sem gerenciar contas de provedores ou infraestrutura diretamente, a API de modelos unificada do AnyCap roteia para o V4, junto com GPT-5.5, Claude 4, Gemini 3.1 e outros modelos de fronteira — tudo por meio de um único endpoint.
import anycap
client = anycap.Client()
response = client.generate(
model="deepseek-v4",
messages=[{"role": "user", "content": "Review this codebase for security issues..."}],
max_tokens=4096
)
print(response.content)
O AnyCap cuida do failover de provedores, gerenciamento de limites de taxa e faturamento unificado — útil para equipes que querem comparar o V4 com outros modelos sem reconstruir sua integração para cada provedor.
O Que Acompanhar nas Próximas 48 Horas
Os benchmarks independentes mais relevantes costumam chegar 24–72 horas após o lançamento dos pesos, quando laboratórios de avaliação maiores concluem seus testes:
- LMSYS Chatbot Arena — avaliações de preferência humana em relação ao GPT-5.5 e ao Claude 4
- BigCode EvalPlus — suíte abrangente de benchmarks de programação
- Testes adversariais de contexto longo — testes de estresse projetados para expor falhas de qualidade de recuperação que benchmarks sintéticos não detectam
Para desenvolvedores tomando decisões de arquitetura, aguardar esses resultados antes de comprometer o V4 em casos de uso de contexto longo em produção é o caminho prudente.
→ A Memória Engram do DeepSeek V4 Explicada
→ DeepSeek V4: Guia Completo para Desenvolvedores
→ Data de Lançamento do DeepSeek V4: Tudo Que Acompanhamos