DeepSeek V4 Lançado: Pesos, Benchmarks e Primeiras Impressões de Programadores

Os pesos completos do DeepSeek V4 estão agora no HuggingFace sob licença Apache 2.0. Descubra os primeiros benchmarks, o desempenho do Engram e como começar a usar o V4 hoje.

DeepSeek V4 Já Está Disponível: Pesos, Benchmarks e Primeiras Impressões

Os pesos completos do DeepSeek V4 estão agora disponíveis no HuggingFace sob licença Apache 2.0. Após meses de artigos de arquitetura, a pré-visualização do V4 Lite e a expectativa sustentada da comunidade, o modelo completo foi finalmente lançado.

Eis o que os dados iniciais revelam e o que os programadores precisam de saber para começar a utilizá-lo hoje.

O Que Foi Lançado

O lançamento inclui:

Pesos completos do V4 (~1 bilião de parâmetros no total, 37B ativos por token via Mixture-of-Experts)
Repositório no HuggingFace sob Apache 2.0 — utilização comercial permitida, sem restrições de uso
Acesso via API através da plataforma DeepSeek, com preço estimado em cerca de $0,30 por milhão de tokens de entrada

A licença Apache 2.0 é particularmente relevante. Ao contrário de alguns lançamentos recentes de modelos open-weight com restrições não comerciais ou limitações por área de utilização, o V4 pode ser implementado comercialmente, ajustado (fine-tuned) e redistribuído. Para equipas empresariais e startups que desenvolvem sobre modelos abertos, esta é a opção mais permissiva neste nível de capacidade.

Primeiros Resultados de Benchmark

A avaliação independente começou poucas horas após a disponibilização dos pesos. Eis os primeiros resultados:

Programação (HumanEval / LiveCodeBench):
Os primeiros testes colocam o V4 acima do V3 no LiveCodeBench, o que é consistente com os resultados de ablação do artigo de escalonamento MoE, que mostram melhor desempenho em tarefas de programação com a nova configuração de especialistas.

Matemática (MATH-500):
Os resultados são competitivos com o GPT-4o e o Claude 3.7 Sonnet nos benchmarks matemáticos padrão. A especialização por perito parece traduzir-se em ganhos mensuráveis em tarefas de raciocínio estruturado.

Recuperação de Contexto Longo (Needle-in-a-Haystack):
Este é o teste principal do V4. As primeiras avaliações independentes do Engram com 1 milhão de tokens estão a devolver valores de precisão na faixa dos 93–96% — ligeiramente abaixo da afirmação interna da DeepSeek de 97%, mas substancialmente acima da linha de base de 84,2% para atenção padrão.

O benchmark interno de 97% ainda não foi replicado de forma independente na sua totalidade. A faixa de 93–96% é um valor mais defensável nesta fase e representa ainda assim uma melhoria significativa face a abordagens alternativas.

Como o Engram Se Comporta na Prática

Engram — o mecanismo de memória condicional do V4 para recuperação de contexto longo — é a funcionalidade arquitetural que atraiu maior interesse por parte dos programadores antes do lançamento. Os primeiros testes da comunidade em tarefas realistas de contexto longo (análise completa de base de código, revisão de contratos extensos, recuperação de conversas longas) são genericamente positivos.

Principais observações dos primeiros utilizadores:

Revisão de código de repositório completo: O V4 identifica corretamente dependências entre ficheiros e revela contexto relevante que o GPT-4o falha em detetar à mesma profundidade de tokens
Análise de documentos com 500 mil tokens: A qualidade de recuperação é visivelmente mais consistente do que a do V3 neste comprimento
Latência: A latência do primeiro token na API alojada é comparável à do V3 para contextos de comprimento padrão; os pedidos de contexto longo são mais lentos do que os curtos, como esperado, mas a desaceleração é menos severa do que nas abordagens convencionais de full-attention

O overhead de inferência do mecanismo Engram — uma questão que o artigo de arquitetura deixou em aberto — parece ser moderado na prática.

Preço e o Que Isso Significa

Com ~$0,30 por milhão de tokens de entrada, o V4 está aproximadamente:

16× mais barato que o GPT-5.5 ($5/MTok de entrada)
Comparável ao nível de preço do GPT-4o Mini em alguns fornecedores
Abaixo do preço de lançamento do V3 na maioria das plataformas de inferência

Para fluxos de trabalho agênticos em que uma única tarefa pode consumir centenas de milhares de tokens em múltiplas chamadas, esta diferença de preço não é superficial. Um ciclo de agente que custa $15 no GPT-5.5 fica abaixo de $1 no V4 ao preço de tabela.

A ressalva: a inferência auto-alojada de um modelo MoE com 1 bilião de parâmetros exige infraestrutura significativa. O valor de $0,30 aplica-se à API alojada. O auto-alojamento nesta escala só é viável para equipas com grandes clusters de GPU.

Aceder ao V4 Através do AnyCap

Se pretende utilizar o DeepSeek V4 sem gerir contas de fornecedores ou infraestrutura diretamente, a API de modelos unificada do AnyCap encaminha para o V4, juntamente com GPT-5.5, Claude 4, Gemini 3.1 e outros modelos de fronteira — tudo através de um único endpoint.

import anycap

client = anycap.Client()

response = client.generate(
    model="deepseek-v4",
    messages=[{"role": "user", "content": "Review this codebase for security issues..."}],
    max_tokens=4096
)

print(response.content)

O AnyCap trata do failover de fornecedores, da gestão de limites de taxa e da faturação unificada — útil para equipas que pretendem comparar o V4 com outros modelos sem reconstruir a sua integração para cada fornecedor.

O Que Acompanhar nas Próximas 48 Horas

Os benchmarks independentes mais significativos surgem tipicamente 24–72 horas após o lançamento dos pesos, quando laboratórios de avaliação de maior dimensão concluem as suas análises:

LMSYS Chatbot Arena — avaliações de preferência humana face ao GPT-5.5 e ao Claude 4
BigCode EvalPlus — suite abrangente de benchmarks de programação
Testes adversariais de contexto longo — testes de stress concebidos para expor falhas de qualidade de recuperação que os benchmarks sintéticos não detetam

Para programadores a tomar decisões de arquitetura, aguardar estes resultados antes de comprometer o V4 em casos de uso de contexto longo em produção é a abordagem prudente.

→ A Memória Engram do DeepSeek V4 Explicada
→ DeepSeek V4: Guia Completo para Programadores
→ Data de Lançamento do DeepSeek V4: Tudo o Que Acompanhámos