DeepSeek V4 veröffentlicht: Gewichte, Benchmarks & Entwickler-Erstblick

DeepSeek V4 Vollgewichte sind jetzt auf HuggingFace unter Apache 2.0 verfügbar. Erste Benchmarks, Engram-Performance in der Praxis und wie Sie V4 noch heute nutzen können.

DeepSeek V4 ist jetzt live: Gewichte, Benchmarks und erste Eindrücke

Die vollständigen Gewichte von DeepSeek V4 sind jetzt auf HuggingFace unter einer Apache-2.0-Lizenz verfügbar. Nach monatelangen Architekturpapieren, dem V4 Lite-Vorschau und anhaltender Community-Erwartung ist das komplette Modell endlich veröffentlicht.

Hier sind die ersten Daten und was Entwickler wissen müssen, um sofort einzusteigen.

Was gerade veröffentlicht wurde

Das Release umfasst:

Vollständige V4-Gewichte (~1 Billion Parameter insgesamt, 37B aktiv pro Token über Mixture-of-Experts)
HuggingFace-Repository unter Apache 2.0 — kommerzielle Nutzung erlaubt, keine Nutzungsbeschränkungen
API-Zugang über DeepSeeks Plattform, mit einem erwarteten Preis von ca. $0,30 pro Million Tokens (Eingabe)

Die Apache-2.0-Lizenz ist bedeutsam. Im Gegensatz zu einigen neueren Open-Weight-Releases mit nicht-kommerziellen oder verwendungsbezogenen Einschränkungen darf V4 kommerziell eingesetzt, feinabgestimmt und weiterverteilt werden. Für Unternehmens- und Startup-Teams, die auf offenen Modellen aufbauen, ist dies die freizügigste Option auf diesem Leistungsniveau.

Erste Benchmark-Ergebnisse

Unabhängige Evaluierungen begannen wenige Stunden nach Verfügbarkeit der Gewichte. Hier die ersten Resultate:

Programmierung (HumanEval / LiveCodeBench):
Erste Läufe platzieren V4 auf LiveCodeBench über V3, was mit den Ablation-Ergebnissen des MoE-Skalierungspapiers übereinstimmt und auf verbesserte Leistung bei Coding-Aufgaben mit der neuen Expertenkonfiguration hindeutet.

Mathematik (MATH-500):
Die Ergebnisse sind wettbewerbsfähig mit GPT-4o und Claude 3.7 Sonnet auf Standard-Mathematik-Benchmarks. Die Spezialisierung der einzelnen Experten scheint zu messbaren Verbesserungen bei strukturierten Reasoning-Aufgaben zu führen.

Langkontext-Retrieval (Needle-in-a-Haystack):
Dies ist der Haupttest für V4. Frühe unabhängige Evaluierungen von Engram bei 1 Million Tokens liefern Genauigkeitswerte im Bereich von 93–96 % — etwas unter DeepSeeks internem Anspruch von 97 %, aber deutlich über der 84,2 %-Basislinie für Standard-Attention.

Der interne 97-%-Benchmark wurde noch nicht vollständig unabhängig repliziert. Der 93–96-%-Bereich ist in dieser Phase eine besser belegbare Zahl und stellt dennoch eine erhebliche Verbesserung gegenüber alternativen Ansätzen dar.

Wie Engram in der Praxis abschneidet

Engram — V4s bedingter Speichermechanismus für die Langkontext-Retrieval — ist das architektonische Feature, das vor dem Release das meiste Entwicklerinteresse auf sich gezogen hat. Frühe Community-Tests mit realistischen Langkontext-Aufgaben (vollständige Codebase-Analyse, Vertragsprüfung, erweiterte Gesprächserinnerung) sind insgesamt positiv.

Wichtige Beobachtungen aus frühen Tests:

Repository-weite Code-Überprüfung: V4 erkennt korrekt dateiübergreifende Abhängigkeiten und liefert relevanten Kontext, den GPT-4o bei gleicher Token-Tiefe übersieht
Dokumentenanalyse bei 500.000 Tokens: Die Retrieval-Qualität ist bei dieser Länge deutlich konsistenter als bei V3
Latenz: Die First-Token-Latenz auf der gehosteten API ist für Standardkontexte vergleichbar mit V3; Langkontext-Anfragen sind erwartungsgemäß langsamer als kurze, der Rückgang ist jedoch weniger stark als bei naiven Full-Attention-Ansätzen

Der Inferenz-Overhead des Engram-Mechanismus — eine Frage, die das Architekturpapier offengelassen hatte — scheint in der Praxis moderat zu sein.

Preisgestaltung und ihre Bedeutung

Bei ~$0,30 pro Million Eingabe-Tokens ist V4 ungefähr:

16× günstiger als GPT-5.5 ($5/MTok Eingabe)
Vergleichbar mit GPT-4o Mini Tier-Preisen bei einigen Anbietern
Günstiger als V3 zum Marktstart auf den meisten Inferenzplattformen

Für agentische Workflows, bei denen eine einzige Aufgabe über mehrere Aufrufe Hunderttausende von Tokens verbrauchen kann, ist dieser Preisunterschied nicht zu vernachlässigen. Eine Agent-Loop, die bei GPT-5.5 $15 kostet, liegt bei V4 zum Listenpreis unter $1.

Vorbehalt: Die selbst gehostete Inferenz eines 1-Billion-Parameter-MoE-Modells erfordert erhebliche Infrastruktur. Der $0,30-Preis gilt für die gehostete API. Selbst-Hosting in dieser Größenordnung ist nur für Teams mit großen GPU-Clustern praktikabel.

V4 über AnyCap nutzen

Wer DeepSeek V4 nutzen möchte, ohne sich um Provider-Accounts oder Infrastruktur kümmern zu müssen, kann AnyCaps einheitliche Modell-API verwenden — sie routet zu V4 sowie zu GPT-5.5, Claude 4, Gemini 3.1 und anderen Frontier-Modellen, alles über einen einzigen Endpunkt.

import anycap

client = anycap.Client()

response = client.generate(
    model="deepseek-v4",
    messages=[{"role": "user", "content": "Review this codebase for security issues..."}],
    max_tokens=4096
)

print(response.content)

AnyCap übernimmt Provider-Failover, Rate-Limit-Management und einheitliche Abrechnung — praktisch für Teams, die V4 gegen andere Modelle benchmarken möchten, ohne ihre Integration für jeden Anbieter neu aufzubauen.

Was in den nächsten 48 Stunden zu beobachten ist

Die aussagekräftigsten unabhängigen Benchmarks erscheinen typischerweise 24–72 Stunden nach dem Weights-Release, wenn größere Evaluierungslabore ihre Läufe abschließen:

LMSYS Chatbot Arena — menschliche Präferenzbewertungen gegenüber GPT-5.5 und Claude 4
BigCode EvalPlus — umfassende Coding-Benchmark-Suite
Adversarielle Langkontext-Tests — Stresstests, die dazu entwickelt wurden, Retrieval-Qualität auf eine Weise zu brechen, die synthetische Benchmarks übersehen

Für Entwickler, die Architekturentscheidungen treffen, ist es ratsam, auf diese Ergebnisse zu warten, bevor V4 für produktive Langkontext-Anwendungen eingesetzt wird.

→ DeepSeek V4s Engram Memory erklärt
→ DeepSeek V4: Vollständiger Entwicklerleitfaden
→ DeepSeek V4 Erscheinungsdatum: Alles was wir verfolgt haben