DeepSeek V4 Engram erklärt: Speicherarchitektur für lange Kontexte

DeepSeek V4s Engram erreicht 97 % NIAH-Genauigkeit bei 1 Million Tokens – gegenüber 84,2 % bei Standard-Attention. Was das für RAG und KI-Workflows mit langen Dokumenten bedeutet.

DeepSeek V4s Engram: Das Gedächtnissystem, das KI mit langen Kontexten verändert

DeepSeek V4 hat eine neue Architekturkomponente namens Engram eingeführt — ein konditioniertes Gedächtnissystem, das eines der hartnäckigsten Probleme bei KI mit langen Kontexten lösen soll: Das Modell akzeptiert technisch gesehen eine Million Tokens, kann aber nicht zuverlässig abrufen, was darin enthalten ist.

Da V4 Lite bereits live ist und das vollständige V4 in Kürze erwartet wird, erklärt dieser Artikel, was Engram tatsächlich leistet und warum es für Entwickler relevant ist.

Das Problem, das Engram löst

Standard-Transformer-Attention skaliert nicht graceful. Bei 128.000 Tokens ist die Abrufqualität akzeptabel. Bei einer Million Tokens zeigt ein viel zitierter Befund, dass die Needle-in-a-Haystack-Genauigkeit auf etwa 84 % sinkt — das bedeutet, dass etwa jede sechste spezifische Information in einem Million-Token-Kontext übersehen wird.

Das schafft ein praktisches Problem: Wenn Sie eine gesamte Codebasis oder ein Dokumenten-Korpus an ein Modell mit einem 1-Millionen-Token-Kontextfenster übergeben, können Sie nicht zuverlässig darauf vertrauen, dass das Modell alles Relevante gefunden hat. Das lange Kontextfenster ist real; die Abrufqualität nicht.

DeepSeeks Antwort darauf ist Engram.

Wie Engram funktioniert

Engram wird in DeepSeeks Architekturdokumentation als konditionierter Gedächtnismechanismus beschrieben, der Informationen selektiv speichert und abruft — basierend auf Relevanzsignalen, anstatt sich ausschließlich auf die Attention über die gesamte Token-Sequenz zu stützen.

Anstatt vollständige Attention über jeden Token in einem Million-Token-Kontext zu berechnen, identifiziert Engram, welche Kontextsegmente wahrscheinlich für die aktuelle Anfrage relevant sind, und routet den Abruf entsprechend. Das Ergebnis laut DeepSeeks internen Benchmarks:

Metrik	Standard-Attention	Engram (V4)
Needle-in-a-Haystack @ 1M Tokens	84,2 %	97 %

Dieser Unterschied von 12,8 Prozentpunkten ist keine Rundungsdifferenz. In der Praxis ist es der Unterschied zwischen einem Modell, das bei langen Dokumenten gut funktioniert, und einem Modell, das zuverlässig genug ist, um teure Chunking-und-Retrieval-Pipelines zu ersetzen.

Was das für RAG und Langdokument-Workflows bedeutet

Für Entwickler, die auf Retrieval-Augmented Generation (RAG) aufbauen, verändert Engram die Kalkulation erheblich:

Vor Engram: Lange Dokumente erforderten Chunking, Embedding und Vektorabruf — eine mehrstufige Pipeline mit eigenen Fehlerquellen und Wartungsaufwand.

Mit Engram: Wenn DeepSeeks Genauigkeitsanspruch von 97 % einer unabhängigen Evaluierung standhält, wird es praktikabel, ein vollständiges Dokument (oder eine mittelgroße Codebasis) direkt in den Kontext zu übergeben — ohne separate Retrieval-Schicht.

Das eliminiert RAG nicht für jeden Anwendungsfall. Für Datensätze, die selbst 1 Million Tokens übersteigen, oder für latenzempfindliche Anwendungen, bei denen das vollständige Laden des Kontexts unpraktisch ist, bleibt Vektorabruf die richtige Architektur. Aber für gängige Dokumentenanalyse, Vertragsüberprüfung oder Code-Reviews auf Repository-Ebene macht Engram den Full-Context-Ansatz erstmals glaubwürdig.

Der Vorbehalt: Benchmarks sind intern

DeepSeeks 97-%-Needle-in-a-Haystack-Ergebnis stammt aus internen Benchmarks, nicht aus Drittanbieter-Evaluierungen. Unabhängige Labs haben noch keine Ergebnisse zur Abrufqualität von V4 bei langen Kontexten veröffentlicht.

Das ist wichtig. Interne Benchmark-Zahlen haben historisch gesehen die reale Leistung überschätzt, insbesondere bei Retrieval-Aufgaben, bei denen das Evaluierungssetup auf günstige Ergebnisse optimiert werden kann.

Der kluge Ansatz: Die 97 % als zu verifizierende Zielgröße behandeln, nicht als bestätigte Spezifikation. Wenn die V4-Gewichte verfügbar sind und unabhängige Evaluierungen beginnen (Ergebnisse werden innerhalb von 48 Stunden nach Veröffentlichung erwartet), werden die echten Abrufzahlen bekannt.

Engram vs. Alternativen

DeepSeek ist nicht das einzige Labor, das an der Abrufqualität bei langen Kontexten arbeitet. Anthropic hat das Problem durch Optimierung von Attention-Mustern in Claudes Architektur angegangen. Googles Gemini 3.1 Pro verwendet einen anderen Ansatz, um die Abrufqualität bei 1 Million Tokens zu erhalten.

Was Engram auszeichnet: Es ist architektonisch eigenständig — eine separate Komponente statt einer Optimierung der Standard-Attention — und die behauptete Leistungslücke bei 1 Million Tokens ist größer als das, was Wettbewerber veröffentlicht haben.

Wenn unabhängige Benchmarks die 97 % bestätigen, ist Engram ein bedeutender Fortschritt. Wenn nicht, ist es eine interessante Forschungsrichtung, deren Implementierungsdetails noch ausgearbeitet werden.

Wann ist unabhängige Verifizierung zu erwarten?

Die vollständigen Gewichte von DeepSeek V4 werden diese Woche erwartet. Innerhalb von 24–48 Stunden nach Veröffentlichung sind Benchmark-Ergebnisse von LMSYS, BigCode und der breiteren Open-Source-Community zu erwarten.

Für Entwickler, die V4 für Langkontext-Anwendungsfälle evaluieren, sind das die Daten, auf die es sich zu warten lohnt, bevor Architekturentscheidungen getroffen werden.

→ DeepSeek V4 Vollständiger Entwicklerleitfaden
→ DeepSeek V4 Veröffentlichungsdatum: Was wir wissen
→ AnyCap für KI-Agent-Workflows