DeepSeek V4のEngram:長文脈AIを変えるメモリシステム

DeepSeek V4のEngramは100万トークンでNIAH精度97%を達成(標準は84.2%)。RAGや長文書AI処理への影響をわかりやすく解説します。

by AnyCap

DeepSeek V4のEngram:長文脈AIを変えるメモリシステム

DeepSeek V4はEngramという新しいアーキテクチャコンポーネントを導入しました。これは、長文脈AIにおける最も根深い問題を解決するために設計された条件付きメモリシステムです。その問題とは、モデルは技術的に100万トークンを受け入れられるものの、その内容を確実に取り出せないという点です。

V4 Liteはすでに公開されており、フルバージョンのV4も間もなくリリース予定です。ここではEngramが実際に何をするのか、そして開発者にとってなぜ重要なのかを解説します。


Engramが解決する問題

標準的なTransformerのアテンション機構は、スケールに応じて性能が緩やかに低下しません。128Kトークンでは、再現品質は許容範囲内です。しかし100万トークンになると、広く引用されている調査結果が示すように、Needle-in-a-Haystack(NIAH)精度は約84%まで低下します。これは、100万トークンのコンテキストに埋め込まれた特定の情報のうち、6件に1件程度が見落とされることを意味します。

これは実用上の問題を引き起こします。コードベース全体やドキュメントコーパスを100万トークンのコンテキストウィンドウを持つモデルに渡した場合、モデルが関連する情報をすべて見つけたと信頼することができません。長いコンテキストウィンドウは実在しますが、検索品質はそれに追いついていないのです。

DeepSeekの回答がEngramです。


Engramの仕組み

EngramはDeepSeekのアーキテクチャドキュメントにおいて、条件付きメモリメカニズムとして説明されています。これは、完全なトークン列全体のアテンションに頼るのではなく、関連性シグナルに基づいて情報を選択的に保存・取得します。

100万トークンのコンテキスト内のすべてのトークンに対して完全なアテンション計算を行う代わりに、Engramは現在のクエリに関連する可能性が高いコンテキストのセグメントを特定し、それに応じて検索をルーティングします。DeepSeekの内部ベンチマークによる結果は以下の通りです:

指標 標準アテンション Engram(V4)
NIAH @ 100万トークン 84.2% 97%

12.8ポイントの改善は誤差の範囲ではありません。実際のところ、長いドキュメントでうまく機能するモデルと、高コストなチャンキング・検索パイプラインを置き換えるほど信頼できるモデルの差を意味します。


RAGと長文書ワークフローへの影響

検索拡張生成(RAG)を基盤として開発している開発者にとって、Engramは計算式を大きく変えます:

Engram以前: 長いドキュメントはチャンキング、埋め込み、ベクトル検索が必要でした。これは独自の障害モードとメンテナンスコストを持つ多コンポーネントパイプラインです。

Engramを使用: DeepSeekの97%精度の主張が独立した評価でも確認された場合、ドキュメント全体(または中規模のコードベース)を別の検索レイヤーなしで直接コンテキストに渡すことが現実的になります。

これはすべてのユースケースでRAGを排除するわけではありません。100万トークンを超えるデータセットや、フルコンテキストの読み込みが現実的でない低レイテンシアプリケーションでは、ベクトル検索が依然として適切なアーキテクチャです。しかし、一般的な文書分析、契約書レビュー、リポジトリレベルのコードレビューといったタスクでは、Engramによってフルコンテキストアプローチが初めて現実的な選択肢となります。


注意点:ベンチマークは内部評価

DeepSeekの97% Needle-in-a-Haystackの数値は内部ベンチマークによるものであり、第三者評価ではありません。独立した研究機関はまだV4の長文脈検索品質に関する結果を公表していません。

これは重要な点です。内部ベンチマークの数値は歴史的に実際のパフォーマンスを誇張する傾向があり、特に評価設定が有利な結果に最適化される可能性がある検索タスクではその傾向が顕著です。

適切なアプローチは、97%を確定した仕様としてではなく、検証すべき目標値として扱うことです。V4のウェイトが公開され独立した評価が始まれば(リリースから48時間以内に結果が出ると予想されます)、実際の検索性能の数値が明らかになるでしょう。


Engramと競合の比較

長文脈検索品質に取り組んでいる研究機関はDeepSeekだけではありません。AnthropicはClaudeのアーキテクチャにおけるアテンションパターンの最適化で同様の問題に対処しています。GoogleのGemini 3.1 Proも100万トークンでの検索品質を維持するために異なるアプローチを採用しています。

Engramの特徴は、アーキテクチャ的に独立していること——標準アテンションの最適化ではなく、独立したコンポーネントであること——そして100万トークンでの性能差が競合他社の公表値より大きいと主張されている点です。

独立したベンチマークが97%を確認すれば、Engramは意義深い前進を示します。確認されなければ、実装の詳細がまだ詰められている段階の、興味深い研究方向性に留まります。


独立した検証はいつ?

DeepSeek V4のフルウェイトは今週公開予定です。リリースから24〜48時間以内に、LMSYS、BigCode、そしてより広いオープンソースコミュニティからのベンチマーク結果が出揃うと予想されます。

長文脈ユースケースでV4を評価している開発者にとって、アーキテクチャに関する意思決定を行う前に待つべきデータはこれです。


DeepSeek V4 完全開発者ガイド
DeepSeek V4 リリース日:現時点で判明していること
AnyCap AIエージェントワークフロー