DeepSeek V4의 Engram: 장문맥 AI를 바꾸는 메모리 시스템

DeepSeek V4의 Engram이 100만 토큰에서 NIAH 정확도 97%를 달성한 방법과 RAG 및 장문서 AI 워크플로에 미치는 영향을 알아보세요.

by AnyCap

DeepSeek V4의 Engram: 장문맥 AI를 바꾸는 메모리 시스템

DeepSeek V4는 Engram이라는 새로운 아키텍처 구성 요소를 도입했습니다. 이는 장문맥 AI에서 가장 지속적인 문제를 해결하기 위해 설계된 조건부 메모리 시스템입니다. 그 문제란, 모델이 기술적으로 백만 개의 토큰을 받아들이면서도 그 내용을 안정적으로 검색하지 못한다는 것입니다.

V4 Lite가 이미 출시된 상황에서 곧 전체 V4 출시도 예정되어 있습니다. Engram이 실제로 무엇을 하는지, 그리고 개발자에게 왜 중요한지 살펴보겠습니다.


Engram이 해결하는 문제

표준 트랜스포머 어텐션은 규모가 커질수록 성능이 점진적으로 저하되지 않습니다. 128K 토큰에서는 재현 품질이 허용 가능한 수준입니다. 그러나 백만 개의 토큰에서는 널리 인용된 연구에 따르면 Needle-in-a-Haystack(NIAH) 정확도가 약 84%로 떨어집니다. 이는 백만 토큰 컨텍스트에 묻혀 있는 특정 사실 여섯 개 중 하나가 누락된다는 의미입니다.

이로 인해 실질적인 문제가 생깁니다. 전체 코드베이스나 문서 코퍼스를 백만 토큰 컨텍스트 윈도우를 가진 모델에 넘기면, 모델이 관련된 모든 내용을 찾았다고 신뢰할 수 없습니다. 긴 컨텍스트 윈도우는 실제로 존재하지만, 검색 품질은 그에 미치지 못합니다.

DeepSeek의 답이 바로 Engram입니다.


Engram의 작동 원리

DeepSeek의 아키텍처 문서에서 Engram은 전체 토큰 시퀀스에 대한 어텐션에만 의존하지 않고, 관련성 신호를 기반으로 정보를 선택적으로 저장하고 검색하는 조건부 메모리 메커니즘으로 설명됩니다.

백만 토큰 컨텍스트의 모든 토큰에 대해 전체 어텐션을 계산하는 대신, Engram은 현재 쿼리와 관련 가능성이 높은 컨텍스트 세그먼트를 파악하고 그에 따라 검색을 라우팅합니다. DeepSeek 내부 벤치마크에 따른 결과:

지표 표준 어텐션 Engram (V4)
NIAH @ 백만 토큰 84.2% 97%

12.8 퍼센트포인트의 개선은 반올림 오차 수준이 아닙니다. 실제로는 장문서에서 잘 작동하는 모델과, 고비용의 청킹-검색 파이프라인을 대체할 만큼 충분히 신뢰할 수 있는 모델의 차이를 의미합니다.


RAG 및 장문서 워크플로에 대한 의미

검색 증강 생성(RAG)을 기반으로 개발하는 개발자에게 Engram은 계산 방식을 크게 바꿉니다:

Engram 이전: 긴 문서는 청킹, 임베딩, 벡터 검색이 필요했습니다. 이는 자체적인 오류 모드와 유지 관리 부담을 가진 다중 컴포넌트 파이프라인입니다.

Engram 도입 후: DeepSeek의 97% 정확도 주장이 독립적인 평가에서도 유효하다면, 별도의 검색 레이어 없이 전체 문서(또는 중간 규모의 코드베이스)를 직접 컨텍스트에 넘기는 방식이 실용적이 됩니다.

이것이 모든 사용 사례에서 RAG를 없애지는 않습니다. 백만 토큰을 초과하는 데이터셋이나, 전체 컨텍스트 로딩이 현실적이지 않은 저지연 애플리케이션에서는 벡터 검색이 여전히 적합한 아키텍처입니다. 그러나 일반적인 문서 분석, 계약서 검토, 레포지토리 수준의 코드 리뷰 작업에서는 Engram이 처음으로 전체 컨텍스트 방식을 신뢰할 만한 선택지로 만들어 줍니다.


주의: 벤치마크는 내부 결과

DeepSeek의 97% Needle-in-a-Haystack 수치는 제3자 평가가 아닌 내부 벤치마크에서 나온 것입니다. 독립 기관들은 아직 V4의 장문맥 검색 품질에 대한 결과를 발표하지 않았습니다.

이것은 중요한 사항입니다. 내부 벤치마크 수치는 역사적으로 실제 성능을 과장하는 경향이 있었으며, 특히 평가 설정이 유리한 결과를 위해 최적화될 수 있는 검색 작업에서 그렇습니다.

신중한 접근법은 97%를 확인된 사양이 아닌 검증해야 할 목표로 취급하는 것입니다. V4 가중치가 공개되고 독립적인 평가가 시작되면(출시 후 48시간 이내에 결과를 기대할 수 있습니다), 실제 검색 수치가 드러날 것입니다.


Engram vs. 대안

장문맥 검색 품질을 연구하는 곳이 DeepSeek만은 아닙니다. Anthropic은 Claude 아키텍처의 어텐션 패턴 최적화를 통해 이 문제를 해결했습니다. Google의 Gemini 3.1 Pro는 백만 토큰에서 검색 품질을 유지하기 위해 다른 접근 방식을 사용합니다.

Engram을 차별화하는 것은 아키텍처적으로 독립적이라는 점입니다. 표준 어텐션의 최적화가 아닌 별도의 컴포넌트이며, 백만 토큰에서의 성능 격차 주장이 경쟁사들이 발표한 것보다 크다는 점입니다.

독립 벤치마크가 97%를 확인한다면, Engram은 의미 있는 발전을 나타냅니다. 그렇지 않다면, 구현 세부 사항이 아직 정리 중인 흥미로운 연구 방향입니다.


독립적인 검증은 언제?

DeepSeek V4의 전체 가중치는 이번 주 공개 예정입니다. 출시 후 24~48시간 이내에 LMSYS, BigCode, 그리고 더 넓은 오픈소스 커뮤니티의 벤치마크 결과를 기대할 수 있습니다.

장문맥 사용 사례로 V4를 평가하는 개발자라면, 아키텍처 결정을 내리기 전에 기다릴 가치가 있는 데이터가 바로 이것입니다.


DeepSeek V4 완전한 개발자 가이드
DeepSeek V4 출시일: 현재까지 알려진 것
AnyCap AI 에이전트 워크플로