DeepSeek V4 출시: 가중치, 벤치마크, 첫인상

DeepSeek V4 전체 가중치가 Apache 2.0 라이선스로 HuggingFace에 공개되었습니다. 초기 벤치마크 결과, Engram 실전 성능, V4 사용 방법을 알아보세요.

by AnyCap

DeepSeek V4 출시: 가중치, 벤치마크, 첫인상

DeepSeek V4의 전체 가중치가 Apache 2.0 라이선스로 HuggingFace에 공개되었습니다. 수개월간의 아키텍처 논문 발표, V4 Lite 프리뷰, 그리고 커뮤니티의 지속적인 기대 끝에 완전한 모델이 드디어 출시되었습니다.

초기 데이터에서 확인된 사항과 개발자가 지금 당장 사용을 시작하기 위해 알아야 할 내용을 정리했습니다.


이번 릴리즈에 포함된 것

릴리즈 내용:

  • 전체 V4 가중치 (총 파라미터 약 1조 개, Mixture-of-Experts를 통해 토큰당 370억 개 활성화)
  • HuggingFace 저장소 Apache 2.0 라이선스 적용 — 상업적 이용 허용, 사용 제한 없음
  • API 액세스 DeepSeek 플랫폼을 통해 제공, 예상 가격 입력 토큰 100만 개당 $0.30

Apache 2.0 라이선스는 매우 중요한 의미를 가집니다. 비상업적 이용 제한이나 용도 제한이 붙은 최근의 오픈 가중치 릴리즈들과 달리, V4는 상업적 배포, 파인튜닝, 재배포가 모두 가능합니다. 오픈 모델을 기반으로 서비스를 구축하는 엔터프라이즈 팀과 스타트업에게 이 성능 수준에서 가장 자유로운 선택지입니다.


초기 벤치마크 결과

가중치 공개 후 몇 시간 만에 독립적인 평가가 시작되었습니다. 첫 결과는 다음과 같습니다:

코딩 (HumanEval / LiveCodeBench):
초기 테스트에서 V4는 LiveCodeBench 기준으로 V3를 상회했습니다. 이는 MoE 스케일링 논문의 에블레이션 결과와 일치하며, 새로운 전문가 구성이 코딩 작업 성능을 개선했음을 보여줍니다.

수학 (MATH-500):
표준 수학 벤치마크에서 GPT-4o 및 Claude 3.7 Sonnet과 경쟁하는 수준의 결과를 보입니다. 전문가별 특화 구성이 구조적 추론 작업에서 측정 가능한 성능 향상으로 이어지는 것으로 보입니다.

장문맥 검색 (Needle-in-a-Haystack):
V4의 핵심 테스트입니다. 100만 토큰 기준 Engram의 초기 독립 평가에서 정확도는 93–96% 범위로 나타났습니다. DeepSeek의 내부 주장인 97%에는 약간 못 미치지만, 표준 어텐션의 기준선인 84.2%를 크게 상회합니다.

97%의 내부 벤치마크는 아직 독립적으로 완전히 재현되지 않았습니다. 현 시점에서는 93–96% 범위가 더 신뢰할 수 있는 수치이며, 여전히 대안적 접근 방식 대비 큰 개선을 나타냅니다.


Engram의 실제 성능

Engram — V4의 장문맥 검색을 위한 조건부 메모리 메커니즘 — 은 출시 전부터 개발자들의 가장 큰 관심을 받은 아키텍처 기능입니다. 실제 장문맥 작업(전체 코드베이스 분석, 긴 계약서 검토, 확장된 대화 기억)에 대한 커뮤니티 초기 테스트 결과는 대체로 긍정적입니다.

초기 테스터들의 주요 관찰 사항:

  • 전체 저장소 코드 리뷰: V4는 파일 간 의존성을 정확히 파악하며, 같은 토큰 깊이에서 GPT-4o가 놓치는 관련 컨텍스트를 제공함
  • 50만 토큰 문서 분석: 이 길이에서 검색 품질이 V3보다 눈에 띄게 안정적임
  • 레이턴시: 표준 길이 컨텍스트에서 호스팅 API의 첫 토큰 레이턴시는 V3와 비슷한 수준; 장문맥 요청은 짧은 요청보다 느리지만, 단순 전체 어텐션 방식보다 속도 저하 폭이 작음

아키텍처 논문에서 미해결 과제로 남겨뒀던 Engram 메커니즘의 추론 오버헤드는 실제로는 중간 수준인 것으로 보입니다.


가격과 그 의미

입력 토큰 100만 개당 약 $0.30의 가격으로, V4는 대략:

  • GPT-5.5보다 16배 저렴 (입력 $5/MTok)
  • 일부 공급업체 기준 GPT-4o Mini 가격 수준과 비슷
  • 대부분의 추론 플랫폼에서 V3 출시 가격보다 저렴

단일 작업이 여러 호출에 걸쳐 수십만 토큰을 소비할 수 있는 에이전틱 워크플로우에서 이 가격 차이는 결코 무시할 수 없습니다. GPT-5.5에서 $15인 에이전트 루프가 V4 정가로는 $1 미만입니다.

주의사항: 1조 파라미터 MoE 모델을 자체 호스팅하려면 상당한 인프라가 필요합니다. $0.30은 호스팅 API에 적용되는 가격입니다. 이 규모에서의 자체 호스팅은 대규모 GPU 클러스터를 보유한 팀에게만 현실적입니다.


AnyCap을 통해 V4 사용하기

공급업체 계정이나 인프라를 직접 관리하지 않고 DeepSeek V4를 사용하고 싶다면, AnyCap의 통합 모델 API를 통해 V4는 물론 GPT-5.5, Claude 4, Gemini 3.1 등 주요 프론티어 모델을 단일 엔드포인트로 이용할 수 있습니다.

import anycap

client = anycap.Client()

response = client.generate(
    model="deepseek-v4",
    messages=[{"role": "user", "content": "Review this codebase for security issues..."}],
    max_tokens=4096
)

print(response.content)

AnyCap은 공급업체 장애 전환, 속도 제한 관리, 통합 청구를 처리합니다. 각 공급업체마다 통합을 새로 구축하지 않고도 V4를 다른 모델과 벤치마크하고 싶은 팀에게 유용합니다.


향후 48시간 동안 주목할 사항

가장 의미 있는 독립 벤치마크는 일반적으로 가중치 릴리즈 후 24–72시간 이내에, 대형 평가 기관이 테스트를 완료하면 공개됩니다:

  • LMSYS Chatbot Arena — GPT-5.5 및 Claude 4 대비 인간 선호도 평가
  • BigCode EvalPlus — 종합 코딩 벤치마크 스위트
  • 장문맥 적대적 테스트 — 합성 벤치마크가 놓치는 검색 품질의 약점을 노출하는 스트레스 테스트

아키텍처 결정을 내리는 개발자라면, V4를 프로덕션 장문맥 사용 사례에 적용하기 전에 이 결과들을 기다리는 것이 신중한 선택입니다.


DeepSeek V4의 Engram 메모리 설명
DeepSeek V4: 완전한 개발자 가이드
DeepSeek V4 출시일: 우리가 추적한 모든 것