DeepSeek V4 リリース：重み・ベンチマーク・開発者ファーストインプレッション

DeepSeek V4 の完全な重みが Apache 2.0 ライセンスで HuggingFace に公開。初期ベンチマーク結果、Engram の実運用パフォーマンス、V4 の使い方を解説します。

DeepSeek V4 が公開：重み・ベンチマーク・第一印象

DeepSeek V4 の完全な重みが、Apache 2.0 ライセンスのもと HuggingFace で公開されました。数ヶ月にわたるアーキテクチャ論文の発表、V4 Lite プレビュー、そしてコミュニティの高い期待を経て、完全なモデルがついにリリースされました。

初期データから分かること、そして開発者がすぐに使い始めるために知っておくべきことをお伝えします。

リリース内容

今回のリリースに含まれるもの：

V4 の完全な重み（総パラメータ数約1兆、Mixture-of-Experts によりトークンあたり 370億パラメータがアクティブ）
HuggingFace リポジトリ（Apache 2.0）— 商用利用可能、使用制限なし
API アクセス（DeepSeek プラットフォーム経由）、予想価格は入力 100 万トークンあたり $0.30

Apache 2.0 ライセンスは重要な意味を持ちます。非商用利用や用途制限が付いた最近のオープンウェイトリリースとは異なり、V4 は商用展開・ファインチューニング・再配布が可能です。オープンモデルを基盤とするエンタープライズチームやスタートアップにとって、この能力帯で最も自由度の高い選択肢です。

初期ベンチマーク結果

重みが公開された数時間後から、独立した評価が始まっています。初期結果をまとめます：

コーディング（HumanEval / LiveCodeBench）：
LiveCodeBench の初期結果では、V4 は V3 を上回っています。これは MoE スケーリング論文のアブレーション結果と一致しており、新しいエキスパート構成によるコーディングタスクの性能向上が確認されています。

数学（MATH-500）：
標準的な数学ベンチマークでは、GPT-4o や Claude 3.7 Sonnet と競合するレベルです。エキスパートごとの専門化が、構造的な推論タスクで測定可能な改善をもたらしているようです。

長文脈検索（Needle-in-a-Haystack）：
V4 の目玉テストです。100 万トークンにおける Engram の初期独立評価では、精度が 93〜96% の範囲を示しています。DeepSeek が社内で主張する 97% をやや下回りますが、標準アテンションのベースライン 84.2% を大幅に上回っています。

97% の社内ベンチマークは、まだ独立した完全な再現には至っていません。現時点では 93〜96% の範囲がより信頼できる数値であり、それでも代替アプローチと比較して大きな改善を示しています。

Engram の実運用パフォーマンス

Engram — V4 の長文脈検索のための条件付きメモリ機構 — は、リリース前から最も注目を集めていたアーキテクチャ上の特徴です。実際の長文脈タスク（フルコードベース解析、長文契約書のレビュー、長い会話の記憶）に関するコミュニティの初期テストは、概ね好意的です。

早期テスターからの主な観察：

リポジトリ全体のコードレビュー： V4 はファイル間の依存関係を正確に特定し、同じトークン深度で GPT-4o が見落とす関連コンテキストを提示する
50 万トークンでの文書解析： この長さにおける検索品質は、V3 よりも明らかに安定している
レイテンシ： ホスト型 API の First-Token レイテンシは、標準的な長さのコンテキストでは V3 と同程度。長文脈リクエストは短いものより遅くなるが、単純な Full-Attention アプローチほどの速度低下ではない

アーキテクチャ論文で未回答だった Engram 機構の推論オーバーヘッドは、実際には中程度に留まっているようです。

価格とその意味

入力 100 万トークンあたり約 $0.30 という価格設定で、V4 は概ね：

GPT-5.5 の約 16 分の 1 の価格（$5/MTok 入力）
GPT-4o Mini ティアの価格と同水準（一部プロバイダー）
V3 のほとんどの推論プラットフォームでの発売価格より安価

単一タスクが複数の呼び出しにわたって数十万トークンを消費するエージェント型ワークフローでは、この価格差は無視できません。GPT-5.5 で $15 かかるエージェントループが、V4 の定価では $1 未満になります。

注意点：1 兆パラメータの MoE モデルをセルフホストするには相当なインフラが必要です。$0.30 という価格はホスト型 API に適用されます。この規模でのセルフホストは、大規模な GPU クラスターを持つチームにのみ現実的です。

AnyCap を通じた V4 へのアクセス

プロバイダーアカウントやインフラを直接管理せずに DeepSeek V4 を使いたい場合は、AnyCap の統合モデル API を利用することで、V4 のほか GPT-5.5・Claude 4・Gemini 3.1 などのフロンティアモデルを、すべて単一のエンドポイントで利用できます。

import anycap

client = anycap.Client()

response = client.generate(
    model="deepseek-v4",
    messages=[{"role": "user", "content": "Review this codebase for security issues..."}],
    max_tokens=4096
)

print(response.content)

AnyCap はプロバイダーのフェイルオーバー、レート制限の管理、統合課金を処理します。各プロバイダーに合わせた統合を作り直すことなく、V4 と他のモデルをベンチマーク比較したいチームに便利です。

今後 48 時間で注目すべきポイント

最も信頼性の高い独立ベンチマークは、重みリリースから 24〜72 時間後、大規模な評価ラボが評価を完了した段階で公開されるのが通例です：

LMSYS Chatbot Arena — GPT-5.5・Claude 4 との人間の好み評価
BigCode EvalPlus — 包括的なコーディングベンチマークスイート
長文脈アドバーサリアルテスト — 合成ベンチマークでは見えない検索品質の弱点を探すストレステスト

アーキテクチャ上の意思決定を行う開発者にとって、V4 を本番の長文脈ユースケースにコミットする前に、これらの結果を待つのが賢明な判断です。

→ DeepSeek V4 の Engram メモリを解説
→ DeepSeek V4：完全な開発者ガイド
→ DeepSeek V4 リリース日：私たちが追ってきたすべて