DeepSeek V4 正式上线:权重、基准测试与初步印象
DeepSeek V4 完整权重现已在 HuggingFace 以 Apache 2.0 许可证开放下载。经过数月的架构论文发布、V4 Lite 预览版以及社区的持续关注,完整模型终于正式亮相。
以下是早期数据的解读,以及开发者开始使用所需了解的信息。
此次发布包含什么
本次发布内容包括:
- 完整 V4 权重(约 1 万亿总参数,通过混合专家架构每个 Token 激活 370 亿参数)
- HuggingFace 仓库(Apache 2.0 许可)——允许商业使用,无使用限制
- API 访问,通过 DeepSeek 平台,预计定价约为每百万 Token 输入 $0.30
Apache 2.0 许可证意义重大。与近期一些附带非商业或使用领域限制的开放权重模型不同,V4 可以商业部署、微调和再分发。对于在开放模型上构建产品的企业团队和创业公司而言,这是该能力层级中限制最少的选择。
早期基准测试结果
权重发布后数小时内,独立评测便已开始。以下是最新结果:
编程能力(HumanEval / LiveCodeBench):
在 LiveCodeBench 上,V4 的早期测试成绩高于 V3,与 MoE 扩展论文中消融实验所显示的新专家配置提升编程任务性能的结论一致。
数学能力(MATH-500):
在标准数学基准测试上,成绩与 GPT-4o 和 Claude 3.7 Sonnet 旗鼓相当。专家级别的专业化分工在结构化推理任务上带来了可量化的提升。
长文本检索(大海捞针测试):
这是 V4 的核心测试。针对 Engram 在 100 万 Token 下的早期独立评测,准确率数据在 93–96% 之间——略低于 DeepSeek 内部声称的 97%,但远高于标准注意力机制 84.2% 的基线水平。
目前,97% 的内部基准尚未得到独立完整复现。93–96% 的区间在现阶段更具说服力,但仍代表了相对其他方案的显著提升。
Engram 在实际场景中的表现
Engram 是 V4 针对长文本检索的条件记忆机制,也是发布前吸引最多开发者关注的架构特性。早期社区在实际长文本任务(完整代码库分析、长合同审查、扩展对话召回)上的测试结果普遍积极。
早期测试者的主要观察:
- 全仓库代码审查: V4 能正确识别跨文件依赖关系,并呈现出 GPT-4o 在相同 Token 深度下遗漏的相关上下文
- 50 万 Token 文档分析: 在这一长度下,检索质量明显比 V3 更稳定
- 延迟: 对于标准长度的上下文,托管 API 的首 Token 延迟与 V3 相当;长文本请求的速度虽然比短请求慢,但速度下降幅度远低于朴素全注意力方案
架构论文中未解答的 Engram 机制推理开销问题,在实际使用中看来处于可接受的中等水平。
定价及其意义
以约每百万输入 Token $0.30 的定价,V4 大约:
- 比 GPT-5.5 便宜 16 倍($5/百万 Token 输入)
- 与 GPT-4o Mini 在部分供应商的定价层级相当
- 低于 V3 在大多数推理平台的发布定价
对于单个任务可能在多次调用中消耗数十万 Token 的智能体工作流而言,这一价格差异绝非可以忽视。同一个智能体循环,在 GPT-5.5 上花费 $15,按 V4 标准定价只需不到 $1。
需要注意的是:自托管 1 万亿参数 MoE 模型需要可观的基础设施投入。$0.30 的定价仅适用于托管 API。在这一规模上的自托管,只有拥有大型 GPU 集群的团队才具备可行性。
通过 AnyCap 使用 V4
如果您希望使用 DeepSeek V4,同时不必直接管理服务商账户或基础设施,AnyCap 统一模型 API 可以将请求路由到 V4,以及 GPT-5.5、Claude 4、Gemini 3.1 等前沿模型——全部通过单一端点完成。
import anycap
client = anycap.Client()
response = client.generate(
model="deepseek-v4",
messages=[{"role": "user", "content": "Review this codebase for security issues..."}],
max_tokens=4096
)
print(response.content)
AnyCap 负责处理供应商故障切换、速率限制管理和统一计费——对于希望在不为每个供应商重建集成的前提下将 V4 与其他模型进行基准测试的团队来说非常实用。
未来 48 小时值得关注什么
最有价值的独立基准通常在权重发布后 24–72 小时内出现,届时更大的评测实验室将完成各自的测试:
- LMSYS Chatbot Arena ——对比 GPT-5.5 和 Claude 4 的人类偏好评分
- BigCode EvalPlus ——全面的编程基准测试套件
- 长文本对抗性测试 ——专门设计用于发现合成基准所忽略的检索质量弱点
对于正在做架构决策的开发者,在将 V4 投入生产长文本场景之前,等待这些测试结果是更稳妥的选择。
→ DeepSeek V4 Engram 记忆机制详解
→ DeepSeek V4:完整开发者指南
→ DeepSeek V4 发布日期:我们追踪的全部信息