DeepSeek V4 是一个拥有 1.6 万亿参数的混合专家(Mixture-of-Experts)语言模型,在智能体编码基准测试中与 GPT-5.5 旗鼓相当,成本仅为其 1/18。 它拥有 100 万 token 的上下文窗口——在所有前沿模型中最长。它采用 Apache 2.0 许可证,意味着你可以自由进行自托管、微调和部署,没有任何限制。但它是纯文本模型:没有原生图像生成、没有视频、没有音频、没有网络搜索、没有存储、没有发布功能。
本指南涵盖 DeepSeek V4 能做的一切、不能做的一切,以及如何弥补差距,让你的智能体真正完成完整的工作。关于架构、基准测试和 API 的完整技术解析,请参阅我们的 DeepSeek V4 开发者指南。
DeepSeek V4 能做什么
以 1/18 的成本实现前沿推理
DeepSeek V4 Pro 在 SWE-bench Verified 上得分 81%、MMLU-Pro 上 85.2%、MATH-500 上 96.8%——与 GPT-5.5 和 Claude Opus 4.7 相差无几。区别在于成本:DeepSeek V4 Pro 的定价为输入 $0.28/百万 token、输出 $1.12/百万 token。GPT-5.5 则是输入 $5/百万、输出 $30/百万。
对于典型的智能体编码会话——输入 1 万 token、输出 2 千 token——DeepSeek V4 Pro 的成本约为 $0.005,GPT-5.5 约为 $0.11。每天使用一个月,差价高达数百美元。关于基准测试、定价和功能的详细对比,请参阅 DeepSeek V4 vs GPT-5.5。
100 万 token 上下文窗口
DeepSeek V4 可以在单次处理中摄入 100 万 token——大约 75 万个词,相当于三部完整小说。对于开发者而言,这意味着可以将整个代码库输入模型,无需分块、摘要或检索。通过 DeepSeek V4 路由的 Claude Code 可以在单次会话中索引并理解一个大型 monorepo。
这得益于 DeepSeek 的多头潜注意力(Multi-head Latent Attention,MLA)架构,通过压缩键值缓存来降低长上下文推理时的内存占用。效果切实可用:以不超出 API 预算的成本享用 100 万 token 上下文。
智能体编码——开源 SOTA
DeepSeek V4 Pro 在智能体编码基准测试中,于开源模型中达到最先进水平。它专门针对智能体任务进行了后训练:工具调用、多步骤规划、错误恢复和代码执行。CNBC 在发布当日报道称,V4 已针对与 Claude Code 和 OpenClaw 配合使用进行了优化。
在实践中,DeepSeek V4 驱动的智能体可以:
- 读取完整代码仓库并构建代码库的内部映射
- 跨数十个文件规划多步骤更改
- 执行这些更改、运行测试并在失败时迭代
- 通过函数调用或 MCP 调用外部工具
完整的配置教程,请参阅 DeepSeek V4 与 Claude Code:智能体集成指南。
自托管与数据主权
DeepSeek V4 在 Apache 2.0 许可证下发布。你可以下载模型权重、在自有硬件上运行模型,并在气隙(air-gapped)环境中部署。量化为 4 位的 V4 Flash 可在单块消费级 GPU 上运行。V4 Pro 需要更多显存,但在工作站级硬件上可行。
对于有合规要求、数据主权限制或偏好基础设施自主权的团队,这是相对于 GPT-5.5 或 Claude 等仅提供 API 的模型的决定性优势。
多模型路由
DeepSeek V4 可以通过 OpenRouter 等路由层与其他模型配合使用。常见模式:用 DeepSeek V4 Flash($0.14/百万 token)处理简单任务,用 DeepSeek V4 Pro 处理复杂推理,用多模态模型处理需要原生图像理解的任务。多模型路由正成为标准实践——DeepSeek V4 的价格使其成为成本敏感路由层的首选。
DeepSeek V4 不能做什么
没有原生多模态支持
这是最大的局限。DeepSeek V4 是纯文本模型。官方文档明确说明:"预览版中没有原生的图像、音频或视频输入输出。"
具体而言,DeepSeek V4 驱动的智能体在默认情况下无法:
- 生成图像或编辑照片
- 创建视频或分析视频内容
- 处理音频——转录、语音合成、音乐生成
- 理解图像——描述照片、从截图中提取文字、回答关于图表的问题
- 搜索实时网络以获取最新信息
- 将文件存储到云端或生成分享链接
- 向网络发布内容
没有语音或音频处理
GPT-5.5 和 Gemini 3.1 支持语音模式和音频理解,DeepSeek V4 不支持。如果你的工作流涉及会议转录、构建语音智能体或处理音频文件,仅凭 DeepSeek V4 并不适合。
知识截止日期
与所有大型语言模型一样,DeepSeek V4 有训练数据截止日期,不了解训练日期之后发生的事件。100 万 token 的上下文窗口有所帮助——你可以输入近期文档或搜索结果——但模型本身没有实时感知能力。
API 生态系统成熟度
DeepSeek 的 API 生态系统比 OpenAI 或 Anthropic 更新、规模更小。Assistants API、结构化输出、微调 API 和托管部署选项的成熟度相对较低。对于严重依赖托管 AI 基础设施的团队来说,这是一个需要考量的因素——尽管 Apache 2.0 许可证意味着你可以在模型之上构建任何所需的基础设施。
如何弥补能力差距
上述每个局限都有解决方案。架构很简单:DeepSeek V4 负责推理和代码生成,其他工具负责其余一切。
图像生成、视频、搜索、存储和发布
这些能力可以通过 MCP(模型上下文协议)添加,MCP 是将 AI 智能体连接到外部工具的开放标准。Claude Code、Cursor 和 OpenClaw 均原生支持 MCP。 最快的方式:用一条命令安装 AnyCap。一个运行时为任何兼容 MCP 的智能体添加全部五项能力:
npx -y skills add anycap-ai/anycap -a claude-code
安装后,你的 DeepSeek V4 驱动的智能体可以:
| 能力 | 命令 |
|---|---|
| 生成图像 | anycap image generate "描述" |
| 创建视频 | anycap video generate "描述" |
| 搜索网络 | anycap search "查询" |
| 存储文件 | anycap drive upload ./路径 |
| 发布内容 | anycap page publish ./文件.md |
完整指南:如何为 DeepSeek V4 智能体添加多模态能力
Claude Code 和 OpenClaw 集成
DeepSeek V4 已针对智能体工具进行优化。CNBC 在发布时确认了这一点。将 Claude Code 通过 DeepSeek V4 路由:
export OPENROUTER_API_KEY=sk-or-your-key
claude --model openrouter/deepseek/deepseek-v4-pro
你的智能体使用 DeepSeek V4 进行推理和代码生成,使用 Claude Code 进行智能体执行(读取文件、运行命令、管理 git),使用 AnyCap 获取多模态能力。
完整指南:DeepSeek V4 与 Claude Code:智能体集成指南
网络搜索与实时信息
DeepSeek V4 的 100 万 token 上下文窗口特别适合搜索增强工作流。将 AnyCap 网络搜索的结果输入模型,模型可以在单次处理中摄入并综合全部输出——无需分块,无需检索增强生成(RAG)管道,直接利用原始上下文。
模型对比:DeepSeek V4 vs GPT-5.5
如果你正在具体评估 DeepSeek V4 与 GPT-5.5——基准测试、定价、多模态差距、部署灵活性——请查看完整对比。
完整对比:DeepSeek V4 vs GPT-5.5:能力对比
不同使用场景的推荐技术栈
注重成本的智能体开发
DeepSeek V4 Flash ($0.14/百万 token)
+ Claude Code(智能体执行)
+ AnyCap(多模态能力)
= 日常使用每月约 $5-10 的完整智能体技术栈
最高性能,最优成本
DeepSeek V4 Pro ($0.28/百万 token) — 复杂推理
DeepSeek V4 Flash ($0.14/百万 token) — 简单任务
+ Claude Code 或 OpenClaw(智能体执行)
+ AnyCap(多模态能力)
+ 多模型路由器(OpenRouter)
= 每月约 $15-30 的前沿智能体编码
自托管,气隙环境
DeepSeek V4 Pro(在工作站 GPU 上自托管)
+ Claude Code(智能体执行)
+ AnyCap(多模态能力)
+ 仅限本地网络
= 数据不离开你的基础设施
企业 OpenAI 生态
GPT-5.5 — 原生多模态任务
DeepSeek V4 Flash — 成本敏感的代码生成
+ 多模型路由器
+ AnyCap(跨两个模型的统一能力层)
= 两个生态系统的最佳结合
常见问题
DeepSeek V4 真的免费吗?
模型权重在 Apache 2.0 下免费开源。自己运行需要计算成本——电费和硬件。使用 DeepSeek API,V4 Pro 的定价为输入 $0.28/百万 token,V4 Flash 为 $0.14/百万 token。通过 OpenRouter 或其他提供商使用可能有不同定价。
DeepSeek V4 能生成图像吗?
原生不行。它是纯文本模型。你可以通过 MCP 服务器或 AnyCap 等能力运行时添加图像生成功能。模型负责推理和代码,能力层负责多模态输出。请参阅我们的 为 DeepSeek V4 添加多模态能力的指南。
V4 Pro 和 V4 Flash 有什么区别?
V4 Pro 是完整模型:总参数 1.6 万亿,每个 token 激活 490 亿个参数,推理性能最强。V4 Flash 是更小、更快的变体:延迟更低、成本更低($0.14 vs $0.28/百万 token),基准测试分数略低。快速迭代和简单任务用 Flash,复杂的多文件重构和架构推理用 Pro。
DeepSeek V4 能与 Cursor 配合使用吗?
可以。在 Cursor 设置中将 DeepSeek V4 添加为模型提供商。AnyCap 以同样的方式作为 MCP 技能安装。同一套技术栈在 Claude Code、Cursor 和 OpenClaw 中均可使用——你不会被锁定在单一的智能体 Shell 中。
DeepSeek V4 与 Claude Opus 4.7 相比如何?
在基准测试上旗鼓相当。主要区别:Claude Opus 4.7 价格更高(订阅或 API 定价),与 Claude Code 的集成更紧密(原生,而非路由),并受益于 Anthropic 的扩展思考能力。DeepSeek V4 成本仅为其 1/35,开源,可自托管。选择取决于你是更看重集成的流畅性,还是成本和部署灵活性。
相关文章
- DeepSeek V4:完整开发者指南 — 架构、基准测试、API 集成、自托管,以及集成 DeepSeek V4 所需的一切。
- DeepSeek V4 vs GPT-5.5:完整能力对比 — 基准测试、定价、多模态差距和部署灵活性的并排对比。
- DeepSeek V4 与 Claude Code:智能体集成指南 — 以 1/35 的成本将 Claude Code 通过 DeepSeek V4 路由,实现智能体编码。
- 如何为 DeepSeek V4 智能体添加多模态能力 — 在 2 分钟内为你的 DeepSeek V4 智能体添加图像生成、视频、网络搜索和云存储。
开始使用 DeepSeek V4:
# 将 Claude Code 通过 DeepSeek V4 路由
export OPENROUTER_API_KEY=sk-or-your-key
claude --model openrouter/deepseek/deepseek-v4-pro
# 添加多模态能力
npx -y skills add anycap-ai/anycap -a claude-code
DeepSeek V4 开发者指南 · 为 V4 添加多模态 · V4 + Claude Code · V4 vs GPT-5.5