DeepSeek V4 能力完全指南：能做什么与不能做什么

全面解析 DeepSeek V4 的能力与局限，以及如何弥补差距。涵盖 100 万 token 上下文、智能体编码、自托管、多模态限制及通过 AnyCap 扩展能力。

DeepSeek V4 是一个拥有 1.6 万亿参数的混合专家（Mixture-of-Experts）语言模型，在智能体编码基准测试中与 GPT-5.5 旗鼓相当，成本仅为其 1/18。 它拥有 100 万 token 的上下文窗口——在所有前沿模型中最长。它采用 Apache 2.0 许可证，意味着你可以自由进行自托管、微调和部署，没有任何限制。但它是纯文本模型：没有原生图像生成、没有视频、没有音频、没有网络搜索、没有存储、没有发布功能。

本指南涵盖 DeepSeek V4 能做的一切、不能做的一切，以及如何弥补差距，让你的智能体真正完成完整的工作。关于架构、基准测试和 API 的完整技术解析，请参阅我们的 DeepSeek V4 开发者指南。

DeepSeek V4 能做什么

以 1/18 的成本实现前沿推理

DeepSeek V4 Pro 在 SWE-bench Verified 上得分 81%、MMLU-Pro 上 85.2%、MATH-500 上 96.8%——与 GPT-5.5 和 Claude Opus 4.7 相差无几。区别在于成本：DeepSeek V4 Pro 的定价为输入 $0.28/百万 token、输出 $1.12/百万 token。GPT-5.5 则是输入 $5/百万、输出 $30/百万。

对于典型的智能体编码会话——输入 1 万 token、输出 2 千 token——DeepSeek V4 Pro 的成本约为 $0.005，GPT-5.5 约为 $0.11。每天使用一个月，差价高达数百美元。关于基准测试、定价和功能的详细对比，请参阅 DeepSeek V4 vs GPT-5.5。

100 万 token 上下文窗口

DeepSeek V4 可以在单次处理中摄入 100 万 token——大约 75 万个词，相当于三部完整小说。对于开发者而言，这意味着可以将整个代码库输入模型，无需分块、摘要或检索。通过 DeepSeek V4 路由的 Claude Code 可以在单次会话中索引并理解一个大型 monorepo。

这得益于 DeepSeek 的多头潜注意力（Multi-head Latent Attention，MLA）架构，通过压缩键值缓存来降低长上下文推理时的内存占用。效果切实可用：以不超出 API 预算的成本享用 100 万 token 上下文。

智能体编码——开源 SOTA

DeepSeek V4 Pro 在智能体编码基准测试中，于开源模型中达到最先进水平。它专门针对智能体任务进行了后训练：工具调用、多步骤规划、错误恢复和代码执行。CNBC 在发布当日报道称，V4 已针对与 Claude Code 和 OpenClaw 配合使用进行了优化。

在实践中，DeepSeek V4 驱动的智能体可以：

读取完整代码仓库并构建代码库的内部映射
跨数十个文件规划多步骤更改
执行这些更改、运行测试并在失败时迭代
通过函数调用或 MCP 调用外部工具

完整的配置教程，请参阅 DeepSeek V4 与 Claude Code：智能体集成指南。

自托管与数据主权

DeepSeek V4 在 Apache 2.0 许可证下发布。你可以下载模型权重、在自有硬件上运行模型，并在气隙（air-gapped）环境中部署。量化为 4 位的 V4 Flash 可在单块消费级 GPU 上运行。V4 Pro 需要更多显存，但在工作站级硬件上可行。

对于有合规要求、数据主权限制或偏好基础设施自主权的团队，这是相对于 GPT-5.5 或 Claude 等仅提供 API 的模型的决定性优势。

多模型路由

DeepSeek V4 可以通过 OpenRouter 等路由层与其他模型配合使用。常见模式：用 DeepSeek V4 Flash（$0.14/百万 token）处理简单任务，用 DeepSeek V4 Pro 处理复杂推理，用多模态模型处理需要原生图像理解的任务。多模型路由正成为标准实践——DeepSeek V4 的价格使其成为成本敏感路由层的首选。

DeepSeek V4 不能做什么

没有原生多模态支持

这是最大的局限。DeepSeek V4 是纯文本模型。官方文档明确说明："预览版中没有原生的图像、音频或视频输入输出。"

具体而言，DeepSeek V4 驱动的智能体在默认情况下无法：

生成图像或编辑照片
创建视频或分析视频内容
处理音频——转录、语音合成、音乐生成
理解图像——描述照片、从截图中提取文字、回答关于图表的问题
搜索实时网络以获取最新信息
将文件存储到云端或生成分享链接
向网络发布内容

没有语音或音频处理

GPT-5.5 和 Gemini 3.1 支持语音模式和音频理解，DeepSeek V4 不支持。如果你的工作流涉及会议转录、构建语音智能体或处理音频文件，仅凭 DeepSeek V4 并不适合。

知识截止日期

与所有大型语言模型一样，DeepSeek V4 有训练数据截止日期，不了解训练日期之后发生的事件。100 万 token 的上下文窗口有所帮助——你可以输入近期文档或搜索结果——但模型本身没有实时感知能力。

API 生态系统成熟度

DeepSeek 的 API 生态系统比 OpenAI 或 Anthropic 更新、规模更小。Assistants API、结构化输出、微调 API 和托管部署选项的成熟度相对较低。对于严重依赖托管 AI 基础设施的团队来说，这是一个需要考量的因素——尽管 Apache 2.0 许可证意味着你可以在模型之上构建任何所需的基础设施。

如何弥补能力差距

上述每个局限都有解决方案。架构很简单：DeepSeek V4 负责推理和代码生成，其他工具负责其余一切。

图像生成、视频、搜索、存储和发布

这些能力可以通过 MCP（模型上下文协议）添加，MCP 是将 AI 智能体连接到外部工具的开放标准。Claude Code、Cursor 和 OpenClaw 均原生支持 MCP。最快的方式：用一条命令安装 AnyCap。一个运行时为任何兼容 MCP 的智能体添加全部五项能力：

npx -y skills add anycap-ai/anycap -a claude-code

安装后，你的 DeepSeek V4 驱动的智能体可以：

能力	命令
生成图像	`anycap image generate "描述"`
创建视频	`anycap video generate "描述"`
搜索网络	`anycap search "查询"`
存储文件	`anycap drive upload ./路径`
发布内容	`anycap page publish ./文件.md`

完整指南：如何为 DeepSeek V4 智能体添加多模态能力

Claude Code 和 OpenClaw 集成

DeepSeek V4 已针对智能体工具进行优化。CNBC 在发布时确认了这一点。将 Claude Code 通过 DeepSeek V4 路由：

export OPENROUTER_API_KEY=sk-or-your-key
claude --model openrouter/deepseek/deepseek-v4-pro

你的智能体使用 DeepSeek V4 进行推理和代码生成，使用 Claude Code 进行智能体执行（读取文件、运行命令、管理 git），使用 AnyCap 获取多模态能力。

完整指南：DeepSeek V4 与 Claude Code：智能体集成指南

网络搜索与实时信息

DeepSeek V4 的 100 万 token 上下文窗口特别适合搜索增强工作流。将 AnyCap 网络搜索的结果输入模型，模型可以在单次处理中摄入并综合全部输出——无需分块，无需检索增强生成（RAG）管道，直接利用原始上下文。

模型对比：DeepSeek V4 vs GPT-5.5

如果你正在具体评估 DeepSeek V4 与 GPT-5.5——基准测试、定价、多模态差距、部署灵活性——请查看完整对比。

完整对比：DeepSeek V4 vs GPT-5.5：能力对比

不同使用场景的推荐技术栈

注重成本的智能体开发

DeepSeek V4 Flash ($0.14/百万 token)
  + Claude Code（智能体执行）
  + AnyCap（多模态能力）
= 日常使用每月约 $5-10 的完整智能体技术栈

最高性能，最优成本

DeepSeek V4 Pro ($0.28/百万 token) — 复杂推理
DeepSeek V4 Flash ($0.14/百万 token) — 简单任务
  + Claude Code 或 OpenClaw（智能体执行）
  + AnyCap（多模态能力）
  + 多模型路由器（OpenRouter）
= 每月约 $15-30 的前沿智能体编码

自托管，气隙环境

DeepSeek V4 Pro（在工作站 GPU 上自托管）
  + Claude Code（智能体执行）
  + AnyCap（多模态能力）
  + 仅限本地网络
= 数据不离开你的基础设施

企业 OpenAI 生态

GPT-5.5 — 原生多模态任务
DeepSeek V4 Flash — 成本敏感的代码生成
  + 多模型路由器
  + AnyCap（跨两个模型的统一能力层）
= 两个生态系统的最佳结合

常见问题

DeepSeek V4 真的免费吗？

模型权重在 Apache 2.0 下免费开源。自己运行需要计算成本——电费和硬件。使用 DeepSeek API，V4 Pro 的定价为输入 $0.28/百万 token，V4 Flash 为 $0.14/百万 token。通过 OpenRouter 或其他提供商使用可能有不同定价。

DeepSeek V4 能生成图像吗？

原生不行。它是纯文本模型。你可以通过 MCP 服务器或 AnyCap 等能力运行时添加图像生成功能。模型负责推理和代码，能力层负责多模态输出。请参阅我们的为 DeepSeek V4 添加多模态能力的指南。

V4 Pro 和 V4 Flash 有什么区别？

V4 Pro 是完整模型：总参数 1.6 万亿，每个 token 激活 490 亿个参数，推理性能最强。V4 Flash 是更小、更快的变体：延迟更低、成本更低（$0.14 vs $0.28/百万 token），基准测试分数略低。快速迭代和简单任务用 Flash，复杂的多文件重构和架构推理用 Pro。

DeepSeek V4 能与 Cursor 配合使用吗？

可以。在 Cursor 设置中将 DeepSeek V4 添加为模型提供商。AnyCap 以同样的方式作为 MCP 技能安装。同一套技术栈在 Claude Code、Cursor 和 OpenClaw 中均可使用——你不会被锁定在单一的智能体 Shell 中。

DeepSeek V4 与 Claude Opus 4.7 相比如何？

在基准测试上旗鼓相当。主要区别：Claude Opus 4.7 价格更高（订阅或 API 定价），与 Claude Code 的集成更紧密（原生，而非路由），并受益于 Anthropic 的扩展思考能力。DeepSeek V4 成本仅为其 1/35，开源，可自托管。选择取决于你是更看重集成的流畅性，还是成本和部署灵活性。

DeepSeek V4：完整开发者指南 — 架构、基准测试、API 集成、自托管，以及集成 DeepSeek V4 所需的一切。
DeepSeek V4 vs GPT-5.5：完整能力对比 — 基准测试、定价、多模态差距和部署灵活性的并排对比。
DeepSeek V4 与 Claude Code：智能体集成指南 — 以 1/35 的成本将 Claude Code 通过 DeepSeek V4 路由，实现智能体编码。
如何为 DeepSeek V4 智能体添加多模态能力 — 在 2 分钟内为你的 DeepSeek V4 智能体添加图像生成、视频、网络搜索和云存储。

开始使用 DeepSeek V4：

# 将 Claude Code 通过 DeepSeek V4 路由
export OPENROUTER_API_KEY=sk-or-your-key
claude --model openrouter/deepseek/deepseek-v4-pro

# 添加多模态能力
npx -y skills add anycap-ai/anycap -a claude-code

DeepSeek V4 开发者指南 · 为 V4 添加多模态 · V4 + Claude Code · V4 vs GPT-5.5

DeepSeek V4 能力指南：它能做什么（以及不能做什么）（2026）