DeepSeek V4 是一个纯文本模型。这不是缺陷,而是一个刻意的设计选择:它能降低推理成本,同时保持较高的推理能力。 但当你的智能体需要为刚创建好的落地页生成首屏图、制作产品演示视频、搜索最新的 API 文档,或者把生成的资源可靠地保存起来时,纯文本引擎就会碰到瓶颈。下面介绍如何在不到两分钟内,为一个由 DeepSeek V4 驱动的智能体补齐完整的多模态能力——图片生成、视频、网页搜索、云存储和网页发布。
为什么 DeepSeek V4 只支持文本(以及这为什么重要)
DeepSeek V4 和 V4 Pro 是 Mixture-of-Experts 架构的语言模型,总参数量超过 1T。它们在推理基准上可以与 GPT-5.5 和 Claude Opus 4.7 竞争。它们支持 100 万 token 的上下文窗口,足以载入整个代码库。它们还针对 Claude Code 和 OpenClaw 等智能体工具做了优化。
它们不具备的能力包括:原生图片生成、视频创建、音频处理或网页搜索。官方文档表述得非常明确:"仅限文本。在预览版中没有原生的图像、音频或视频输入输出。"
这并不是疏漏。DeepSeek 做出的是一种战略选择:用远低于竞品的成本,打造尽可能强的文本推理引擎(每 100 万输入 token 仅 $0.28,而 GPT-5.5 为 $5/100 万),把多模态能力留给整个生态来补足。该模型采用 Apache 2.0 许可证,可在量化后运行于消费级硬件上。它快速、便宜、开放。
但你的智能体工作流并不只是文本。它要构建内容,需要图片、视频、搜索、存储和发布。下面就是如何补齐这一差距。
实现多模态的两条路径:自建 MCP 服务器 vs AnyCap 运行时
DeepSeek V4 智能体缺少的每一种能力——图片生成、视频、网页搜索、存储、发布——都可以通过 MCP(Model Context Protocol)来添加。MCP 是让 AI 智能体连接外部工具的开放标准。Claude Code、Cursor 和 OpenClaw 都原生支持 MCP。
你有两种添加能力的方式:
方案 1:DIY —— 分别配置每个 MCP 服务器
找到一个图片生成的 MCP 服务器。安装它。去图片 API 提供商(Replicate、fal.ai 或 OpenAI Images)那里创建账户。获取 API 密钥。把服务器配置写入 .mcp.json。测试。然后对视频生成(另一个提供商)、网页搜索(另一个提供商)、云存储(另一个提供商)和网页发布(另一个提供商)重复上述流程。
结果: 五家提供商、五个 API 密钥、五条 .mcp.json 配置、五个需要监控破坏性变更的接触面。乐观估计耗时:45–90 分钟。
方案 2:AnyCap —— 一个运行时,全部能力
只用一条命令安装 AnyCap。这个运行时可以为任何兼容 MCP 的智能体添加图片生成、视频创建、网页搜索、云存储(Drive)和网页发布(Page),包括你通过 Claude Code 或 OpenClaw 搭建的 DeepSeek V4 环境。
结果: 一次安装、一次认证流程、一个余额、一个命令入口。耗时:不到两分钟。
逐步操作:用 AnyCap 为 DeepSeek V4 添加多模态能力
前提条件
- 可访问 DeepSeek V4 API(通过 DeepSeek 平台、OpenRouter 或自托管)
- 已安装 Claude Code、Cursor 或 OpenClaw(AnyCap 适用于任何兼容 MCP 的智能体外壳)
- 可使用终端
第 1 步:安装 AnyCap
npx -y skills add anycap-ai/anycap -a claude-code
这会将 AnyCap 能力运行时作为一个 MCP skill 安装。此后,你的智能体可以直接调用 AnyCap 工具。无论你使用 Claude Code、Cursor 还是 OpenClaw,这条命令都一样。
第 2 步:完成认证
anycap login
这会打开浏览器进行一次性认证。登录后,系统会将会话令牌保存在本地。无需再管理 API 密钥——AnyCap 会统一处理这五项能力的认证。
第 3 步:将智能体配置为使用 DeepSeek V4
在 Claude Code 中,把模型设置为通过 DeepSeek V4 路由:
# 通过 OpenRouter(推荐用于 API 访问)
export OPENROUTER_API_KEY=sk-or-your-key
claude --model openrouter/deepseek/deepseek-v4-pro
或者在 Cursor 中:设置 → 模型 → 通过 OpenRouter 或自定义端点添加 DeepSeek V4。
现在,你的智能体会使用 DeepSeek V4 进行推理和代码生成,同时通过 AnyCap 获得多模态能力。
第 4 步:生成第一张图片
在智能体会话中输入:
Generate a hero image for a SaaS landing page about AI agent analytics.
你的智能体——由 DeepSeek V4 负责推理——会调用 AnyCap 进行图片生成。图片会出现在你的 AnyCap Drive 中,并返回一个可分享链接。
第 5 步:创建视频
Create a 30-second product demo video showing how the analytics dashboard works.
还是同一个智能体会话、同一套认证。智能体会调用 anycap video generate。无需再配置新的提供商。
第 6 步:搜索网页
Search for the latest DeepSeek V4 API pricing changes and summarize them.
智能体会使用 AnyCap 的搜索能力抓取实时网页结果。DeepSeek V4 具有 100 万 token 上下文窗口,可以一次性接收并综合完整的搜索输出。
第 7 步:保存并发布
Store the generated hero image and demo video in Drive, then publish a changelog page with both assets embedded.
AnyCap Drive 负责存储和分享链接,AnyCap Page 负责发布。智能体能够执行完整工作流——生成 → 存储 → 发布——而不必在五个不同的提供商集成之间来回切换。
现在你的 DeepSeek V4 智能体可以做什么
| 能力 | 使用 AnyCap 之前 | 使用 AnyCap 之后 |
|---|---|---|
| 代码推理 | ✅ 以 $0.28/100 万 token 达到世界级水平 | ✅ 以 $0.28/100 万 token 达到世界级水平 |
| 生成图片 | ❌ 纯文本模型 | ✅ anycap image generate |
| 创建视频 | ❌ 纯文本模型 | ✅ anycap video generate |
| 搜索网页 | ❌ 纯文本模型 | ✅ anycap search |
| 存储文件 | ❌ 纯文本模型 | ✅ anycap drive upload |
| 发布内容 | ❌ 纯文本模型 | ✅ anycap page publish |
DeepSeek V4 负责推理,AnyCap 负责其他一切。这正是合理的架构:把最便宜的前沿推理模型,与一个补齐所有多模态空白的能力运行时配对。
为什么这种架构比等待 DeepSeek 推出多模态更优
DeepSeek 已表示正在开发多模态能力。但目前没有时间表。V4 预览版仍然是纯文本。标题为“DeepSeek-V4 还没有多模态,但我会等”的 Reddit 讨论,准确反映了开发者的情绪。
等待意味着你的智能体在未来数月都只能处理文本。通过 AnyCap 添加能力,则意味着你的智能体今天就可以做多模态工作——而当 DeepSeek 最终推出原生多模态时,你已经有一个可跨模型使用的运行时。你不会被锁定在某一个模型里。
更深一层的原因是:即便 DeepSeek 未来增加了原生多模态,它大概率也主要覆盖图像理解和图像生成。它未必会覆盖视频创建、网页搜索、云存储或网页发布——这些是平台能力,而不是模型能力。无论某个模型原生支持什么,像 AnyCap 这样的能力运行时都依然有价值。
常见问题
DeepSeek V4 是否原生支持图片生成?
不支持。根据 2026 年 4 月的预览信息,DeepSeek V4 和 V4 Pro 都是纯文本模型。官方文档明确写着:"没有原生的图像、音频或视频输入输出。" 你可以通过 MCP 服务器或 AnyCap 这样的能力运行时添加图片生成。
我可以把 DeepSeek V4 和 Claude Code 一起使用吗?
可以。CNBC 报道称,DeepSeek V4 已针对 Claude Code 和 OpenClaw 做了优化。你可以通过 OpenRouter 或自定义 API 端点,把 Claude Code 路由到 DeepSeek V4。AnyCap 则作为能力层并行安装。
运行一个多模态 DeepSeek V4 智能体,最便宜的方法是什么?
用于推理的 DeepSeek V4 Flash(每 100 万输入 token $0.14)、作为智能体外壳的 Claude Code(或 OpenClaw),以及用于多模态能力的 AnyCap(起始赠送 $5 免费额度)。包含代码生成、图片创建和网页搜索的一次会话,总成本就是 DeepSeek API 费用加上 AnyCap 的额度消耗——比通过 GPT-5.5 执行同样工作流便宜得多。
AnyCap 是否支持自托管的 DeepSeek V4?
支持。如果你在本地或自己的基础设施上运行 DeepSeek V4,AnyCap 可以独立作为 MCP skill 安装。智能体外壳(Claude Code、Cursor、OpenClaw)负责路由到你自托管的端点,AnyCap 负责多模态能力。
DeepSeek V4 与 GPT-5.5 的智能体工作流相比如何?
DeepSeek V4 Pro 在 agentic coding 基准上与 GPT-5.5 持平甚至更强,但每个 token 的成本大约只有后者的 1/18。GPT-5.5 通过 DALL-E 集成具备原生图片生成;DeepSeek V4 没有。借助 AnyCap,DeepSeek V4 获得图片生成、视频、搜索、存储和发布能力,在保持成本优势的同时补齐能力差距。
为你的 DeepSeek V4 智能体添加多模态能力:
npx -y skills add anycap-ai/anycap -a claude-code