为 DeepSeek V4 添加多模态：图片、视频与搜索

DeepSeek V4 仅支持文本。使用 AnyCap，你可以在不到 2 分钟内为 DeepSeek V4 智能体添加图片生成、视频、网页搜索、云存储和发布能力，而且只需一个 CLI，不必为每个提供商分别管理 API 密钥。

DeepSeek V4 是一个纯文本模型。这不是缺陷，而是一个刻意的设计选择：它能降低推理成本，同时保持较高的推理能力。 但当你的智能体需要为刚创建好的落地页生成首屏图、制作产品演示视频、搜索最新的 API 文档，或者把生成的资源可靠地保存起来时，纯文本引擎就会碰到瓶颈。下面介绍如何在不到两分钟内，为一个由 DeepSeek V4 驱动的智能体补齐完整的多模态能力——图片生成、视频、网页搜索、云存储和网页发布。

为什么 DeepSeek V4 只支持文本（以及这为什么重要）

DeepSeek V4 和 V4 Pro 是 Mixture-of-Experts 架构的语言模型，总参数量超过 1T。它们在推理基准上可以与 GPT-5.5 和 Claude Opus 4.7 竞争。它们支持 100 万 token 的上下文窗口，足以载入整个代码库。它们还针对 Claude Code 和 OpenClaw 等智能体工具做了优化。

它们不具备的能力包括：原生图片生成、视频创建、音频处理或网页搜索。官方文档表述得非常明确："仅限文本。在预览版中没有原生的图像、音频或视频输入输出。"

这并不是疏漏。DeepSeek 做出的是一种战略选择：用远低于竞品的成本，打造尽可能强的文本推理引擎（每 100 万输入 token 仅 $0.28，而 GPT-5.5 为 $5/100 万），把多模态能力留给整个生态来补足。该模型采用 Apache 2.0 许可证，可在量化后运行于消费级硬件上。它快速、便宜、开放。

但你的智能体工作流并不只是文本。它要构建内容，需要图片、视频、搜索、存储和发布。下面就是如何补齐这一差距。

实现多模态的两条路径：自建 MCP 服务器 vs AnyCap 运行时

DeepSeek V4 智能体缺少的每一种能力——图片生成、视频、网页搜索、存储、发布——都可以通过 MCP（Model Context Protocol）来添加。MCP 是让 AI 智能体连接外部工具的开放标准。Claude Code、Cursor 和 OpenClaw 都原生支持 MCP。

你有两种添加能力的方式：

方案 1：DIY —— 分别配置每个 MCP 服务器

找到一个图片生成的 MCP 服务器。安装它。去图片 API 提供商（Replicate、fal.ai 或 OpenAI Images）那里创建账户。获取 API 密钥。把服务器配置写入 .mcp.json。测试。然后对视频生成（另一个提供商）、网页搜索（另一个提供商）、云存储（另一个提供商）和网页发布（另一个提供商）重复上述流程。

结果： 五家提供商、五个 API 密钥、五条 .mcp.json 配置、五个需要监控破坏性变更的接触面。乐观估计耗时：45–90 分钟。

方案 2：AnyCap —— 一个运行时，全部能力

只用一条命令安装 AnyCap。这个运行时可以为任何兼容 MCP 的智能体添加图片生成、视频创建、网页搜索、云存储（Drive）和网页发布（Page），包括你通过 Claude Code 或 OpenClaw 搭建的 DeepSeek V4 环境。

结果： 一次安装、一次认证流程、一个余额、一个命令入口。耗时：不到两分钟。

逐步操作：用 AnyCap 为 DeepSeek V4 添加多模态能力

前提条件

可访问 DeepSeek V4 API（通过 DeepSeek 平台、OpenRouter 或自托管）
已安装 Claude Code、Cursor 或 OpenClaw（AnyCap 适用于任何兼容 MCP 的智能体外壳）
可使用终端

第 1 步：安装 AnyCap

npx -y skills add anycap-ai/anycap -a claude-code

这会将 AnyCap 能力运行时作为一个 MCP skill 安装。此后，你的智能体可以直接调用 AnyCap 工具。无论你使用 Claude Code、Cursor 还是 OpenClaw，这条命令都一样。

第 2 步：完成认证

anycap login

这会打开浏览器进行一次性认证。登录后，系统会将会话令牌保存在本地。无需再管理 API 密钥——AnyCap 会统一处理这五项能力的认证。

第 3 步：将智能体配置为使用 DeepSeek V4

在 Claude Code 中，把模型设置为通过 DeepSeek V4 路由：

# 通过 OpenRouter（推荐用于 API 访问）
export OPENROUTER_API_KEY=sk-or-your-key
claude --model openrouter/deepseek/deepseek-v4-pro

或者在 Cursor 中：设置 → 模型 → 通过 OpenRouter 或自定义端点添加 DeepSeek V4。

现在，你的智能体会使用 DeepSeek V4 进行推理和代码生成，同时通过 AnyCap 获得多模态能力。

第 4 步：生成第一张图片

在智能体会话中输入：

Generate a hero image for a SaaS landing page about AI agent analytics.

你的智能体——由 DeepSeek V4 负责推理——会调用 AnyCap 进行图片生成。图片会出现在你的 AnyCap Drive 中，并返回一个可分享链接。

第 5 步：创建视频

Create a 30-second product demo video showing how the analytics dashboard works.

还是同一个智能体会话、同一套认证。智能体会调用 anycap video generate。无需再配置新的提供商。

第 6 步：搜索网页

Search for the latest DeepSeek V4 API pricing changes and summarize them.

智能体会使用 AnyCap 的搜索能力抓取实时网页结果。DeepSeek V4 具有 100 万 token 上下文窗口，可以一次性接收并综合完整的搜索输出。

第 7 步：保存并发布

Store the generated hero image and demo video in Drive, then publish a changelog page with both assets embedded.

AnyCap Drive 负责存储和分享链接，AnyCap Page 负责发布。智能体能够执行完整工作流——生成 → 存储 → 发布——而不必在五个不同的提供商集成之间来回切换。

现在你的 DeepSeek V4 智能体可以做什么

能力	使用 AnyCap 之前	使用 AnyCap 之后
代码推理	✅ 以 $0.28/100 万 token 达到世界级水平	✅ 以 $0.28/100 万 token 达到世界级水平
生成图片	❌ 纯文本模型	✅ `anycap image generate`
创建视频	❌ 纯文本模型	✅ `anycap video generate`
搜索网页	❌ 纯文本模型	✅ `anycap search`
存储文件	❌ 纯文本模型	✅ `anycap drive upload`
发布内容	❌ 纯文本模型	✅ `anycap page publish`

DeepSeek V4 负责推理，AnyCap 负责其他一切。这正是合理的架构：把最便宜的前沿推理模型，与一个补齐所有多模态空白的能力运行时配对。

为什么这种架构比等待 DeepSeek 推出多模态更优

DeepSeek 已表示正在开发多模态能力。但目前没有时间表。V4 预览版仍然是纯文本。标题为“DeepSeek-V4 还没有多模态，但我会等”的 Reddit 讨论，准确反映了开发者的情绪。

等待意味着你的智能体在未来数月都只能处理文本。通过 AnyCap 添加能力，则意味着你的智能体今天就可以做多模态工作——而当 DeepSeek 最终推出原生多模态时，你已经有一个可跨模型使用的运行时。你不会被锁定在某一个模型里。

更深一层的原因是：即便 DeepSeek 未来增加了原生多模态，它大概率也主要覆盖图像理解和图像生成。它未必会覆盖视频创建、网页搜索、云存储或网页发布——这些是平台能力，而不是模型能力。无论某个模型原生支持什么，像 AnyCap 这样的能力运行时都依然有价值。

常见问题

DeepSeek V4 是否原生支持图片生成？

不支持。根据 2026 年 4 月的预览信息，DeepSeek V4 和 V4 Pro 都是纯文本模型。官方文档明确写着："没有原生的图像、音频或视频输入输出。" 你可以通过 MCP 服务器或 AnyCap 这样的能力运行时添加图片生成。

我可以把 DeepSeek V4 和 Claude Code 一起使用吗？

可以。CNBC 报道称，DeepSeek V4 已针对 Claude Code 和 OpenClaw 做了优化。你可以通过 OpenRouter 或自定义 API 端点，把 Claude Code 路由到 DeepSeek V4。AnyCap 则作为能力层并行安装。

运行一个多模态 DeepSeek V4 智能体，最便宜的方法是什么？

用于推理的 DeepSeek V4 Flash（每 100 万输入 token $0.14）、作为智能体外壳的 Claude Code（或 OpenClaw），以及用于多模态能力的 AnyCap（起始赠送 $5 免费额度）。包含代码生成、图片创建和网页搜索的一次会话，总成本就是 DeepSeek API 费用加上 AnyCap 的额度消耗——比通过 GPT-5.5 执行同样工作流便宜得多。

AnyCap 是否支持自托管的 DeepSeek V4？

支持。如果你在本地或自己的基础设施上运行 DeepSeek V4，AnyCap 可以独立作为 MCP skill 安装。智能体外壳（Claude Code、Cursor、OpenClaw）负责路由到你自托管的端点，AnyCap 负责多模态能力。

DeepSeek V4 与 GPT-5.5 的智能体工作流相比如何？

DeepSeek V4 Pro 在 agentic coding 基准上与 GPT-5.5 持平甚至更强，但每个 token 的成本大约只有后者的 1/18。GPT-5.5 通过 DALL-E 集成具备原生图片生成；DeepSeek V4 没有。借助 AnyCap，DeepSeek V4 获得图片生成、视频、搜索、存储和发布能力，在保持成本优势的同时补齐能力差距。

为你的 DeepSeek V4 智能体添加多模态能力：

npx -y skills add anycap-ai/anycap -a claude-code

安装 AnyCap · DeepSeek V4 开发者指南 · Claude Code 安装指南

如何为 DeepSeek V4 智能体添加多模态能力（2026）