你让 Claude Code 帮你搭一个落地页。它写出 HTML,做好样式,再加上交互。然后你说:“现在给 hero 区做一个产品演示视频。”
它停下了。Claude Code 不能自己生成视频。
这并不是 Claude 独有的限制。Cursor、Codex、Windsurf,以及所有编程智能体都一样。视频生成通常藏在独立的 API 后面,它们的认证方式、速率限制和输出格式都不相同。手动接起来,意味着在智能体真正开始生成第一帧之前,你就要先配置四个服务。
下面就是解决办法。三种方式,从最手工到一条命令。
你也在用 Cursor 或 Codex 吗? 这篇指南以 Claude Code 为重点,但这些方法和 CLI 命令在所有智能体中都一样适用。关于各智能体的安装路径,可查看 Cursor 视频生成指南 或 Codex 视频生成指南。
为什么 Claude Code 不能生成视频,以及为什么这很正常
编程智能体处理的是代码推理。它们默认并不内置媒体生成,而且这样做很合理。图像和视频模型体量巨大,托管成本高,而且更新节奏与 LLM 不同。Anthropic、OpenAI 和 Cursor 都做了相同的选择:把最强的推理智能体做好,把媒体能力交给生态系统。
当你只是写一个 PR 时,这完全没问题。但当你的智能体要构建可视化内容时,就会遇到问题,比如需要演示片段的产品页、需要动画讲解的更新日志,或者需要动态效果的路演材料。
能力其实已经存在,只是需要一座桥接到你的智能体。
Claude Code 加视频生成,究竟能解锁什么
先说为什么要做,下面这些场景会变得可行:
- 产品演示。 智能体写脚本、生成画面、渲染视频,一次会话全部完成。你描述产品,它输出视频。
- 从故事板到动效。 你有截图、设计稿或参考静帧,智能体可以把它们动画化,生成可供审核的草稿视频。
- 规模化社交内容。 一个提示词 → 一个短视频。批量生成不同变体。由智能体处理批量工作,而不是你自己。
- 快速原型验证。 在正式制作前,先用运动中的视觉概念快速探索。10 秒视频,比 10 段文字描述更直观。
方法 1:手动接入视频 API,最难但最直接
最直接的做法是:选一个视频模型提供商,注册账号,拿到 API key,然后让 Claude Code 调用它。实际步骤如下:
步骤 1:选择提供商。 Google 的 Veo 3.1 适合精致输出,OpenAI 的 Sora 2 Pro 适合叙事型内容,Kling 3.0 适合电影感运动。每家都需要单独账号。
步骤 2:获取 API key。 进入提供商的开发者控制台,创建项目,生成凭证,复制密钥。
步骤 3:配置 Claude Code。 编写 MCP 服务器配置或 skill 文件,教 Claude Code 如何调用视频端点。写明端点 URL、认证方式、请求格式和预期响应结构。
步骤 4:处理输出。 视频生成是异步的。智能体先提交请求,再轮询任务状态,最后下载文件。每一步都可能出错。
步骤 5:如果是图生视频,也要再来一遍。 如果你的流程从静态图开始,你还需要单独的端点和单独配置,或者干脆换一个提供商。
这套方案确实能跑,很多团队就是这样交付视频的。但每个提供商、每个能力都要五步。两个提供商就是十个集成,三个就是十五个。维护成本会随着目标一起线性上升。
方法 2:使用 MCP 服务器做视频,中间路线
MCP 服务器把某项能力封装成可复用集成。视频场景下可选项包括:
- HeyGen MCP —— 适合讲解型视频和头像驱动内容
- HyperFrames MCP —— 适合动画视觉输出和动效图形
- Firecrawl Video —— 适合程序化录屏和页面捕获
MCP 服务器会在内部处理认证和端点管理。你只需配置一次,Claude Code 就能像调用其他工具一样调用它。它比直接接 API 更轻量,但你仍然要为每项能力维护一个 MCP 服务器,而且仅视频服务器并不能覆盖视频工作前常见的图片生成步骤。
方法 3:一个 CLI,所有视频模型,AnyCap 方案
在这种方式里,你的智能体不需要逐个认识 Veo、Kling 或 Seedance。它只需要认识一个命令:
anycap video generate --prompt "a drone shot flying over a mountain range at sunset" --model veo-3.1 -o hero.mp4
就是这样。一次安装,一条认证流程,一个命令入口。AnyCap 会在后台把请求路由到正确的视频模型——Veo 3.1、Seedance 2.0、Kling 3.0、Sora 2 Pro,或者最适合该提示词的模型。
运行时帮智能体处理的事:
- 模型选择。 智能体可以显式指定模型,也可以让运行时根据提示词自动选择。“电影感产品视频”和“快速社交短片”会走不同路由。
- 认证。 只要一个 API key,不需要每家提供商一把。运行时会在内部管理凭证。
- 输出格式。 智能体拿到的是文件路径或 URL,不需要解析 multipart 响应,也不需要轮询异步任务端点。
- 内置图生视频。 加上
--mode image-to-video --param images=./frame.jpg,同一条命令就能接受静态图片作为输入。无需单独端点,也无需单独配置。 - 跨智能体通用。 同一条 CLI 命令可在 Claude Code、Cursor 和 Codex 中使用。切换智能体时不用重配视频流水线。各智能体的安装路径请参考 Cursor 指南 和 Codex 指南。
Claude Code 安装方式:
npm i -g anycap
anycap login
anycap skill install --target ~/.claude/skills/anycap-cli/
完成后,Claude Code 会把 anycap video generate 识别为可用工具。没有 MCP 服务器配置,没有按提供商划分的 API key,只有一个命令。
文本转视频:从提示词生成一个短片
最简单的工作流。你的智能体有描述,你需要视频。
anycap video generate \
--prompt "a product unboxing sequence on a clean white table, soft studio lighting, 1080p" \
--model veo-3.1 \
-o unboxing.mp4
真实案例: 你正在发布一个新功能。智能体先写更新日志,再搭建公告页,然后为 hero 区生成一个 10 秒的预告片。一个会话完成,不需要切换工具。
不同提示词适合什么模型:
| 提示类型 | 最佳模型 | 原因 |
|---|---|---|
| 精致产品演示,故事驱动 | Veo 3.1 | 文本首轮质量最强 |
| 电影感运动,戏剧化场景 | Kling 3.0 | 运动风格和镜头动态最优 |
| 可重复、适合生产 | Seedance 1.5 Pro | 输出稳定,惊喜更少 |
| 高级叙事,写实场景 | Sora 2 Pro | OpenAI 最强的视频模型 |
| 快速预览,批量迭代 | Veo 3.1 Fast / Seedance 2.0 Fast | 更快完成,用于头脑风暴 |
图生视频:把静态图变成运动
这正是智能体工作流真正有用的地方。智能体先生成一张图——产品截图、设计稿、参考帧——然后再把它动画化。
# 步骤 1:生成静态图
anycap image generate \
--prompt "a clean product hero shot of a dashboard on a desk setup" \
--model seedream-5 \
-o hero-frame.jpg
# 步骤 2:将其动画成视频
anycap video generate \
--prompt "subtle camera push-in with soft parallax on the screen reflection" \
--model seedance-1.5-pro \
--mode image-to-video \
--param images=./hero-frame.jpg \
-o hero-animated.mp4
真实案例: 你的智能体在搭建一个 SaaS 落地页。它先用 Seedream 5 生成 hero 图,再用 Seedance 1.5 Pro 做图生视频,加入轻微推镜头。hero 区从静态变得有生命力,而你不用打开 After Effects,甚至不用离开终端。
图生视频的模型搭配建议:
| 源图模型 | → | 最佳视频模型 | 结果 |
|---|---|---|---|
| Seedream 5(精致) | → | Veo 3.1 | 从高质量静帧得到高级运动效果 |
| Nano Banana Pro(迭代回路) | → | Seedance 1.5 Pro | 稳定、适合生产的输出 |
| FLUX.1 Kontext Max(设计密集) | → | Kling 3.0 | 对丰富视觉做电影化处理 |
| Nano Banana 2(快速迭代) | → | Seedance 2.0 Fast | 大规模快速生成运动草稿 |
完整流水线:文本 → 图片 → 视频,一次会话全部搞定
下面是一个完整工作流,智能体可以在同一 Claude Code 会话中运行:
# 1. 调研:搜索参考风格
anycap search --prompt "SaaS product demo video styles 2026" --citations
# 2. 生成关键帧
anycap image generate \
--prompt "a modern SaaS dashboard on a laptop, floating UI elements, clean lighting" \
--model seedream-5 \
-o keyframe.jpg
# 3. 生成多个变体用于 A/B 测试
anycap image generate \
--prompt "same dashboard, dark mode variant with neon accents" \
--model nano-banana-2 \
-o keyframe-dark.jpg
# 4. 将选中的变体动画化
anycap video generate \
--prompt "slow zoom-in with UI elements fading in sequentially" \
--model veo-3.1 \
--mode image-to-video \
--param images=./keyframe.jpg \
-o demo-video.mp4
# 5. 存储结果
anycap drive upload demo-video.mp4
智能体完成了风格调研、静帧生成、变体迭代、胜出方案动画化和结果存储。你只写了最初的提示词,其余都发生在智能体循环里。
跨智能体:同一个 CLI,不同智能体
本指南中的视频生成命令在 Claude Code、Cursor 和 Codex 中完全一致。变化的只是 skill 文件的安装位置:
| 智能体 | skill 安装目标 | 完整指南 |
|---|---|---|
| Claude Code | ~/.claude/skills/anycap-cli/ |
你正在读这篇 |
| Cursor | ~/.cursor/skills/anycap-cli/ |
Cursor 视频生成指南 → |
| Codex | ~/.codex/skills/anycap-cli/ |
Codex 视频生成指南 → |
你该用哪个视频模型?一个决策框架
答案取决于你在构建什么。可以这样判断:
当你需要 Veo 3.1 时:
- 你需要文本提示词下最强的首轮质量
- 输出面向客户,比如演示、预告或公告
- 你愿意为更高保真度支付更高的单次生成成本
当你需要 Seedance 1.5 Pro 时:
- 你在基于现有静帧做图生视频
- 你需要稳定、可重复的生产级输出
- 你想要一个无需每次按提示词选模型的稳定默认值
当你需要 Kling 3.0 时:
- 电影感运动比纯粹保真更重要
- 你想控制镜头运动,比如平移、缩放、跟拍
- 项目偏创意或探索,而不是模板化
当你需要 Sora 2 Pro 时:
- 你的团队偏好 OpenAI 的视频模型体系
- 你需要高端叙事或真实场景生成
- 你想从单一视频模型中获得最大能力
当你需要 Veo 3.1 Fast、Seedance 2.0 Fast 等 Fast 版本时:
- 你在做预览和构思,而不是交付最终成品
- 你需要批量生成的快速周转
- 速度比精致度更重要
FAQ
Claude Code 能原生生成视频吗?
不能,Cursor、Codex 和 Windsurf 也不能。它们是推理和编码智能体。视频生成需要外部模型。AnyCap 把这些模型封装在一个 CLI 后面,让你的智能体不必单独集成。
文本转视频和图生视频有什么区别?
文本转视频只靠文字提示词生成短片。图生视频则从一张静态图开始,比如截图、设计帧或照片,然后把它动画化。大多数生产工作流两者都会用:先生成静帧,再进行动画处理。
视频生成要多久?
取决于模型和复杂度。Fast 版本通常几秒到一分钟返回。像 Veo 3.1 和 Sora 2 Pro 这样的高质量模型,可能需要 1 到 3 分钟。运行时会负责轮询,等文件准备好后再返回。
每个视频模型都需要单独的 API key 吗?
使用 AnyCap 不需要。一个账号,一个 key,所有模型都能用。运行时会在内部管理提供商凭证。
我可以批量生成视频变体吗?
可以。你的智能体可以用不同提示词、不同模型或不同源图,循环执行 anycap video generate。运行时会独立处理每个请求。
如果我同时用 Cursor 或 Codex,也能用吗?
可以。相同的 anycap video generate 命令可在三个智能体中通用。各智能体的安装路径请看上面的表格。
结论
Claude Code 可以写脚本、搭页面、做布局。它只是不能自己做视频。这不是缺陷,而是设计选择。视频生成属于另一个层。
问题在于,你想让智能体和这个层之间有多大摩擦:五个 API key 和五套配置,还是一条 CLI 命令。
→ 给 Claude Code 增加视频生成能力 —— 一次安装,一次认证,全部模型
📖 接下来读什么
- 如何用 Cursor 生成视频:2026 完整指南 —— Cursor 专用版本,包含 Cursor 安装路径和 agent 模式工作流。
- 如何用 Codex 生成视频:2026 完整指南 —— Codex 专用版本,包含 Codex CLI 安装路径。
- 如何用 Claude Code 生成图片(2026):3 种方法 —— 图片生成配套指南,涵盖 MCP、自建 API 和 AnyCap 方案。
- AI 图生视频:面向编程智能体的完整流水线 —— 深入讲解在一个智能体工作流中串联图片生成和视频生成。
- 什么是 Capability Runtime? —— 让智能体真正执行的基础设施层。
相关文章
- 面向编程智能体的最佳 AI 视频模型对比 —— Veo 3.1、Seedance 2.0、Kling 3.0、Sora 2 Pro,哪个适合你的工作流?
- 给 Claude Code 加上网页搜索、图片等能力——无需 MCP 麻烦 —— Claude Code 的完整能力栈。
- 2026 年 AI 智能体做不到什么——以及如何修复 —— 能力缺口叙事。
由 AnyCap 团队撰写。我们打造能力层,让 AI 智能体通过一个 CLI 就能获得视频生成、图片生成、网页搜索、云存储和发布能力——这样你的智能体就不会停在“我做不到”。