如何用 Claude Code 生成视频:2026 完整指南

Claude Code 不能独立生成视频。本文介绍如何通过自建 API、MCP 服务器或一个 CLI 接入视频生成,并对 Veo 3.1、Kling 3.0、Seedance 1.5 Pro 和 Sora 2 Pro 做对比,帮助你的智能体工作流落地。

by AnyCap

你让 Claude Code 帮你搭一个落地页。它写出 HTML,做好样式,再加上交互。然后你说:“现在给 hero 区做一个产品演示视频。”

它停下了。Claude Code 不能自己生成视频。

这并不是 Claude 独有的限制。Cursor、Codex、Windsurf,以及所有编程智能体都一样。视频生成通常藏在独立的 API 后面,它们的认证方式、速率限制和输出格式都不相同。手动接起来,意味着在智能体真正开始生成第一帧之前,你就要先配置四个服务。

下面就是解决办法。三种方式,从最手工到一条命令。

你也在用 Cursor 或 Codex 吗? 这篇指南以 Claude Code 为重点,但这些方法和 CLI 命令在所有智能体中都一样适用。关于各智能体的安装路径,可查看 Cursor 视频生成指南Codex 视频生成指南


为什么 Claude Code 不能生成视频,以及为什么这很正常

编程智能体处理的是代码推理。它们默认并不内置媒体生成,而且这样做很合理。图像和视频模型体量巨大,托管成本高,而且更新节奏与 LLM 不同。Anthropic、OpenAI 和 Cursor 都做了相同的选择:把最强的推理智能体做好,把媒体能力交给生态系统。

当你只是写一个 PR 时,这完全没问题。但当你的智能体要构建可视化内容时,就会遇到问题,比如需要演示片段的产品页、需要动画讲解的更新日志,或者需要动态效果的路演材料。

能力其实已经存在,只是需要一座桥接到你的智能体。


Claude Code 加视频生成,究竟能解锁什么

先说为什么要做,下面这些场景会变得可行:

  • 产品演示。 智能体写脚本、生成画面、渲染视频,一次会话全部完成。你描述产品,它输出视频。
  • 从故事板到动效。 你有截图、设计稿或参考静帧,智能体可以把它们动画化,生成可供审核的草稿视频。
  • 规模化社交内容。 一个提示词 → 一个短视频。批量生成不同变体。由智能体处理批量工作,而不是你自己。
  • 快速原型验证。 在正式制作前,先用运动中的视觉概念快速探索。10 秒视频,比 10 段文字描述更直观。

方法 1:手动接入视频 API,最难但最直接

最直接的做法是:选一个视频模型提供商,注册账号,拿到 API key,然后让 Claude Code 调用它。实际步骤如下:

步骤 1:选择提供商。 Google 的 Veo 3.1 适合精致输出,OpenAI 的 Sora 2 Pro 适合叙事型内容,Kling 3.0 适合电影感运动。每家都需要单独账号。

步骤 2:获取 API key。 进入提供商的开发者控制台,创建项目,生成凭证,复制密钥。

步骤 3:配置 Claude Code。 编写 MCP 服务器配置或 skill 文件,教 Claude Code 如何调用视频端点。写明端点 URL、认证方式、请求格式和预期响应结构。

步骤 4:处理输出。 视频生成是异步的。智能体先提交请求,再轮询任务状态,最后下载文件。每一步都可能出错。

步骤 5:如果是图生视频,也要再来一遍。 如果你的流程从静态图开始,你还需要单独的端点和单独配置,或者干脆换一个提供商。

这套方案确实能跑,很多团队就是这样交付视频的。但每个提供商、每个能力都要五步。两个提供商就是十个集成,三个就是十五个。维护成本会随着目标一起线性上升。


方法 2:使用 MCP 服务器做视频,中间路线

MCP 服务器把某项能力封装成可复用集成。视频场景下可选项包括:

  • HeyGen MCP —— 适合讲解型视频和头像驱动内容
  • HyperFrames MCP —— 适合动画视觉输出和动效图形
  • Firecrawl Video —— 适合程序化录屏和页面捕获

MCP 服务器会在内部处理认证和端点管理。你只需配置一次,Claude Code 就能像调用其他工具一样调用它。它比直接接 API 更轻量,但你仍然要为每项能力维护一个 MCP 服务器,而且仅视频服务器并不能覆盖视频工作前常见的图片生成步骤。


方法 3:一个 CLI,所有视频模型,AnyCap 方案

在这种方式里,你的智能体不需要逐个认识 Veo、Kling 或 Seedance。它只需要认识一个命令:

anycap video generate --prompt "a drone shot flying over a mountain range at sunset" --model veo-3.1 -o hero.mp4

就是这样。一次安装,一条认证流程,一个命令入口。AnyCap 会在后台把请求路由到正确的视频模型——Veo 3.1、Seedance 2.0、Kling 3.0、Sora 2 Pro,或者最适合该提示词的模型。

运行时帮智能体处理的事:

  • 模型选择。 智能体可以显式指定模型,也可以让运行时根据提示词自动选择。“电影感产品视频”和“快速社交短片”会走不同路由。
  • 认证。 只要一个 API key,不需要每家提供商一把。运行时会在内部管理凭证。
  • 输出格式。 智能体拿到的是文件路径或 URL,不需要解析 multipart 响应,也不需要轮询异步任务端点。
  • 内置图生视频。 加上 --mode image-to-video --param images=./frame.jpg,同一条命令就能接受静态图片作为输入。无需单独端点,也无需单独配置。
  • 跨智能体通用。 同一条 CLI 命令可在 Claude Code、Cursor 和 Codex 中使用。切换智能体时不用重配视频流水线。各智能体的安装路径请参考 Cursor 指南Codex 指南

Claude Code 安装方式:

npm i -g anycap
anycap login
anycap skill install --target ~/.claude/skills/anycap-cli/

完成后,Claude Code 会把 anycap video generate 识别为可用工具。没有 MCP 服务器配置,没有按提供商划分的 API key,只有一个命令。

免费安装 AnyCap — 新用户 250 积分


文本转视频:从提示词生成一个短片

最简单的工作流。你的智能体有描述,你需要视频。

anycap video generate \
  --prompt "a product unboxing sequence on a clean white table, soft studio lighting, 1080p" \
  --model veo-3.1 \
  -o unboxing.mp4

真实案例: 你正在发布一个新功能。智能体先写更新日志,再搭建公告页,然后为 hero 区生成一个 10 秒的预告片。一个会话完成,不需要切换工具。

不同提示词适合什么模型:

提示类型 最佳模型 原因
精致产品演示,故事驱动 Veo 3.1 文本首轮质量最强
电影感运动,戏剧化场景 Kling 3.0 运动风格和镜头动态最优
可重复、适合生产 Seedance 1.5 Pro 输出稳定,惊喜更少
高级叙事,写实场景 Sora 2 Pro OpenAI 最强的视频模型
快速预览,批量迭代 Veo 3.1 Fast / Seedance 2.0 Fast 更快完成,用于头脑风暴

图生视频:把静态图变成运动

这正是智能体工作流真正有用的地方。智能体先生成一张图——产品截图、设计稿、参考帧——然后再把它动画化。

# 步骤 1:生成静态图
anycap image generate \
  --prompt "a clean product hero shot of a dashboard on a desk setup" \
  --model seedream-5 \
  -o hero-frame.jpg

# 步骤 2:将其动画成视频
anycap video generate \
  --prompt "subtle camera push-in with soft parallax on the screen reflection" \
  --model seedance-1.5-pro \
  --mode image-to-video \
  --param images=./hero-frame.jpg \
  -o hero-animated.mp4

真实案例: 你的智能体在搭建一个 SaaS 落地页。它先用 Seedream 5 生成 hero 图,再用 Seedance 1.5 Pro 做图生视频,加入轻微推镜头。hero 区从静态变得有生命力,而你不用打开 After Effects,甚至不用离开终端。

图生视频的模型搭配建议:

源图模型 最佳视频模型 结果
Seedream 5(精致) Veo 3.1 从高质量静帧得到高级运动效果
Nano Banana Pro(迭代回路) Seedance 1.5 Pro 稳定、适合生产的输出
FLUX.1 Kontext Max(设计密集) Kling 3.0 对丰富视觉做电影化处理
Nano Banana 2(快速迭代) Seedance 2.0 Fast 大规模快速生成运动草稿

完整流水线:文本 → 图片 → 视频,一次会话全部搞定

下面是一个完整工作流,智能体可以在同一 Claude Code 会话中运行:

# 1. 调研:搜索参考风格
anycap search --prompt "SaaS product demo video styles 2026" --citations

# 2. 生成关键帧
anycap image generate \
  --prompt "a modern SaaS dashboard on a laptop, floating UI elements, clean lighting" \
  --model seedream-5 \
  -o keyframe.jpg

# 3. 生成多个变体用于 A/B 测试
anycap image generate \
  --prompt "same dashboard, dark mode variant with neon accents" \
  --model nano-banana-2 \
  -o keyframe-dark.jpg

# 4. 将选中的变体动画化
anycap video generate \
  --prompt "slow zoom-in with UI elements fading in sequentially" \
  --model veo-3.1 \
  --mode image-to-video \
  --param images=./keyframe.jpg \
  -o demo-video.mp4

# 5. 存储结果
anycap drive upload demo-video.mp4

智能体完成了风格调研、静帧生成、变体迭代、胜出方案动画化和结果存储。你只写了最初的提示词,其余都发生在智能体循环里。


跨智能体:同一个 CLI,不同智能体

本指南中的视频生成命令在 Claude Code、Cursor 和 Codex 中完全一致。变化的只是 skill 文件的安装位置:

智能体 skill 安装目标 完整指南
Claude Code ~/.claude/skills/anycap-cli/ 你正在读这篇
Cursor ~/.cursor/skills/anycap-cli/ Cursor 视频生成指南 →
Codex ~/.codex/skills/anycap-cli/ Codex 视频生成指南 →

你该用哪个视频模型?一个决策框架

答案取决于你在构建什么。可以这样判断:

当你需要 Veo 3.1 时:

  • 你需要文本提示词下最强的首轮质量
  • 输出面向客户,比如演示、预告或公告
  • 你愿意为更高保真度支付更高的单次生成成本

当你需要 Seedance 1.5 Pro 时:

  • 你在基于现有静帧做图生视频
  • 你需要稳定、可重复的生产级输出
  • 你想要一个无需每次按提示词选模型的稳定默认值

当你需要 Kling 3.0 时:

  • 电影感运动比纯粹保真更重要
  • 你想控制镜头运动,比如平移、缩放、跟拍
  • 项目偏创意或探索,而不是模板化

当你需要 Sora 2 Pro 时:

  • 你的团队偏好 OpenAI 的视频模型体系
  • 你需要高端叙事或真实场景生成
  • 你想从单一视频模型中获得最大能力

当你需要 Veo 3.1 Fast、Seedance 2.0 Fast 等 Fast 版本时:

  • 你在做预览和构思,而不是交付最终成品
  • 你需要批量生成的快速周转
  • 速度比精致度更重要

FAQ

Claude Code 能原生生成视频吗?

不能,Cursor、Codex 和 Windsurf 也不能。它们是推理和编码智能体。视频生成需要外部模型。AnyCap 把这些模型封装在一个 CLI 后面,让你的智能体不必单独集成。

文本转视频和图生视频有什么区别?

文本转视频只靠文字提示词生成短片。图生视频则从一张静态图开始,比如截图、设计帧或照片,然后把它动画化。大多数生产工作流两者都会用:先生成静帧,再进行动画处理。

视频生成要多久?

取决于模型和复杂度。Fast 版本通常几秒到一分钟返回。像 Veo 3.1 和 Sora 2 Pro 这样的高质量模型,可能需要 1 到 3 分钟。运行时会负责轮询,等文件准备好后再返回。

每个视频模型都需要单独的 API key 吗?

使用 AnyCap 不需要。一个账号,一个 key,所有模型都能用。运行时会在内部管理提供商凭证。

我可以批量生成视频变体吗?

可以。你的智能体可以用不同提示词、不同模型或不同源图,循环执行 anycap video generate。运行时会独立处理每个请求。

如果我同时用 Cursor 或 Codex,也能用吗?

可以。相同的 anycap video generate 命令可在三个智能体中通用。各智能体的安装路径请看上面的表格。


结论

Claude Code 可以写脚本、搭页面、做布局。它只是不能自己做视频。这不是缺陷,而是设计选择。视频生成属于另一个层。

问题在于,你想让智能体和这个层之间有多大摩擦:五个 API key 和五套配置,还是一条 CLI 命令。


给 Claude Code 增加视频生成能力 —— 一次安装,一次认证,全部模型


📖 接下来读什么


相关文章


由 AnyCap 团队撰写。我们打造能力层,让 AI 智能体通过一个 CLI 就能获得视频生成、图片生成、网页搜索、云存储和发布能力——这样你的智能体就不会停在“我做不到”。