きっと以前から欲しかったはずのワークフローがある。シーンを説明すると、磨き上げられた静止画が返ってきて、そのまま動きのある映像へアニメーションする。しかもすべてを、別ツールを開かずに 1 回の Claude Code セッションで完結できる。
これが、コーディングエージェント向けの画像から動画だ。静止画が最初のフレームになり、動画モデルがそれをアニメーションする。あなたのエージェントが両方のステップを処理する。
ただし、このパイプラインは単に 2 つのコマンドをつなぐだけではない。モデルの組み合わせが重要だ。Seedream 5 は Nano Banana Pro とは違う出力になり、Veo 3.1 は Kling 3.0 とは違う動きを付ける。組み合わせを正しく選ぶことで、デモのように見えるクリップと、下書きのように見えるクリップの差が生まれる。
このガイドでは、どの画像モデルとどの動画モデルを組み合わせるべきか、いつテキストから動画に切り替えるべきか、そして 1 つのエージェントセッションで全体のワークフローをどう回すかまで、パイプライン全体を解説する。
なぜ画像から動画はテキストから動画より優れているのか
テキストから動画のほうが単純に聞こえる。1 つのプロンプト、1 本のクリップ、完了。短い SNS コンテンツや概念的なプレビューには確かに有効だ。
しかしテキストから動画は、制御できる範囲が狭い。あなたはシーンを説明し、モデルがそれを解釈する。もし解釈がずれたら — 構図が違う、光が合わない、被写体の位置が不自然 — 別のプロンプトでやり直し、今度はうまくいくことを願うしかない。
画像から動画は、この 2 つの懸念を分ける。
静止画が構図を定義する。 キーフレームを生成し、それを確認する。構図が違えば、動画全体ではなく画像だけを再生成すればいい。
動画モデルが動きを加える。 静止画が正しくなったら、動画モデルに渡す。動きは控えめにもできるし(ゆっくり押し込むようなカメラワーク)、大胆にもできる(シーンを横切るトラッキングショット)。いずれにせよ、開始フレームは固定される。
この 2 段階のワークフローは、編集上のコントロールを与えてくれる。動きに予算を使う前に、フレームを承認できる。プロダクトデモ、ランディングページのヒーロー動画、ピッチデックのビジュアルなど、重要なものほど、この追加ステップの価値は大きい。
パイプライン: ステップごとに見る
ステップ 1: 静止画モデルを選ぶ
AnyCap では 7 つの画像モデルが使える。画像から動画のワークフローでは、次の 3 つが特に強い。
| モデル | 画像から動画で強い理由 | 最適な用途 |
|---|---|---|
| Seedream 5 | 1 回目の品質が最も高い。静止画が最終成果物により近く、反復が少なくて済む。 | キーフレームが顧客向け動画の土台になるとき。 |
| Nano Banana Pro | 修正ループに最適。生成、評価、微調整、反復 — 編集ワークフローが滑らか。 | コンセプトを反復し、アニメーション前にバリエーションを試したいとき。 |
| Nano Banana 2 | 生成速度が最速。1 枚あたりの完成度は少し低いが、同じ時間でより多くの構図を試せる。 | コンセプト探索で、完璧さより量を重視したいとき。 |
目安として、動画が顧客向けなら Seedream 5 から始める。探索やプロトタイピングなら Nano Banana 2 から始めて、勝者を格上げする。
ステップ 2: キーフレームを固定する
まず静止画を生成する。評価する。構図、ライティング、被写体の位置が正しいと確認できるまで、動画に進まない。実用的なワークフローはこうだ。
# 異なる構図のキーフレーム候補を 3 つ生成
anycap image generate \
--prompt "ノートパソコン上のモダンな SaaS ダッシュボード、浮かぶ UI 要素、クリーンなスタジオ照明、商品写真風" \
--model seedream-5 \
-o keyframe-1.jpg
anycap image generate \
--prompt "同じダッシュボード、上から斜めに見た視点、より柔らかい照明、深い被写界深度" \
--model seedream-5 \
-o keyframe-2.jpg
anycap image generate \
--prompt "同じダッシュボード、ダークモード、ネオンのアクセントカラー、ドラマチックなサイドライティング" \
--model nano-banana-2 \
-o keyframe-3.jpg
3 つすべてを確認する。最良のものを選ぶ。これでキーフレームが固定された。
ステップ 3: 動画モデルを選ぶ
動画モデルによって、画像から動画の扱いは異なる。ソース画像は、欲しい動きのスタイルと同じくらい重要だ。
| 動画モデル | 画像から動画のスタイル | 最適な組み合わせ |
|---|---|---|
| Veo 3.1 | 滑らかで洗練された動き。繊細なカメラワークに強い。 | Seedream 5 — プレミアム静止画 → プレミアム動き |
| Seedance 1.5 Pro | 安定的で、制作現場で再現しやすい。フレームから動きへの変換が信頼できる。 | Nano Banana Pro — 一貫した修正 → 一貫した動き |
| Seedance 2.0 | より新しいモデルで、より映画的な雰囲気。ソース静止画の奥行きをより良く解釈する。 | Seedream 5 または FLUX.1 Kontext Max |
| Kling 3.0 | カメラのダイナミクスが最も強い。パン、ズーム、トラッキングを制御しやすい。 | FLUX.1 Kontext Max — 豊かな静止画 → 劇的な動き |
| Kling O1 | 画像ファースト設計。ソースフレームが動画全体を牽引する。商品撮影に向く。 | Nano Banana Pro または Seedream 5 |
| Sora 2 Pro | OpenAI のベスト。複雑なシーンとリアルな動きを扱える。 | Seedream 5 — 最高品質パイプライン |
ステップ 4: アニメーションする
キーフレームを、動きのプロンプトとともに動画モデルへ渡す。
anycap video generate \
--prompt "ノートパソコンの画面へゆっくり寄っていく、UI 要素が順番に現れる、背景にやわらかなパララックス" \
--model veo-3.1 \
--mode image-to-video \
--param images=./keyframe-1.jpg \
-o demo-clip.mp4
プロンプトは動きだけを説明する — シーンではない。シーンはすでにキーフレームに固定されている。カメラが何をするか、要素がどう動くか、時間とともに何が変わるかを説明しよう。
モデル組み合わせマトリクス: どの画像 + どの動画?
以下が完全な組み合わせグリッドだ。それぞれの組み合わせには異なる手触りがあり、異なるワークフローに合う。
| Veo 3.1 | Seedance 2.0 | Seedance 1.5 Pro | Kling 3.0 | Sora 2 Pro | |
|---|---|---|---|---|---|
| Seedream 5 | ⭐ プレミアムパイプライン。可能な最高出力。 | 強い映画的な雰囲気。ブランド動画に良い。 | 信頼性が高く、動きの華やかさはやや控えめ。 | 洗練された静止画から劇的な動き。 | 最高品質、最も高コスト。 |
| Nano Banana Pro | 編集済み静止画からクリーンな動き。 | 反復修正から動きへのループに向く。 | ⭐ 修正から動きへのワークフローとして最良。 | 仕上げた画像に大胆な動きを与える。 | OpenAI スタックを好むなら堅実。 |
| Nano Banana 2 | 速い反復 → 十分な動き。 | 速い下書きパイプライン。 | ⭐ 高速プロトタイピングに最適。 | 粗い静止画から劇的な下書き。 | 下書き品質の静止画には過剰。 |
| FLUX.1 Kontext Max | 豊かなビジュアル → 洗練された動き。 | デザイン重視の動き。 | 豊かなビジュアルを安定して処理。 | ⭐ 最良の映画的パイプライン。 | デザインから動きへのプレミアム。 |
| GPT Image 2 | OpenAI スタックを好むなら堅実。 | 両方とも OpenAI 寄りなら良い。 | 安定したクロススタック出力。 | 面白いクロスオーバー。 | ⭐ 完全な OpenAI パイプライン。 |
⭐ = そのワークフローにおすすめの組み合わせ
3 つの実例パイプラインをエンドツーエンドで
パイプライン 1: プロダクトデモクリップ(顧客向け)
目的: リリースページ用の洗練されたプロダクトデモ動画を作る。
# ステップ 1: ヒーローキーフレームを生成
anycap image generate \
--prompt "MacBook 上の Web アプリのダッシュボードの商品撮影、浮かぶデータビジュアライゼーション、清潔でモダンなオフィス背景、柔らかな自然光、商品写真" \
--model seedream-5 \
-o hero-frame.jpg
# ステップ 2: 繊細なカメラワークでアニメーション
anycap video generate \
--prompt "画面に向かってゆっくり滑らかに寄る、データポイントが 1 つずつ現れる、背景の窓に微妙なパララックス" \
--model veo-3.1 \
--mode image-to-video \
--param images=./hero-frame.jpg \
-o product-demo.mp4
# ステップ 3: 保存して共有
anycap drive upload product-demo.mp4
結果: 受託制作の動画に匹敵する 10 秒クリップを、1 回のセッションで生成できる。静止画が構図を固定し、Veo 3.1 が滑らかで洗練された動きを加える。
この組み合わせの理由: Seedream 5 が最強の静止画を作る。Veo 3.1 が最も滑らかな動きを出す。組み合わせると、ポストプロダクション前でもプロらしく見える。
パイプライン 2: ソーシャルコンテンツのバッチ生成(量重視)
目的: SNS の A/B テスト用に 10 本の短尺動画バリエーションを生成する。
# ステップ 1: バッチ用プロンプトテンプレートを定義
PROMPT_BASE="大胆な SNS 向け告知グラフィック、鮮やかな色、タイポグラフィ用の余白、モダンなデザインスタイル"
# ステップ 2: 3 つのキーフレーム案を素早く生成
for i in 1 2 3; do
anycap image generate \
--prompt "${PROMPT_BASE}, バリエーション ${i}" \
--model nano-banana-2 \
-o social-frame-${i}.jpg
done
# ステップ 3: 各バリエーションを異なる動きでアニメーション
for i in 1 2 3; do
# Version A: ゆるやかなズーム
anycap video generate \
--prompt "やさしいズームイン、テキスト要素が順にフェードイン" \
--model seedance-2.0-fast \
--mode image-to-video \
--param images=./social-frame-${i}.jpg \
-o social-${i}a.mp4
# Version B: 左から右へのパン
anycap video generate \
--prompt "左から右へゆっくりパン、要素が端からスライドイン" \
--model seedance-2.0-fast \
--mode image-to-video \
--param images=./social-frame-${i}.jpg \
-o social-${i}b.mp4
done
# 合計 6 バリエーションを生成。投稿する 3 本を選ぶ。
結果: 3 枚の静止画から 6 本の動画バリエーションを数分で生成。高速モデルが反復ループを短く保つ。
この組み合わせの理由: Nano Banana 2 は速度向け(静止画の量)、Seedance 2.0 Fast も速度向け(クリップの量)。このパイプラインは A/B テストのために量を優先する。
パイプライン 3: デザインから動きへ(創作的探索)
目的: デザインリファレンスを使って、それが動いたらどう見えるかを探る。
# ステップ 1: デザイン重視の静止画を生成
anycap image generate \
--prompt "コーラルとネイビーの幾何学的な抽象形状、さまざまな不透明度で重なり合う、エディトリアルデザイン風、高コントラスト" \
--model flux-kontext-max \
-o design-frame.jpg
# ステップ 2: Kling 3.0 で動きを探る(最強のカメラダイナミクス)
anycap video generate \
--prompt "形がゆっくり離れていく、カメラが構図の周りを回り込む、1 つの形が光で脈打つ" \
--model kling-3.0 \
--mode image-to-video \
--param images=./design-frame.jpg \
-o design-motion-1.mp4
# ステップ 3: 別の動きのスタイルを試す
anycap video generate \
--prompt "形の間を高速でズームする、万華鏡のように回転する、エネルギッシュなテンポ" \
--model kling-3.0 \
--mode image-to-video \
--param images=./design-frame.jpg \
-o design-motion-2.mp4
結果: 同じ静止画に対する 2 つの異なる動きの処理。並べて比較し、うまくいく方向を選ぶ。
この組み合わせの理由: FLUX.1 Kontext Max は、他の画像モデルよりもデザイン重視のビジュアルをうまく扱う。Kling 3.0 は最も表現力のあるカメラ制御を提供する。組み合わせると、創作とデザイン作業に最適なパイプラインになる。
画像から動画を飛ばして、直接テキストから動画に進むべきとき
画像から動画が常に正解とは限らない。次のような場合は静止画ステップを省く。
シーンに静的な開始点がない。 ドローンの俯瞰、粒子シミュレーション、抽象的なモーション作品などは、固定されたキーフレームの恩恵が少ない。テキストから動画を直接使う。
制御より速度が重要。 「十分近ければよい」ような短い SNS クリップ。Fast モデルを使ったテキストから動画なら 1 ステップで済む。
純粋に動きだけを探索したい。 「このコンセプトが 5 通りどう動くか見せて」 — いろいろな動きのプロンプトを使うテキストから動画のほうが、先に 5 枚の静止画を作るより早く多様性を得られる。
フルスタック: テキスト → 画像 → 動画 → 公開
画像から動画のパイプラインは、より大きなワークフローの一部だ。エージェントの能力スタック全体とどうつながるかは次の通り。
1. WEB SEARCH — 参考スタイルを調査
↓
2. 画像生成 — キーフレームを作成
↓
3. 画像から動画 — キーフレームをアニメーション
↓
4. DRIVE 保存 — 最終クリップを保存
↓
5. PAGE 公開 — 公開ページに動画を埋め込む
あなたのエージェントは、この 5 ステップを 1 回のセッションで実行できる。コンテキスト切り替えなし。別ツールも不要。これがコーディングエージェント向けの完全なクリエイティブパイプラインであり、すべての機能が 1 つのランタイムの下にあるからこそ実現できる。
FAQ
動画の開始フレームとして最適な画像モデルはどれですか?
品質なら Seedream 5。修正が多いワークフローなら Nano Banana Pro。速度なら Nano Banana 2。デザイン重視のビジュアルなら FLUX.1 Kontext Max。
画像と動画に同じプロンプトを使えますか?
いいえ — そこがポイントです。画像プロンプトはシーン(構図、光、被写体)を説明し、動画プロンプトは動き(カメラ移動、要素のアニメーション、トランジション)を説明します。最良の結果のために分けてください。
静止画から動画にしても品質が落ちないようにするには?
品質を揃えた組み合わせを使うこと。Seedream 5 → Veo 3.1 や Seedance 2.0 は忠実度を保ちやすい。Nano Banana 2 → Seedance 2.0 Fast も動くが、ある程度の品質トレードオフは覚悟する。Fast モデルは忠実度より速度を優先する。
画像から動画をバッチ生成できますか?
はい。画像生成ステップをループして複数のキーフレームを作り、その後動画生成ステップをループしてアニメーションします。これが上で紹介した SNS コンテンツのバッチパイプラインです。
画像から動画のために別途インストールが必要ですか?
AnyCap では不要です。anycap image generate と anycap video generate --mode image-to-video は同じ CLI、同じ認証、同じランタイムを使います。個別の統合は必要ありません。
結論
テキストから動画は動きを与える。画像から動画は制御を与える。生成、評価、アニメーションという 2 段階のパイプラインは、フレームを承認してから動きの予算を使うので、実際に制作で使える出力を生み出す。
モデルの組み合わせが重要だ。Seedream 5 + Veo 3.1 はプレミアムパイプライン。Nano Banana Pro + Seedance 1.5 Pro は修正から動きへのパイプライン。Nano Banana 2 + Seedance 2.0 Fast は速度パイプライン。品質、一貫性、スループットのどれを最優先するかで選ぼう。
→ コーディングエージェントに完全な画像から動画パイプラインを与えよう — 1 つの CLI、すべてのモデル
📖 次に読む
- Claude Code で動画を生成する方法: 2026 完全ガイド — Claude Code、Cursor、Codex 向けの動画生成完全ガイド。
- Claude Code で画像を生成する方法(2026): 3 つの手法 — 画像生成の companion: MCP、DIY API、AnyCap のアプローチ。
- コーディングエージェント向けベスト AI 動画モデル比較 — Veo 3.1 vs Seedance 2.0 vs Kling 3.0 vs Sora 2 Pro の直接比較。
関連記事
- AI エージェント向け画像生成: 開発者ガイド — Seedream 5、Nano Banana Pro、FLUX.1 Kontext Max、そして画像モデルの完全カタログ。
- Capability Runtime とは何か? — 画像、動画、検索、保存を 1 つの CLI に束ねるインフラ層。
AnyCap チームより。私たちは、あなたのエージェントが画像を生成し、それを動画へアニメーションし、結果を公開できる capability runtime を構築しています — すべて 1 つの CLI で。