So generierst du Videos mit Claude Code: Der vollständige Leitfaden 2026

Claude Code kann Videos nicht direkt erzeugen. So bindest du Videoerstellung an — per DIY-API, MCP-Server oder einer einzigen CLI. Veo 3.1, Kling 3.0, Seedance 1.5 Pro und Sora 2 Pro im Vergleich für deinen Agenten-Workflow.

by AnyCap

Du bittest Claude Code, eine Landingpage zu bauen. Es schreibt das HTML, gestaltet das Styling und fügt Interaktivität hinzu. Dann sagst du: „Jetzt erstelle ein Produktdemo-Video für den Hero-Bereich.“

Es stoppt. Claude Code kann Videos nicht von sich aus generieren.

Das ist keine Besonderheit von Claude — das gilt auch für Cursor, Codex, Windsurf und jeden anderen Coding-Agenten. Videoerstellung läuft über getrennte APIs mit eigener Authentifizierung, eigenen Rate Limits und eigenen Ausgabeformaten. Wenn du alles manuell verbindest, musst du vier Dienste konfigurieren, bevor dein Agent auch nur ein einziges Frame erzeugt.

So behebst du das. Drei Ansätze, von sehr manuell bis mit einem Befehl.

Nutzen auch Cursor oder Codex? Dieser Leitfaden konzentriert sich auf Claude Code, aber die Methoden und CLI-Befehle funktionieren identisch in allen Agenten. Sieh dir den Cursor-Leitfaden zur Videoerstellung oder den Codex-Leitfaden zur Videoerstellung an, wenn du agentenspezifische Installationspfade brauchst.


Warum Claude Code keine Videos erzeugen kann und warum das normal ist

Coding-Agenten denken über Code nach. Sie werden nicht mit integrierter Medienerstellung ausgeliefert — und das aus gutem Grund. Bild- und Videomodelle sind riesig, teuer im Betrieb und folgen anderen Release-Zyklen als LLMs. Anthropic, OpenAI und Cursor haben sich alle für denselben Weg entschieden: den besten Reasoning-Agenten bauen und das Medien-Thema dem Ökosystem überlassen.

Das ist in Ordnung, wenn du einen PR schreibst. Es wird zum Problem, wenn dein Agent etwas Visuelles baut — eine Produktseite, die einen Demo-Clip braucht, ein Changelog mit animierter Anleitung oder ein Pitch Deck mit Bewegung.

Die Fähigkeit existiert. Sie braucht nur eine Brücke zu deinem Agenten.


Was Claude Code plus Videoerstellung tatsächlich ermöglicht

Bevor wir zum Wie kommen, hier, was diese Kombination möglich macht:

  • Produktdemos. Dein Agent schreibt das Skript, erzeugt die Visuals und rendert den Clip — alles in einer Sitzung. Du beschreibst das Produkt. Es liefert ein Video.
  • Vom Storyboard zur Bewegung. Du hast Screenshots, Design-Frames oder Referenzbilder. Dein Agent animiert sie zu einem Entwurfsvideo für die Prüfung.
  • Social Content in großem Maßstab. Ein Prompt → ein Kurzvideo. Für Varianten wiederholen. Dein Agent übernimmt den Batch, nicht du.
  • Schnelles Prototyping. Erkunde ein visuelles Konzept in Bewegung, bevor du dich auf eine vollständige Produktion festlegst. Zehn Sekunden Video sagen mehr als zehn Absätze Beschreibung.

Methode 1: Eine Video-API manuell anbinden der harte Weg

Der direkteste Ansatz: Wähle einen Anbieter für Videomodelle, registriere dich, hole dir einen API-Schlüssel und konfiguriere Claude Code so, dass es die API aufruft. So sieht das in der Praxis aus:

Schritt 1: Anbieter wählen. Googles Veo 3.1 für polierte Ergebnisse. OpenAIs Sora 2 Pro für narrative Inhalte. Kling 3.0 für filmische Bewegung. Jeder benötigt ein separates Konto.

Schritt 2: API-Schlüssel holen. Öffne die Developer Console des Anbieters. Erstelle ein Projekt. Generiere Zugangsdaten. Kopiere den Schlüssel.

Schritt 3: Claude Code konfigurieren. Schreibe eine MCP-Server-Konfiguration oder eine Skill-Datei, die Claude Code beibringt, wie der Video-Endpunkt aufgerufen wird. Lege die Endpunkt-URL, die Authentifizierung, das Request-Format und die erwartete Antwortstruktur fest.

Schritt 4: Ausgabe verarbeiten. Videoerstellung ist asynchron. Dein Agent sendet eine Anfrage, fragt den Status ab und lädt dann die Datei herunter. Jeder Schritt ist eine mögliche Fehlerquelle.

Schritt 5: Für Bild-zu-Video wiederholen. Wenn dein Workflow mit einem Standbild startet, brauchst du einen separaten Endpunkt und eine separate Konfiguration — oder gleich einen anderen Anbieter.

Das funktioniert. Teams liefern Videos genau so aus. Aber fünf Schritte pro Anbieter und pro Fähigkeit. Zwei Anbieter bedeuten zehn Integrationen. Drei bedeuten fünfzehn. Der Wartungsaufwand wächst linear mit dem Ehrgeiz.


Methode 2: Einen MCP-Server für Video nutzen der Mittelweg

MCP-Server bündeln eine bestimmte Fähigkeit in eine wiederverwendbare Integration. Für Video gibt es unter anderem:

  • HeyGen MCP — für Talking-Head-Videos und Avatar-Inhalte
  • HyperFrames MCP — für animierte Visuals und Motion Graphics
  • Firecrawl Video — für programmatische Bildschirmaufnahmen und Seiten-Captures

Ein MCP-Server übernimmt Authentifizierung und Endpunktverwaltung intern. Du richtest ihn einmal ein, und Claude Code nutzt ihn wie jedes andere Tool. Das Setup ist leichter als das direkte Anbinden von APIs, aber du verwaltest trotzdem einen MCP-Server pro Fähigkeit — und reine Video-Server decken den Bildgenerierungs-Schritt nicht ab, der Videoarbeit oft vorausgeht.


Methode 3: Eine CLI, alle Videomodelle der AnyCap-Weg

Hier weiß dein Agent nicht einzeln von Veo, Kling oder Seedance. Er kennt nur einen Befehl:

anycap video generate --prompt "a drone shot flying over a mountain range at sunset" --model veo-3.1 -o hero.mp4

Das ist alles. Eine Installation, ein Authentifizierungsfluss, eine Befehlsoberfläche. Im Hintergrund leitet AnyCap die Anfrage an das passende Videomodell weiter — Veo 3.1, Seedance 2.0, Kling 3.0, Sora 2 Pro oder das Modell, das zum Prompt passt.

Was die Runtime übernimmt, damit dein Agent es nicht muss:

  • Modellauswahl. Dein Agent kann ein Modell explizit angeben oder die Runtime anhand des Prompts auswählen lassen. „Filmisches Produktvideo“ wird anders geroutet als „schneller Social Clip“.
  • Authentifizierung. Ein API-Schlüssel. Nicht einer pro Anbieter. Die Runtime verwaltet die Zugangsdaten intern.
  • Ausgabeformat. Dein Agent erhält einen Dateipfad oder eine URL zurück. Kein Parsen von Multipart-Antworten und kein Polling von asynchronen Job-Endpunkten.
  • Bild-zu-Video eingebaut. Ergänze --mode image-to-video --param images=./frame.jpg, und derselbe Befehl nimmt auch ein Standbild als Eingabe. Kein separater Endpunkt, keine separate Konfiguration.
  • Agentenübergreifend. Derselbe CLI-Befehl funktioniert in Claude Code, Cursor und Codex. Wechsle den Agenten, ohne deine Video-Pipeline neu zu konfigurieren. Siehe unseren Cursor-Leitfaden und den Codex-Leitfaden für agentenspezifische Installationspfade.

So installierst du es für Claude Code:

npm i -g anycap
anycap login
anycap skill install --target ~/.claude/skills/anycap-cli/

Danach erkennt deine Claude-Code-Sitzung anycap video generate als verfügbares Tool. Keine MCP-Server-Konfiguration. Keine API-Schlüssel pro Anbieter. Nur ein Befehl.

AnyCap kostenlos installieren — 250 Credits für neue Nutzer


Text zu Video: Einen Clip aus einem Prompt erzeugen

Der einfachste Workflow. Dein Agent hat eine Beschreibung. Du willst ein Video.

anycap video generate \
  --prompt "a product unboxing sequence on a clean white table, soft studio lighting, 1080p" \
  --model veo-3.1 \
  -o unboxing.mp4

Praxisbeispiel: Du bringst ein neues Feature an den Start. Dein Agent schreibt das Changelog, baut die Ankündigungsseite und erzeugt dann einen 10-Sekunden-Teaser für den Hero-Bereich. Eine Sitzung, kein Tool-Wechsel.

Welches Modell für welchen Prompt:

Prompt-Typ Bestes Modell Warum
Polierte Produktdemo, storygetrieben Veo 3.1 Stärkste Qualität im ersten Durchlauf aus Text
Filmische Bewegung, dramatische Szenen Kling 3.0 Beste Bewegungsästhetik und Kameradynamik
Wiederholbar, produktionsfreundlich Seedance 1.5 Pro Stabile Ausgabe, weniger Überraschungen
Hochwertige Narrative, realistische Szenen Sora 2 Pro OpenAIs leistungsfähigstes Videomodell
Schnelle Vorschau, Batch-Iteration Veo 3.1 Fast / Seedance 2.0 Fast Schnellere Durchlaufzeit für Ideenfindung

Bild zu Video: Standbilder in Bewegung verwandeln

Hier wird der Agenten-Workflow wirklich nützlich. Dein Agent erzeugt ein Bild — einen Produktscreenshot, einen Design-Mockup oder ein Referenzbild — und animiert es dann.

# Schritt 1: Das Standbild erzeugen
anycap image generate \
  --prompt "a clean product hero shot of a dashboard on a desk setup" \
  --model seedream-5 \
  -o hero-frame.jpg

# Schritt 2: Es in Video animieren
anycap video generate \
  --prompt "subtle camera push-in with soft parallax on the screen reflection" \
  --model seedance-1.5-pro \
  --mode image-to-video \
  --param images=./hero-frame.jpg \
  -o hero-animated.mp4

Praxisbeispiel: Dein Agent baut eine SaaS-Landingpage. Es generiert das Hero-Bild mit Seedream 5 und nutzt dann Bild-zu-Video mit Seedance 1.5 Pro, um eine dezente Kamerabewegung hinzuzufügen. Der Hero-Bereich wird von statisch zu lebendig — ohne dass du After Effects öffnest oder das Terminal verlässt.

Modell-Kombinationsleitfaden für Bild zu Video:

Quellbild-Modell Bestes Videomodell Ergebnis
Seedream 5 (poliert) Veo 3.1 Premium-Bewegung aus Premium-Standbildern
Nano Banana Pro (Revisionsschleife) Seedance 1.5 Pro Stabile, produktionsreife Ausgabe
FLUX.1 Kontext Max (designlastig) Kling 3.0 Filmische Behandlung komplexer Visuals
Nano Banana 2 (schnelle Iteration) Seedance 2.0 Fast Schnelle Bewegungsentwürfe in großem Umfang

Die komplette Pipeline: Text → Bild → Video, alles in einer Sitzung

Hier ist ein kompletter Workflow, den dein Agent in einer einzigen Claude-Code-Sitzung ausführen kann:

# 1. Recherche: nach Referenzstilen suchen
anycap search --prompt "SaaS product demo video styles 2026" --citations

# 2. Das Keyframe generieren
anycap image generate \
  --prompt "a modern SaaS dashboard on a laptop, floating UI elements, clean lighting" \
  --model seedream-5 \
  -o keyframe.jpg

# 3. Varianten für A/B-Tests erzeugen
anycap image generate \
  --prompt "same dashboard, dark mode variant with neon accents" \
  --model nano-banana-2 \
  -o keyframe-dark.jpg

# 4. Die gewählte Variante animieren
anycap video generate \
  --prompt "slow zoom-in with UI elements fading in sequentially" \
  --model veo-3.1 \
  --mode image-to-video \
  --param images=./keyframe.jpg \
  -o demo-video.mp4

# 5. Das Ergebnis speichern
anycap drive upload demo-video.mp4

Dein Agent hat den Stil recherchiert, das Standbild erzeugt, Varianten iteriert, den Gewinner animiert und das Ergebnis gespeichert. Du hast den ersten Prompt geschrieben. Alles andere passierte im Agenten-Loop.


Agentenübergreifend: dieselbe CLI, anderer Agent

Die Videoerstellungsbefehle in diesem Leitfaden funktionieren identisch in Claude Code, Cursor und Codex. Nur der Installationsort der Skill-Datei ändert sich:

Agent Ziel für die Skill-Installation Vollständiger Leitfaden
Claude Code ~/.claude/skills/anycap-cli/ Du liest ihn gerade
Cursor ~/.cursor/skills/anycap-cli/ Cursor-Leitfaden zur Videoerstellung →
Codex ~/.codex/skills/anycap-cli/ Codex-Leitfaden zur Videoerstellung →

Welches Videomodell solltest du verwenden? Ein Entscheidungsrahmen

Die Antwort hängt davon ab, was du baust. So kannst du es einordnen:

Nutze Veo 3.1, wenn:

  • du die stärkste Qualität im ersten Durchlauf aus einem Textprompt brauchst
  • die Ausgabe kundenseitig sichtbar ist, etwa Demo, Teaser oder Ankündigung
  • du bereit bist, pro Generation mehr für höhere Treue zu zahlen

Nutze Seedance 1.5 Pro, wenn:

  • du Bild-zu-Video aus vorhandenen Standbildern ausführst
  • du konsistente, wiederholbare Ausgabe für die Produktion brauchst
  • du einen stabilen Standard willst, der keine Modellauswahl pro Prompt erfordert

Nutze Kling 3.0, wenn:

  • filmische Bewegung wichtiger ist als reine Detailtreue
  • du kontrollierbare Kamerabewegungen brauchst, etwa Schwenk, Zoom oder Tracking
  • das Projekt kreativ oder explorativ ist statt vorlagenbasiert

Nutze Sora 2 Pro, wenn:

  • dein Team die OpenAI-Videomodellfamilie bevorzugt
  • du hochwertige Narrative oder realistische Szenen erzeugen willst
  • du maximale Leistung aus einem einzigen Videomodell möchtest

Nutze Fast-Varianten wie Veo 3.1 Fast oder Seedance 2.0 Fast, wenn:

  • du Vorschauen und Ideenfindung machst, nicht die finale Ausgabe lieferst
  • du schnelle Durchlaufzeiten für Batch-Erstellung brauchst
  • Geschwindigkeit wichtiger ist als Feinschliff

FAQ

Kann Claude Code nativ Videos erzeugen?

Nein — und genauso wenig Cursor, Codex oder Windsurf. Das sind Reasoning- und Coding-Agenten. Videoerstellung braucht externe Modelle. AnyCap bündelt diese Modelle hinter einer einzigen CLI, damit dein Agent keine separaten Integrationen braucht.

Was ist der Unterschied zwischen Text zu Video und Bild zu Video?

Text zu Video erzeugt einen Clip allein aus einem Textprompt. Bild zu Video startet mit einem Standbild — etwa einem Screenshot, einem Design-Frame oder einem Foto — und animiert es. In den meisten Produktions-Workflows nutzt man beides: erst ein Standbild erzeugen, dann animieren.

Wie lange dauert die Videoerstellung?

Das hängt vom Modell und der Komplexität ab. Fast-Varianten liefern in Sekunden bis zu einer Minute. Vollwertige Modelle wie Veo 3.1 und Sora 2 Pro können 1 bis 3 Minuten brauchen. Die Runtime übernimmt das Polling und liefert die Datei, sobald sie bereit ist.

Brauche ich separate API-Schlüssel für jedes Videomodell?

Nicht mit AnyCap. Ein Konto, ein Schlüssel, alle Modelle. Die Runtime verwaltet die Anbieterdaten intern.

Kann ich Video-Varianten im Batch erzeugen?

Ja. Dein Agent kann den Befehl anycap video generate mit unterschiedlichen Prompts, Modellen oder Quellbildern in einer Schleife ausführen. Die Runtime behandelt jede Anfrage einzeln.

Funktioniert das auch, wenn ich Cursor oder Codex nutze?

Ja. Derselbe Befehl anycap video generate funktioniert in allen drei Agenten. Sieh dir die Tabelle oben mit den Installationspfaden an.


Das Fazit

Claude Code kann das Skript schreiben, die Seite bauen und das Layout gestalten. Es kann nur das Video nicht selbst machen. Das ist kein Fehler — es ist eine Designentscheidung. Videoerstellung gehört in eine separate Ebene.

Die Frage ist, wie viel Reibung du zwischen deinem Agenten und dieser Ebene willst. Fünf API-Schlüssel und fünf Konfigurationen oder ein CLI-Befehl.


Claude Code Videoerstellung geben — eine Installation, eine Authentifizierung, alle Modelle


📖 Weiter lesen


Verwandte Artikel


Verfasst vom AnyCap-Team. Wir bauen die Capability-Schicht, die KI-Agenten Videoerstellung, Bilderstellung, Websuche, Cloud-Speicher und Publishing über eine einzige CLI gibt — damit dein Agent nicht bei „Das kann ich nicht“ stehen bleibt.