DeepSeek V4 にマルチモーダルを追加: 画像・動画・検索

DeepSeek V4 はテキスト専用です。AnyCap を使えば、2分以内に DeepSeek V4 エージェントへ画像生成、動画、Web 検索、クラウド保存、公開機能を追加できます。プロバイダーごとの API キーは不要で、CLI は 1つだけです。

DeepSeek V4 はテキスト専用モデルです。これはバグではなく、推論コストを低く抑えつつ推論性能を高く保つための意図的な設計です。 しかし、エージェントが作成したランディングページのヒーロー画像を生成したり、製品デモ動画を作成したり、最新の API ドキュメントを検索したり、生成したアセットを永続的に保存したりする必要があると、テキスト専用エンジンは行き止まりにぶつかります。ここでは、DeepSeek V4 ベースのエージェントに、画像生成、動画、Web 検索、クラウド保存、Web 公開まで含めた完全なマルチモーダル機能を 2 分以内で追加する方法を紹介します。

なぜ DeepSeek V4 はテキスト専用なのか、そしてそれが重要な理由

DeepSeek V4 と V4 Pro は、総パラメータ数 1T 超の Mixture-of-Experts 言語モデルです。推論ベンチマークでは GPT-5.5 や Claude Opus 4.7 と競合します。1M トークンのコンテキストウィンドウをサポートしており、コードベース全体を取り込むのに十分です。Claude Code や OpenClaw のようなエージェント向けツールに最適化されています。

備えていないものは、ネイティブな画像生成、動画作成、音声処理、Web 検索機能です。公式ドキュメントは明確です。「テキストのみ。プレビューではネイティブの画像、音声、動画の入出力はありません。」

これは見落としではありません。DeepSeek は戦略的に、競合モデルのごく一部のコストで可能な限り優れたテキスト推論エンジンを作ることを選びました（入力 1M トークンあたり $0.28、GPT-5.5 は $5/1M）、マルチモーダル機能はエコシステムに委ねています。このモデルは Apache 2.0 ライセンスです。量子化によりコンシューマー向けハードウェアでも動作します。高速、低コスト、オープンです。

しかし、あなたのエージェントワークフローはテキストだけではありません。何かを作ります。画像、動画、検索、保存、公開が必要です。そのギャップをどう埋めるかを見ていきましょう。

マルチモーダル化への 2 つの道: DIY の MCP サーバー vs AnyCap ランタイム

DeepSeek V4 エージェントに不足している機能——画像生成、動画、Web 検索、保存、公開——は、すべて MCP（Model Context Protocol）で追加できます。MCP は、AI エージェントを外部ツールへ接続するためのオープン標準です。Claude Code、Cursor、OpenClaw はいずれも MCP をネイティブにサポートしています。

機能追加には 2 つの選択肢があります。

オプション 1: DIY — 個別の MCP サーバーを設定する

画像生成用の MCP サーバーを探します。インストールします。画像 API プロバイダー（Replicate、fal.ai、OpenAI Images）のアカウントを作成します。API キーを取得します。サーバー設定を .mcp.json に追加します。テストします。次に、動画生成（別プロバイダー）、Web 検索（別プロバイダー）、クラウド保存（別プロバイダー）、Web 公開（別プロバイダー）についても同じことを繰り返します。

結果: 5 つのプロバイダー、5 つの API キー、5 つの .mcp.json エントリ、破壊的変更を監視する 5 つの面。時間: 楽観的に見て 45〜90 分。

オプション 2: AnyCap — 1 つのランタイムですべての機能

AnyCap を 1 つのコマンドでインストールします。1 つのランタイムで、画像生成、動画作成、Web 検索、クラウド保存（Drive）、Web 公開（Page）を、MCP 対応のあらゆるエージェントに追加できます。DeepSeek V4 を Claude Code や OpenClaw で使っている構成にも対応します。

結果: インストール 1 回、認証フロー 1 回、残高 1 つ、コマンド面 1 つ。所要時間: 2 分以内。

ステップごとに解説: AnyCap で DeepSeek V4 にマルチモーダルを追加する

前提条件

DeepSeek V4 API へのアクセス（DeepSeek プラットフォーム、OpenRouter、またはセルフホスト）
Claude Code、Cursor、OpenClaw のいずれかがインストール済み（AnyCap は MCP 対応のエージェントシェルなら動作します）
ターミナルアクセス

ステップ 1: AnyCap をインストール

npx -y skills add anycap-ai/anycap -a claude-code

これにより、AnyCap の機能ランタイムが MCP スキルとしてインストールされます。これでエージェントは AnyCap ツールを直接呼び出せます。Claude Code、Cursor、OpenClaw のどれでもコマンドは同じです。

ステップ 2: 認証する

anycap login

ブラウザが開き、1 回だけ認証します。ログイン後、セッショントークンはローカルに保存されます。API キーを管理する必要はありません。AnyCap が 5 つすべての機能の認証を処理します。

ステップ 3: エージェントを DeepSeek V4 で使うよう設定する

Claude Code では、モデルを DeepSeek V4 経由に設定します。

# OpenRouter 経由（API アクセスに推奨）
export OPENROUTER_API_KEY=sk-or-your-key
claude --model openrouter/deepseek/deepseek-v4-pro

または Cursor で: Settings → Models → OpenRouter かカスタムエンドポイント経由で DeepSeek V4 を追加します。

これで、エージェントは推論とコード生成に DeepSeek V4 を使い、マルチモーダル機能には AnyCap を利用できます。

ステップ 4: 最初の画像を生成する

エージェントセッションで次のように指示します。

Generate a hero image for a SaaS landing page about AI agent analytics.

DeepSeek V4 が推論を担当するエージェントは、画像生成のために AnyCap を呼び出します。画像は AnyCap Drive に保存され、共有可能なリンクが返ります。

ステップ 5: 動画を作成する

Create a 30-second product demo video showing how the analytics dashboard works.

同じエージェントセッション、同じ認証です。エージェントは anycap video generate を呼び出します。新しいプロバイダーを設定する必要はありません。

ステップ 6: Web を検索する

Search for the latest DeepSeek V4 API pricing changes and summarize them.

エージェントは AnyCap の検索機能を使ってライブの Web 結果を取得します。1M トークンのコンテキストを持つ DeepSeek V4 は、検索結果全体を一度に取り込み、要約できます。

ステップ 7: 保存して公開する

Store the generated hero image and demo video in Drive, then publish a changelog page with both assets embedded.

AnyCap Drive が保存と共有リンクを処理します。AnyCap Page が公開を担当します。エージェントは生成 → 保存 → 公開の一連のワークフローを、5 つの異なるプロバイダー統合を切り替えることなく実行できます。

今、DeepSeek V4 エージェントにできること

機能	AnyCap 前	AnyCap 後
コード推論	✅ 1M トークンあたり $0.28 で世界最高水準	✅ 1M トークンあたり $0.28 で世界最高水準
画像生成	❌ テキスト専用モデル	✅ `anycap image generate`
動画作成	❌ テキスト専用モデル	✅ `anycap video generate`
Web 検索	❌ テキスト専用モデル	✅ `anycap search`
ファイル保存	❌ テキスト専用モデル	✅ `anycap drive upload`
コンテンツ公開	❌ テキスト専用モデル	✅ `anycap page publish`

DeepSeek V4 は推論を担当し、AnyCap がそれ以外を担当します。これこそが理にかなったアーキテクチャです。最も安価なフロンティア推論モデルに、すべてのマルチモーダルの穴を埋める機能ランタイムを組み合わせるのです。

このアーキテクチャが、DeepSeek がマルチモーダルを出すのを待つより優れている理由

DeepSeek はマルチモーダル機能に取り組んでいると述べています。しかし、時期は未定です。V4 プレビューは依然としてテキスト専用です。「DeepSeek-V4 にまだマルチモーダルはない。でも待つ。」という Reddit スレッドは、開発者の空気をよく表しています。

待つということは、エージェントがいつ終わるかわからない数か月間、テキスト専用のままでいることを意味します。AnyCap で機能を追加すれば、今日からエージェントはマルチモーダル作業ができます。そして DeepSeek が将来的にネイティブなマルチモーダルを出しても、すでに複数モデルで動くランタイムを持っています。特定のモデルにロックインされません。

さらに言えば、DeepSeek がネイティブなマルチモーダルを追加しても、おそらく画像理解と画像生成が中心でしょう。動画作成、Web 検索、クラウド保存、Web 公開までは含まれないかもしれません。これらはモデル機能ではなく、プラットフォーム機能だからです。AnyCap のような機能ランタイムは、どのモデルが何をネイティブにサポートしていても有用です。

FAQ

DeepSeek V4 はネイティブに画像生成をサポートしますか？

いいえ。2026 年 4 月のプレビュー時点では、DeepSeek V4 と V4 Pro はテキスト専用モデルです。公式ドキュメントには「ネイティブな画像、音声、動画の入出力はありません」とあります。画像生成は MCP サーバーや AnyCap のような機能ランタイムで追加できます。

DeepSeek V4 を Claude Code と一緒に使えますか？

はい。CNBC は、DeepSeek V4 が Claude Code と OpenClaw 向けに最適化されていると報じました。OpenRouter やカスタム API エンドポイント経由で、Claude Code を DeepSeek V4 にルーティングできます。AnyCap は機能レイヤーとして並行して導入します。

マルチモーダルな DeepSeek V4 エージェントを最も安く動かす方法は？

推論には DeepSeek V4 Flash（入力 1M トークンあたり $0.14）、エージェントシェルには Claude Code か OpenClaw、マルチモーダル機能には AnyCap（開始時に $5 の無料クレジット）を使います。コード生成、画像作成、Web 検索を含むセッションの総コストは、DeepSeek の API 料金と AnyCap のクレジット消費のみです。GPT-5.5 で同じワークフローを回すよりかなり安くなります。

AnyCap はセルフホストの DeepSeek V4 でも動作しますか？

はい。DeepSeek V4 をローカルまたは自前インフラで動かしている場合でも、AnyCap は独立した MCP スキルとしてインストールされます。エージェントシェル（Claude Code、Cursor、OpenClaw）がセルフホストのエンドポイントへルーティングし、AnyCap がマルチモーダル機能を担います。

エージェントワークフローでは DeepSeek V4 と GPT-5.5 はどう比較されますか？

DeepSeek V4 Pro はエージェント向けコーディングのベンチマークで GPT-5.5 と同等かそれ以上でありながら、トークンあたりのコストはおよそ 1/18 です。GPT-5.5 は DALL-E 統合によるネイティブ画像生成を備えていますが、DeepSeek V4 にはありません。AnyCap を使えば、DeepSeek V4 に画像生成、動画、検索、保存、公開が加わり、コスト優位を維持しつつ機能差を埋められます。

DeepSeek V4 エージェントにマルチモーダルを追加する:

npx -y skills add anycap-ai/anycap -a claude-code

AnyCap をインストール · DeepSeek V4 開発者ガイド · Claude Code セットアップ

DeepSeek V4 エージェントにマルチモーダル機能を追加する方法（2026）