
AIエージェントは計画できる。推論できる。コードも書ける。しかし、画像を生成して、引用付きでウェブを検索して、動画を作って、アセットをクラウドに保存して、ページを公開して——と頼むと壁にぶつかる。モデルが十分に賢くないからではない。エージェントアーキテクチャに一つの層が欠けているからだ。
その欠けている層が**ケイパビリティランタイム(Capability Runtime)**である。
今日のAIエージェントアーキテクチャが破綻する場所
現代のAIエージェントスタックは通常、三層で構成される:
- モデル層 —— Claude、GPT、Gemini。推論エンジン。
- エージェントフレームワーク —— 計画し、ツールを呼び出し、観察し、反復するループ。
- ツール —— MCPサーバー、API、SDK。エージェントに実行させるもの。
最初の二層は急速に成熟した。Claude CodeやCursorは洗練されたエージェントループを持つ。モデルは200K以上のトークンコンテキストウィンドウを扱う。
第三層——ツール——ここで破綻する。
エージェントが必要とするすべてのツールは、異なるAPIの背後にある。各APIは独自の認証、独自のレート制限、独自のSDK、独自の出力形式を持つ。一つのエージェントに五つのケイパビリティ(画像生成、動画、ウェブ検索、ストレージ、公開)を与えるには、五つの個別サービスを設定し、六つのAPIキーを管理し、ツール説明だけで24,000トークン以上を消費する。
それはツール層ではない。ツールの負担だ。
ケイパビリティランタイムが行うこと
ケイパビリティランタイムは、エージェントとそれが必要とする数十のサービスとの間に位置する単一のCLIツール(またはAPI)である。エージェントが各サービスと直接通信する代わりに:
エージェント → 画像API → エージェント → 動画API → エージェント → 検索API → エージェント → ストレージAPI
エージェントは一つのエンドポイントと通信する:
エージェント → ケイパビリティランタイム → (画像, 動画, 検索, ストレージ, 公開)
ランタイムがモデル選択、認証、フォーマット変換、レート制限、構造化出力を処理する——エージェントが気にする必要はない。
これが重要な理由:トークン計算
これは抽象化のための抽象化ではない。エージェントのパフォーマンスに測定可能な影響を与える。
エージェントが接続する各MCPサーバーやAPIクライアントは、エージェントのコンテキストにツールを登録する。各ツールには名前、説明、パラメータスキーマが含まれる。単一のMCPサーバーは通常、ツール説明で3,000~8,000トークンを追加する。
五つの個別ツール(画像生成 + 動画生成 + ウェブ検索 + クラウドストレージ + 公開)では、エージェントが一行のコードを書く前に15,000~40,000トークンが消費される。
ケイパビリティランタイムはこれらのツールを一つのエンドポイントに統合する。五セットのツール説明が一つになる。トークンオーバーヘッドは24,000以上から約2,000に減少する。
200KコンテキストウィンドウのClaude Sonnet 4セッションでは、コンテキストの11%が解放される——実際の推論、コード生成、会話履歴のために。
ケイパビリティランタイムが解決する三つの問題
1. クレデンシャルの散乱
個別のAPIはそれぞれ独自のキーを必要とする。五つのケイパビリティは、作成、保存、ローテーション、失効させるべき五つのキーを意味する。ケイパビリティランタイムは、すべてをカバーする一つのクレデンシャルを提供する。
2. 出力の不整合
あるAPIはJSONを返す。別のAPIはプレーンテキストを返す。さらに別のAPIはバイナリをストリーミングする。エージェントはすべての形式を処理しなければならない。ケイパビリティランタイムは、基盤となるサービスに関係なく、構造化された一貫性のあるJSONを返す。
3. メンテナンスドリフト
APIは変化する。レート制限は変動する。モデルは非推奨になる。各ケイパビリティが個別に接続されていると、五つの設定をメンテナンスすることになる。ランタイムは更新を内部的に処理する——エージェントは単に同じエンドポイントを呼び続けるだけだ。
ケイパビリティランタイム vs MCPサーバー:異なる層
ここで用語が混乱する。MCP(Model Context Protocol)サーバーはトランスポート層である——エージェントがツールに接続する方法を定義する。ケイパビリティランタイムはバンドル層である——どのツールが利用可能で、どのように提示されるかを決定する。
両者は補完的である。専門的な統合(企業の内部データベース、Slackボット、Jiraコネクタ)にはMCPサーバーを使用し、すべてのエージェントが必要とする共通ケイパビリティ(検索、画像、動画、ストレージ、公開)にはケイパビリティランタイムを使用できる。
ハイブリッドアプローチは次のようになる:
- 専門ツール → 個別のMCPサーバー(データベース、Slack、CRM)
- 共通ケイパビリティ → ケイパビリティランタイム(画像、動画、検索、ストレージ、公開)
実例:ランディングページの構築
ケイパビリティランタイムなしで、エージェントに「新機能のランディングページを作って」と頼んだときに起こること:
- エージェントがHTML/CSSを作成 ✅
- エージェントがヒーロー画像を必要とする——停止。Replicate APIを設定し、手動で画像を生成し、URLをエージェントに戻す。
- エージェントが競合調査を必要とする——停止。Brave Searchを設定し、クエリを実行し、結果を貼り付ける。
- エージェントがページを構築——完了。今度は手動でNetlifyにデプロイ。
- エージェントはツールさえあれば、ステップ2~4を自分で実行できたはずだ。
ケイパビリティランタイムがあれば:
- エージェントがHTML/CSSを作成 ✅
- エージェントが
image generate "SaaSダッシュボード用ヒーロー"を呼び出す——CDN URLが返る ✅ - エージェントが
search "競合価格 2026 Q2"を呼び出す——引用付きの構造化された結果が返る ✅ - エージェントが
drive upload ./build/を呼び出す——公開URLでアセットを保存 ✅ - エージェントが
page deploy ./build/を呼び出す——ページが公開 ✅
一つのセッション。一つのエージェント。人間のボトルネックなし。
ケイパビリティランタイムを選ぶ際のポイント
ケイパビリティランタイムを評価する際に重要なこと:
- 網羅性:エージェントが実際に必要とするケイパビリティをカバーしているか?画像、動画、検索、ストレージ、公開が基盤である。
- エージェント互換性:あなたのエージェントで動作するか?Claude Code、Cursor、Codex、Windsurf、Gemini CLI。
- 出力形式:構造化JSON。エージェントがHTMLをパースしたりバイナリストリームを処理したりする必要がないこと。
- クレデンシャルモデル:一つのアカウント、一つの認証フロー、管理するキーは一つ。
- トークン効率:コンテキストに何トークン追加されるか?低いほど良い。
欠けていた層に名前がついた
AIエージェントスタックには、この層の名前がなかった。人々は「ツール統合」や「MCP設定」や「API配線」と呼んでいた。そのどれもが本質を捉えていない:エージェントがネイティブに持たないケイパビリティをエージェントに与えるランタイムである。
ケイパビリティランタイムはMCPの代替ではない。モデルAPIの代替でもない。それはエージェントの推論と、エージェントが対話する必要のある世界との間に位置する層である——「それはできません」を「完了しました」に変える層だ。
最終更新:2026年5月