ケイパビリティランタイムとは?AIエージェントアーキテクチャに欠けていた層

ケイパビリティランタイムとは何か、そしてなぜAIエージェントアーキテクチャに欠かせない層なのかを解説。コーディングエージェントにおけるクレデンシャル散乱、トークンブロート、出力不整合をどう解決するか。

by AnyCap

AIエージェントのインフラストラクチャ層を示す未来的なアーキテクチャ図。ケイパビリティランタイムが位置するギャップがハイライトされている——ダークパープルとブルーのグラデーション

AIエージェントは計画できる。推論できる。コードも書ける。しかし、画像を生成して、引用付きでウェブを検索して、動画を作って、アセットをクラウドに保存して、ページを公開して——と頼むと壁にぶつかる。モデルが十分に賢くないからではない。エージェントアーキテクチャに一つの層が欠けているからだ。

その欠けている層が**ケイパビリティランタイム(Capability Runtime)**である。


今日のAIエージェントアーキテクチャが破綻する場所

現代のAIエージェントスタックは通常、三層で構成される:

  1. モデル層 —— Claude、GPT、Gemini。推論エンジン。
  2. エージェントフレームワーク —— 計画し、ツールを呼び出し、観察し、反復するループ。
  3. ツール —— MCPサーバー、API、SDK。エージェントに実行させるもの。

最初の二層は急速に成熟した。Claude CodeやCursorは洗練されたエージェントループを持つ。モデルは200K以上のトークンコンテキストウィンドウを扱う。

第三層——ツール——ここで破綻する。

エージェントが必要とするすべてのツールは、異なるAPIの背後にある。各APIは独自の認証、独自のレート制限、独自のSDK、独自の出力形式を持つ。一つのエージェントに五つのケイパビリティ(画像生成、動画、ウェブ検索、ストレージ、公開)を与えるには、五つの個別サービスを設定し、六つのAPIキーを管理し、ツール説明だけで24,000トークン以上を消費する。

それはツール層ではない。ツールの負担だ。


ケイパビリティランタイムが行うこと

ケイパビリティランタイムは、エージェントとそれが必要とする数十のサービスとの間に位置する単一のCLIツール(またはAPI)である。エージェントが各サービスと直接通信する代わりに:

エージェント → 画像API → エージェント → 動画API → エージェント → 検索API → エージェント → ストレージAPI

エージェントは一つのエンドポイントと通信する:

エージェント → ケイパビリティランタイム → (画像, 動画, 検索, ストレージ, 公開)

ランタイムがモデル選択、認証、フォーマット変換、レート制限、構造化出力を処理する——エージェントが気にする必要はない。


これが重要な理由:トークン計算

これは抽象化のための抽象化ではない。エージェントのパフォーマンスに測定可能な影響を与える。

エージェントが接続する各MCPサーバーやAPIクライアントは、エージェントのコンテキストにツールを登録する。各ツールには名前、説明、パラメータスキーマが含まれる。単一のMCPサーバーは通常、ツール説明で3,000~8,000トークンを追加する。

五つの個別ツール(画像生成 + 動画生成 + ウェブ検索 + クラウドストレージ + 公開)では、エージェントが一行のコードを書く前に15,000~40,000トークンが消費される。

ケイパビリティランタイムはこれらのツールを一つのエンドポイントに統合する。五セットのツール説明が一つになる。トークンオーバーヘッドは24,000以上から約2,000に減少する。

200KコンテキストウィンドウのClaude Sonnet 4セッションでは、コンテキストの11%が解放される——実際の推論、コード生成、会話履歴のために。


ケイパビリティランタイムが解決する三つの問題

1. クレデンシャルの散乱

個別のAPIはそれぞれ独自のキーを必要とする。五つのケイパビリティは、作成、保存、ローテーション、失効させるべき五つのキーを意味する。ケイパビリティランタイムは、すべてをカバーする一つのクレデンシャルを提供する。

2. 出力の不整合

あるAPIはJSONを返す。別のAPIはプレーンテキストを返す。さらに別のAPIはバイナリをストリーミングする。エージェントはすべての形式を処理しなければならない。ケイパビリティランタイムは、基盤となるサービスに関係なく、構造化された一貫性のあるJSONを返す。

3. メンテナンスドリフト

APIは変化する。レート制限は変動する。モデルは非推奨になる。各ケイパビリティが個別に接続されていると、五つの設定をメンテナンスすることになる。ランタイムは更新を内部的に処理する——エージェントは単に同じエンドポイントを呼び続けるだけだ。


ケイパビリティランタイム vs MCPサーバー:異なる層

ここで用語が混乱する。MCP(Model Context Protocol)サーバーはトランスポート層である——エージェントがツールに接続する方法を定義する。ケイパビリティランタイムはバンドル層である——どのツールが利用可能で、どのように提示されるかを決定する。

両者は補完的である。専門的な統合(企業の内部データベース、Slackボット、Jiraコネクタ)にはMCPサーバーを使用し、すべてのエージェントが必要とする共通ケイパビリティ(検索、画像、動画、ストレージ、公開)にはケイパビリティランタイムを使用できる。

ハイブリッドアプローチは次のようになる:

  • 専門ツール → 個別のMCPサーバー(データベース、Slack、CRM)
  • 共通ケイパビリティ → ケイパビリティランタイム(画像、動画、検索、ストレージ、公開)

実例:ランディングページの構築

ケイパビリティランタイムなしで、エージェントに「新機能のランディングページを作って」と頼んだときに起こること:

  1. エージェントがHTML/CSSを作成 ✅
  2. エージェントがヒーロー画像を必要とする——停止。Replicate APIを設定し、手動で画像を生成し、URLをエージェントに戻す。
  3. エージェントが競合調査を必要とする——停止。Brave Searchを設定し、クエリを実行し、結果を貼り付ける。
  4. エージェントがページを構築——完了。今度は手動でNetlifyにデプロイ。
  5. エージェントはツールさえあれば、ステップ2~4を自分で実行できたはずだ。

ケイパビリティランタイムがあれば:

  1. エージェントがHTML/CSSを作成 ✅
  2. エージェントが image generate "SaaSダッシュボード用ヒーロー" を呼び出す——CDN URLが返る ✅
  3. エージェントが search "競合価格 2026 Q2" を呼び出す——引用付きの構造化された結果が返る ✅
  4. エージェントが drive upload ./build/ を呼び出す——公開URLでアセットを保存 ✅
  5. エージェントが page deploy ./build/ を呼び出す——ページが公開 ✅

一つのセッション。一つのエージェント。人間のボトルネックなし。


ケイパビリティランタイムを選ぶ際のポイント

ケイパビリティランタイムを評価する際に重要なこと:

  • 網羅性:エージェントが実際に必要とするケイパビリティをカバーしているか?画像、動画、検索、ストレージ、公開が基盤である。
  • エージェント互換性:あなたのエージェントで動作するか?Claude Code、Cursor、Codex、Windsurf、Gemini CLI。
  • 出力形式:構造化JSON。エージェントがHTMLをパースしたりバイナリストリームを処理したりする必要がないこと。
  • クレデンシャルモデル:一つのアカウント、一つの認証フロー、管理するキーは一つ。
  • トークン効率:コンテキストに何トークン追加されるか?低いほど良い。

欠けていた層に名前がついた

AIエージェントスタックには、この層の名前がなかった。人々は「ツール統合」や「MCP設定」や「API配線」と呼んでいた。そのどれもが本質を捉えていない:エージェントがネイティブに持たないケイパビリティをエージェントに与えるランタイムである。

ケイパビリティランタイムはMCPの代替ではない。モデルAPIの代替でもない。それはエージェントの推論と、エージェントが対話する必要のある世界との間に位置する層である——「それはできません」を「完了しました」に変える層だ。


最終更新:2026年5月