Agent-First 设计：为什么 AI 代理需要为代理而非人类构建的工具

为什么大多数 AI 工具在代理使用时都会失败——以及 Agent-First 设计是什么样子的。在代理时代，CLI 界面、结构化 JSON 输出和无状态认证的核心理念。

对比图：为人类设计的复杂 GUI 仪表盘 vs 为 AI 代理设计的简洁终端与结构化 JSON 输出 — 深紫色渐变

大多数 AI 工具是为人类设计的。它们拥有图形界面、按钮、下拉菜单和视觉反馈，假定另一端是一个人在点击和滚动。

AI 代理不会点击，也不会滚动。它们读取结构化文本并发起 API 调用。

这种错配——人类设计的工具被非人类代理使用——在代理技术栈的每一层都产生了摩擦。解决方案是一种被称为 Agent-First 设计的设计哲学：构建专为代理消费而设计的工具，而不仅仅是供人类使用。

GUI 问题：为什么人类界面会让代理失效

当代理尝试使用为人类设计的工具时，会遇到三个问题：

1. 视觉依赖

人类看到按钮就会点击。代理看到的是 HTML 标记，必须判断哪个元素触发哪个动作。即使具备视觉能力的模型，解析为人类眼睛设计的界面也是缓慢、易错且消耗大量 token 的。

2. 有状态会话

人类工具假定持久会话。你登录一次，保持登录状态，然后浏览多个页面。代理在短暂环境中运行——每次会话都是全新开始的。通过为人类设计的 Web 流程重新认证是非常脆弱的。

3. 非结构化输出

人类工具返回包含布局、图像和交互元素的富 HTML 页面。代理需要结构化数据——具有可预测模式的 JSON 对象——来做出决策。解析 HTML 提取数据是一个已解决的问题，但这本不该是必需的。

Agent-First 设计是什么样的

一个 Agent-First 工具有四个特征：

1. 终端原生界面

主要界面是 CLI，而非 GUI。代理调用命令，而非点击按钮。

# Agent-First
anycap image generate --model nano-banana-2 --prompt "hero image" -o hero.png

# 等效的人类优先方式
打开浏览器 → 访问网站 → 点击"生成" → 输入提示词 → 点击"创建" → 等待 → 下载

CLI 版本只需一条命令。人类版本需要 7 个步骤。对代理而言，CLI 版本不仅更快——它是唯一能可靠运行的版本。

2. 结构化、可预测的输出

每个响应都是机器可读的 JSON。模式在所有能力之间保持一致。代理不需要处理来自五个不同工具的五种不同响应格式。

{
  "status": "success",
  "local_path": "/workspace/hero.png",
  "url": "https://cdn.example.com/hero.png",
  "model": "nano-banana-2",
  "dimensions": "1024x1024"
}

无需 HTML 解析，无需正则提取，无需猜测。

3. 无状态认证

代理认证一次，凭证持久有效。无需浏览器 Cookie，无需需要人类重新登录的会话超时。只需一个在短暂环境中随处可用的 token 或 API 密钥。

4. 可发现的命令

代理可以发现哪些工具可用，而无需阅读为人类编写的文档。帮助命令或模式端点返回可用命令、参数及预期输出格式——全部结构化。

为什么大多数 AI 工具在这点上做错了

AI 行业对视觉界面存在偏见。这可以理解——视觉效果能卖产品。投资者想看仪表盘，用户想看进度条。

但代理不关心仪表盘。它们关心的是延迟、可靠性和结构化输出。当消费者是代理时，每一个为人类眼睛设计的 UI 像素都是额外负担。

这就是 API 优先的公司在代理时代具有优势的原因。它们的工具一开始就是为程序化访问而设计的。但即使是 API 优先的工具也常常不足：它们返回不同的模式，使用不同的认证方法，有不同的速率限制行为。

Agent-First 设计更进一步：它统一了所有能力的接口。代理只需学习一种模式，到处适用。

人类优先设计的 Token 成本

Agent-First 设计不仅仅是一种哲学——它对代理性能和成本有着可衡量的影响。

考虑使用捆绑式能力运行时（Agent-First）的代理与使用五个独立 MCP 服务器（包装为工具的人类优先设计）的代理之间的差异：

	Agent-First 运行时	5 个独立 MCP 服务器
工具描述（token）	~2,000	~24,000
需处理的输出格式	1 种（JSON）	5 种（JSON、文本、二进制、HTML）
认证流程	1 个	5 个
需记忆的命令	5 条（一致）	25 条以上（各异）
错误模式	1 种类型	5 种不同类型

仅 token 节省一项——每次会话释放 22,000 个 token——就意味着代理有更多上下文用于实际推理。在 200K 上下文窗口中，这为代码、对话和复杂指令多出了 11% 的空间。

Agent-First 技术栈

Agent-First 开发技术栈有三条原则：

CLI 优先于 GUI。 每项能力通过终端命令暴露。无需浏览器自动化，无需截图解析，无需元素选择。
JSON 优先于 HTML。 每个输出都是结构化的。代理永远不需要"弄清楚"响应是什么意思。模式会告诉它。
一优先于多。 一种凭证，一种输出格式，一种错误处理模式。代理学习一次，到处适用。

这对工具构建者意味着什么

如果你正在为 AI 代理时代构建工具：

先发布 CLI 二进制文件，再发布仪表盘。 代理无法使用仪表盘。
返回 JSON，而非格式化文本。 代理解析 JSON。人类两者都能读。
使用统一的认证模型。 人类用 OAuth。代理用 API 密钥或设备流。
为机器编写文档。 一个返回结构化输出的 --help 标志胜过文档页面。
以命令而非工作流的思维来思考。 "生成图像"是一个命令。"点击这里，再点击那里"是人类的工作流。

转变已经开始

Claude Code、Codex CLI、Windsurf 和 Cursor 都在终端或终端式环境中运行。它们出于必要性而采用 Agent-First——在沙箱化虚拟机中没有 GUI。

但它们连接的工具尚未跟上。大多数 MCP 服务器是围绕人类设计的 API 的包装器。大多数图像生成工具假定是人类在上传参考照片。大多数存储解决方案期望基于浏览器的上传流程。

Agent-First 设计是下一波浪潮。不是因为它时髦，而是因为代理确实无法使用其他任何东西。

最后更新：2026 年 5 月