Agent-First 设计:为什么 AI 代理需要为代理而非人类构建的工具

为什么大多数 AI 工具在代理使用时都会失败——以及 Agent-First 设计是什么样子的。在代理时代,CLI 界面、结构化 JSON 输出和无状态认证的核心理念。

by AnyCap

对比图:为人类设计的复杂 GUI 仪表盘 vs 为 AI 代理设计的简洁终端与结构化 JSON 输出 — 深紫色渐变

大多数 AI 工具是为人类设计的。它们拥有图形界面、按钮、下拉菜单和视觉反馈,假定另一端是一个人在点击和滚动。

AI 代理不会点击,也不会滚动。它们读取结构化文本并发起 API 调用。

这种错配——人类设计的工具被非人类代理使用——在代理技术栈的每一层都产生了摩擦。解决方案是一种被称为 Agent-First 设计的设计哲学:构建专为代理消费而设计的工具,而不仅仅是供人类使用。


GUI 问题:为什么人类界面会让代理失效

当代理尝试使用为人类设计的工具时,会遇到三个问题:

1. 视觉依赖

人类看到按钮就会点击。代理看到的是 HTML 标记,必须判断哪个元素触发哪个动作。即使具备视觉能力的模型,解析为人类眼睛设计的界面也是缓慢、易错且消耗大量 token 的。

2. 有状态会话

人类工具假定持久会话。你登录一次,保持登录状态,然后浏览多个页面。代理在短暂环境中运行——每次会话都是全新开始的。通过为人类设计的 Web 流程重新认证是非常脆弱的。

3. 非结构化输出

人类工具返回包含布局、图像和交互元素的富 HTML 页面。代理需要结构化数据——具有可预测模式的 JSON 对象——来做出决策。解析 HTML 提取数据是一个已解决的问题,但这本不该是必需的。


Agent-First 设计是什么样的

一个 Agent-First 工具有四个特征:

1. 终端原生界面

主要界面是 CLI,而非 GUI。代理调用命令,而非点击按钮。

# Agent-First
anycap image generate --model nano-banana-2 --prompt "hero image" -o hero.png

# 等效的人类优先方式
打开浏览器 → 访问网站 → 点击"生成" → 输入提示词 → 点击"创建" → 等待 → 下载

CLI 版本只需一条命令。人类版本需要 7 个步骤。对代理而言,CLI 版本不仅更快——它是唯一能可靠运行的版本。

2. 结构化、可预测的输出

每个响应都是机器可读的 JSON。模式在所有能力之间保持一致。代理不需要处理来自五个不同工具的五种不同响应格式。

{
  "status": "success",
  "local_path": "/workspace/hero.png",
  "url": "https://cdn.example.com/hero.png",
  "model": "nano-banana-2",
  "dimensions": "1024x1024"
}

无需 HTML 解析,无需正则提取,无需猜测。

3. 无状态认证

代理认证一次,凭证持久有效。无需浏览器 Cookie,无需需要人类重新登录的会话超时。只需一个在短暂环境中随处可用的 token 或 API 密钥。

4. 可发现的命令

代理可以发现哪些工具可用,而无需阅读为人类编写的文档。帮助命令或模式端点返回可用命令、参数及预期输出格式——全部结构化。


为什么大多数 AI 工具在这点上做错了

AI 行业对视觉界面存在偏见。这可以理解——视觉效果能卖产品。投资者想看仪表盘,用户想看进度条。

但代理不关心仪表盘。它们关心的是延迟、可靠性和结构化输出。当消费者是代理时,每一个为人类眼睛设计的 UI 像素都是额外负担。

这就是 API 优先的公司在代理时代具有优势的原因。它们的工具一开始就是为程序化访问而设计的。但即使是 API 优先的工具也常常不足:它们返回不同的模式,使用不同的认证方法,有不同的速率限制行为。

Agent-First 设计更进一步:它统一了所有能力的接口。代理只需学习一种模式,到处适用。


人类优先设计的 Token 成本

Agent-First 设计不仅仅是一种哲学——它对代理性能和成本有着可衡量的影响。

考虑使用捆绑式能力运行时(Agent-First)的代理与使用五个独立 MCP 服务器(包装为工具的人类优先设计)的代理之间的差异:

Agent-First 运行时 5 个独立 MCP 服务器
工具描述(token) ~2,000 ~24,000
需处理的输出格式 1 种(JSON) 5 种(JSON、文本、二进制、HTML)
认证流程 1 个 5 个
需记忆的命令 5 条(一致) 25 条以上(各异)
错误模式 1 种类型 5 种不同类型

仅 token 节省一项——每次会话释放 22,000 个 token——就意味着代理有更多上下文用于实际推理。在 200K 上下文窗口中,这为代码、对话和复杂指令多出了 11% 的空间。


Agent-First 技术栈

Agent-First 开发技术栈有三条原则:

  1. CLI 优先于 GUI。 每项能力通过终端命令暴露。无需浏览器自动化,无需截图解析,无需元素选择。

  2. JSON 优先于 HTML。 每个输出都是结构化的。代理永远不需要"弄清楚"响应是什么意思。模式会告诉它。

  3. 一优先于多。 一种凭证,一种输出格式,一种错误处理模式。代理学习一次,到处适用。


这对工具构建者意味着什么

如果你正在为 AI 代理时代构建工具:

  • 先发布 CLI 二进制文件,再发布仪表盘。 代理无法使用仪表盘。
  • 返回 JSON,而非格式化文本。 代理解析 JSON。人类两者都能读。
  • 使用统一的认证模型。 人类用 OAuth。代理用 API 密钥或设备流。
  • 为机器编写文档。 一个返回结构化输出的 --help 标志胜过文档页面。
  • 以命令而非工作流的思维来思考。 "生成图像"是一个命令。"点击这里,再点击那里"是人类的工作流。

转变已经开始

Claude Code、Codex CLI、Windsurf 和 Cursor 都在终端或终端式环境中运行。它们出于必要性而采用 Agent-First——在沙箱化虚拟机中没有 GUI。

但它们连接的工具尚未跟上。大多数 MCP 服务器是围绕人类设计的 API 的包装器。大多数图像生成工具假定是人类在上传参考照片。大多数存储解决方案期望基于浏览器的上传流程。

Agent-First 设计是下一波浪潮。不是因为它时髦,而是因为代理确实无法使用其他任何东西。


最后更新:2026 年 5 月