Design Agent-First: Porque os Agentes de IA Precisam de Ferramentas Construídas para Agentes, Não para Humanos

Porque a maioria das ferramentas de IA falha quando usada por agentes — e como é o design agent-first. O caso para interfaces CLI, saída JSON estruturada e autenticação sem estado na era dos agentes.

by AnyCap

Comparação entre um painel GUI complexo para humanos e um terminal limpo com saída JSON estruturada projetada para agentes de IA — gradiente roxo escuro

A maioria das ferramentas de IA é projetada para humanos. Têm interfaces gráficas, botões, menus suspensos e feedback visual. Assumem que há uma pessoa do outro lado, a clicar e a fazer scroll.

Os agentes de IA não clicam. Não fazem scroll. Leem texto estruturado e fazem chamadas de API.

Este desajuste — ferramentas concebidas para humanos a serem usadas por agentes não humanos — cria fricção em cada camada da stack de agentes. A solução é uma filosofia de design chamada design agent-first: construir ferramentas que são projetadas para consumo por agentes, não apenas para uso humano.


O Problema da GUI: Porque as Interfaces Humanas Quebram os Agentes

Quando um agente tenta usar uma ferramenta desenhada para humanos, encontra três problemas:

1. Dependência Visual

Um humano vê um botão e clica nele. Um agente vê marcação HTML e tem de descobrir qual elemento aciona qual ação. Mesmo com modelos com capacidade de visão, analisar interfaces projetadas para olhos humanos é lento, propenso a erros e caro em tokens.

2. Sessões com Estado

As ferramentas para humanos assumem sessões persistentes. Faz-se login uma vez, permanece-se autenticado e navega-se por várias páginas. Os agentes executam em ambientes efémeros — cada sessão começa do zero. Reautenticar através de um fluxo web projetado para humanos é frágil.

3. Saída Não Estruturada

As ferramentas para humanos devolvem páginas HTML ricas com layouts, imagens e elementos interativos. Um agente precisa de dados estruturados — objetos JSON com esquemas previsíveis — para tomar decisões. Analisar HTML para extrair dados é um problema resolvido, mas não deveria ser necessário.


Como é o Design Agent-First

Uma ferramenta agent-first tem quatro características:

1. Interface Nativa de Terminal

A interface principal é um CLI, não um GUI. O agente chama comandos, não clica em botões.

# Agent-first
anycap image generate --model nano-banana-2 --prompt "hero image" -o hero.png

# Equivalente human-first
Abrir navegador → Ir ao site → Clicar "Gerar" → Escrever prompt → Clicar "Criar" → Aguardar → Descarregar

A versão CLI é um comando. A versão humana são 7 passos. Para um agente, a versão CLI não é apenas mais rápida — é a única versão que funciona de forma fiável.

2. Saída Estruturada e Previsível

Cada resposta é JSON legível por máquina. O esquema é consistente em todas as capacidades. O agente não precisa de lidar com cinco formatos de resposta diferentes de cinco ferramentas diferentes.

{
  "status": "success",
  "local_path": "/workspace/hero.png",
  "url": "https://cdn.example.com/hero.png",
  "model": "nano-banana-2",
  "dimensions": "1024x1024"
}

Sem análise de HTML. Sem extração por regex. Sem adivinhação.

3. Autenticação Sem Estado

O agente autentica-se uma vez e a credencial persiste. Sem cookies de navegador. Sem timeouts de sessão que exijam novo login humano. Apenas um token ou chave de API que funciona em ambientes efémeros.

4. Comandos Detetáveis

O agente pode descobrir que ferramentas estão disponíveis sem ler documentação escrita para humanos. Um comando de ajuda ou endpoint de esquema devolve os comandos disponíveis, os seus parâmetros e o formato de saída esperado — tudo estruturado.


Porque a Maioria das Ferramentas de IA Erra Nisto

A indústria de IA tem um viés para interfaces visuais. É compreensível — os visuais vendem produtos. Os investidores querem ver dashboards. Os utilizadores querem ver barras de progresso.

Mas os agentes não se importam com dashboards. Importam-se com latência, fiabilidade e saída estruturada. Cada pixel de UI projetado para olhos humanos é sobrecarga quando o consumidor é um agente.

É por isso que as empresas API-first têm vantagem na era dos agentes. As suas ferramentas já foram projetadas para acesso programático. Mas mesmo as ferramentas API-first frequentemente ficam aquém: devolvem esquemas diferentes, usam métodos de autenticação diferentes e têm comportamentos de limite de taxa diferentes.

O design agent-first vai um passo além: unifica a interface em todas as capacidades. O agente aprende um padrão e aplica-o em todo o lado.


O Custo em Tokens do Design Human-First

O design agent-first não é apenas uma filosofia — tem impacto mensurável no desempenho e custo dos agentes.

Considere a diferença entre um agente a usar um runtime de capacidades integrado (agent-first) versus um agente a usar cinco servidores MCP separados (design human-first empacotado como ferramentas):

Runtime Agent-First 5 Servidores MCP Separados
Descrições de ferramentas (tokens) ~2.000 ~24.000
Formatos de saída a processar 1 (JSON) 5 (JSON, texto, binário, HTML)
Fluxos de autenticação 1 5
Comandos a memorizar 5 (consistentes) 25+ (variados)
Padrões de erro 1 tipo 5 tipos diferentes

Só a poupança de tokens — 22.000 tokens libertados por sessão — significa que o agente tem mais contexto para raciocínio real. Numa janela de contexto de 200K, isso representa mais 11% de espaço para código, conversa e instruções complexas.


A Stack Agent-First

Uma stack de desenvolvimento agent-first tem três princípios:

  1. CLI sobre GUI. Cada capacidade é exposta através de comandos de terminal. Sem automação de navegador, sem análise de screenshots, sem seleção de elementos.

  2. JSON sobre HTML. Cada saída é estruturada. O agente nunca tem de "descobrir" o que uma resposta significa. O esquema diz-lhe.

  3. Um sobre Muitos. Uma credencial, um formato de saída, um padrão de tratamento de erros. O agente aprende-o uma vez e aplica-o em todo o lado.


O Que Isto Significa para os Criadores de Ferramentas

Se está a construir ferramentas para a era dos agentes de IA:

  • Lance primeiro um binário CLI, dashboard depois. Os agentes não podem usar dashboards.
  • Devolva JSON, não texto formatado. Os agentes analisam JSON. Os humanos conseguem ler ambos.
  • Use um modelo de autenticação. OAuth para humanos. Chaves de API ou device flow para agentes.
  • Documente para máquinas. Uma flag --help que devolve saída estruturada supera uma página de docs.
  • Pense em comandos, não em fluxos de trabalho. "Gerar imagem" é um comando. "Clique aqui, depois clique ali" é um fluxo de trabalho humano.

A Mudança Já Começou

Claude Code, Codex CLI, Windsurf e Cursor todos executam em ambientes de terminal ou adjacentes ao terminal. São agent-first por necessidade — não há GUI numa VM em sandbox.

Mas as ferramentas às quais se ligam ainda não acompanharam. A maioria dos servidores MCP são wrappers em torno de APIs projetadas para humanos. A maioria das ferramentas de geração de imagens assume que um humano está a carregar uma foto de referência. A maioria das soluções de armazenamento espera um fluxo de upload baseado em navegador.

O design agent-first é a próxima vaga. Não porque está na moda, mas porque os agentes literalmente não conseguem usar mais nada.


Última atualização: maio de 2026