
A maioria das ferramentas de IA é projetada para humanos. Têm interfaces gráficas, botões, menus suspensos e feedback visual. Assumem que há uma pessoa do outro lado, a clicar e a fazer scroll.
Os agentes de IA não clicam. Não fazem scroll. Leem texto estruturado e fazem chamadas de API.
Este desajuste — ferramentas concebidas para humanos a serem usadas por agentes não humanos — cria fricção em cada camada da stack de agentes. A solução é uma filosofia de design chamada design agent-first: construir ferramentas que são projetadas para consumo por agentes, não apenas para uso humano.
O Problema da GUI: Porque as Interfaces Humanas Quebram os Agentes
Quando um agente tenta usar uma ferramenta desenhada para humanos, encontra três problemas:
1. Dependência Visual
Um humano vê um botão e clica nele. Um agente vê marcação HTML e tem de descobrir qual elemento aciona qual ação. Mesmo com modelos com capacidade de visão, analisar interfaces projetadas para olhos humanos é lento, propenso a erros e caro em tokens.
2. Sessões com Estado
As ferramentas para humanos assumem sessões persistentes. Faz-se login uma vez, permanece-se autenticado e navega-se por várias páginas. Os agentes executam em ambientes efémeros — cada sessão começa do zero. Reautenticar através de um fluxo web projetado para humanos é frágil.
3. Saída Não Estruturada
As ferramentas para humanos devolvem páginas HTML ricas com layouts, imagens e elementos interativos. Um agente precisa de dados estruturados — objetos JSON com esquemas previsíveis — para tomar decisões. Analisar HTML para extrair dados é um problema resolvido, mas não deveria ser necessário.
Como é o Design Agent-First
Uma ferramenta agent-first tem quatro características:
1. Interface Nativa de Terminal
A interface principal é um CLI, não um GUI. O agente chama comandos, não clica em botões.
# Agent-first
anycap image generate --model nano-banana-2 --prompt "hero image" -o hero.png
# Equivalente human-first
Abrir navegador → Ir ao site → Clicar "Gerar" → Escrever prompt → Clicar "Criar" → Aguardar → Descarregar
A versão CLI é um comando. A versão humana são 7 passos. Para um agente, a versão CLI não é apenas mais rápida — é a única versão que funciona de forma fiável.
2. Saída Estruturada e Previsível
Cada resposta é JSON legível por máquina. O esquema é consistente em todas as capacidades. O agente não precisa de lidar com cinco formatos de resposta diferentes de cinco ferramentas diferentes.
{
"status": "success",
"local_path": "/workspace/hero.png",
"url": "https://cdn.example.com/hero.png",
"model": "nano-banana-2",
"dimensions": "1024x1024"
}
Sem análise de HTML. Sem extração por regex. Sem adivinhação.
3. Autenticação Sem Estado
O agente autentica-se uma vez e a credencial persiste. Sem cookies de navegador. Sem timeouts de sessão que exijam novo login humano. Apenas um token ou chave de API que funciona em ambientes efémeros.
4. Comandos Detetáveis
O agente pode descobrir que ferramentas estão disponíveis sem ler documentação escrita para humanos. Um comando de ajuda ou endpoint de esquema devolve os comandos disponíveis, os seus parâmetros e o formato de saída esperado — tudo estruturado.
Porque a Maioria das Ferramentas de IA Erra Nisto
A indústria de IA tem um viés para interfaces visuais. É compreensível — os visuais vendem produtos. Os investidores querem ver dashboards. Os utilizadores querem ver barras de progresso.
Mas os agentes não se importam com dashboards. Importam-se com latência, fiabilidade e saída estruturada. Cada pixel de UI projetado para olhos humanos é sobrecarga quando o consumidor é um agente.
É por isso que as empresas API-first têm vantagem na era dos agentes. As suas ferramentas já foram projetadas para acesso programático. Mas mesmo as ferramentas API-first frequentemente ficam aquém: devolvem esquemas diferentes, usam métodos de autenticação diferentes e têm comportamentos de limite de taxa diferentes.
O design agent-first vai um passo além: unifica a interface em todas as capacidades. O agente aprende um padrão e aplica-o em todo o lado.
O Custo em Tokens do Design Human-First
O design agent-first não é apenas uma filosofia — tem impacto mensurável no desempenho e custo dos agentes.
Considere a diferença entre um agente a usar um runtime de capacidades integrado (agent-first) versus um agente a usar cinco servidores MCP separados (design human-first empacotado como ferramentas):
| Runtime Agent-First | 5 Servidores MCP Separados | |
|---|---|---|
| Descrições de ferramentas (tokens) | ~2.000 | ~24.000 |
| Formatos de saída a processar | 1 (JSON) | 5 (JSON, texto, binário, HTML) |
| Fluxos de autenticação | 1 | 5 |
| Comandos a memorizar | 5 (consistentes) | 25+ (variados) |
| Padrões de erro | 1 tipo | 5 tipos diferentes |
Só a poupança de tokens — 22.000 tokens libertados por sessão — significa que o agente tem mais contexto para raciocínio real. Numa janela de contexto de 200K, isso representa mais 11% de espaço para código, conversa e instruções complexas.
A Stack Agent-First
Uma stack de desenvolvimento agent-first tem três princípios:
CLI sobre GUI. Cada capacidade é exposta através de comandos de terminal. Sem automação de navegador, sem análise de screenshots, sem seleção de elementos.
JSON sobre HTML. Cada saída é estruturada. O agente nunca tem de "descobrir" o que uma resposta significa. O esquema diz-lhe.
Um sobre Muitos. Uma credencial, um formato de saída, um padrão de tratamento de erros. O agente aprende-o uma vez e aplica-o em todo o lado.
O Que Isto Significa para os Criadores de Ferramentas
Se está a construir ferramentas para a era dos agentes de IA:
- Lance primeiro um binário CLI, dashboard depois. Os agentes não podem usar dashboards.
- Devolva JSON, não texto formatado. Os agentes analisam JSON. Os humanos conseguem ler ambos.
- Use um modelo de autenticação. OAuth para humanos. Chaves de API ou device flow para agentes.
- Documente para máquinas. Uma flag
--helpque devolve saída estruturada supera uma página de docs. - Pense em comandos, não em fluxos de trabalho. "Gerar imagem" é um comando. "Clique aqui, depois clique ali" é um fluxo de trabalho humano.
A Mudança Já Começou
Claude Code, Codex CLI, Windsurf e Cursor todos executam em ambientes de terminal ou adjacentes ao terminal. São agent-first por necessidade — não há GUI numa VM em sandbox.
Mas as ferramentas às quais se ligam ainda não acompanharam. A maioria dos servidores MCP são wrappers em torno de APIs projetadas para humanos. A maioria das ferramentas de geração de imagens assume que um humano está a carregar uma foto de referência. A maioria das soluções de armazenamento espera um fluxo de upload baseado em navegador.
O design agent-first é a próxima vaga. Não porque está na moda, mas porque os agentes literalmente não conseguem usar mais nada.
Última atualização: maio de 2026