Desain Agent-First: Mengapa Agen AI Membutuhkan Alat yang Dibangun untuk Agen, Bukan Manusia

Mengapa sebagian besar alat AI gagal saat digunakan oleh agen — dan seperti apa desain agent-first. Argumen untuk antarmuka CLI, output JSON terstruktur, dan autentikasi tanpa status di era agen.

by AnyCap

Perbandingan yang menunjukkan dasbor GUI kompleks untuk manusia versus terminal bersih dengan output JSON terstruktur yang dirancang untuk agen AI — gradien ungu gelap

Sebagian besar alat AI dirancang untuk manusia. Alat-alat ini memiliki antarmuka grafis, tombol, menu dropdown, dan umpan balik visual. Mereka berasumsi ada orang di sisi lain, yang mengklik dan menggulir.

Agen AI tidak mengklik. Mereka tidak menggulir. Mereka membaca teks terstruktur dan melakukan panggilan API.

Ketidakcocokan ini — alat yang dirancang manusia digunakan oleh agen non-manusia — menciptakan gesekan di setiap lapisan tumpukan agen. Solusinya adalah filosofi desain yang disebut desain agent-first: membangun alat yang dirancang untuk dikonsumsi oleh agen, bukan hanya digunakan oleh manusia.


Masalah GUI: Mengapa Antarmuka Manusia Merusak Agen

Ketika agen mencoba menggunakan alat yang dirancang untuk manusia, ia menghadapi tiga masalah:

1. Ketergantungan Visual

Manusia melihat tombol dan mengkliknya. Agen melihat markup HTML dan harus mencari tahu elemen mana yang memicu tindakan mana. Bahkan dengan model berkemampuan visi, mengurai antarmuka yang dirancang untuk mata manusia itu lambat, rawan kesalahan, dan mahal dalam hal token.

2. Sesi Berstatus

Alat manusia mengasumsikan sesi persisten. Anda login sekali, tetap login, dan menavigasi melalui beberapa halaman. Agen berjalan di lingkungan sementara — setiap sesi dimulai dari awal. Mengautentikasi ulang melalui alur web yang dirancang untuk manusia itu rapuh.

3. Output Tidak Terstruktur

Alat manusia mengembalikan halaman HTML kaya dengan tata letak, gambar, dan elemen interaktif. Agen membutuhkan data terstruktur — objek JSON dengan skema yang dapat diprediksi — untuk membuat keputusan. Mengurai HTML untuk mengekstrak data adalah masalah yang sudah terpecahkan, tetapi seharusnya tidak diperlukan.


Seperti Apa Desain Agent-First

Alat agent-first memiliki empat karakteristik:

1. Antarmuka Native Terminal

Antarmuka utamanya adalah CLI, bukan GUI. Agen memanggil perintah, bukan mengklik tombol.

# Agent-first
anycap image generate --model nano-banana-2 --prompt "hero image" -o hero.png

# Setara human-first
Buka browser → Pergi ke situs web → Klik "Generate" → Ketik prompt → Klik "Create" → Tunggu → Unduh

Versi CLI adalah satu perintah. Versi manusia adalah 7 langkah. Bagi agen, versi CLI bukan hanya lebih cepat — ini adalah satu-satunya versi yang bekerja dengan andal.

2. Output Terstruktur dan Dapat Diprediksi

Setiap respons adalah JSON yang dapat dibaca mesin. Skemanya konsisten di semua kapabilitas. Agen tidak perlu menangani lima format respons berbeda dari lima alat berbeda.

{
  "status": "success",
  "local_path": "/workspace/hero.png",
  "url": "https://cdn.example.com/hero.png",
  "model": "nano-banana-2",
  "dimensions": "1024x1024"
}

Tanpa penguraian HTML. Tanpa ekstraksi regex. Tanpa menebak.

3. Autentikasi Tanpa Status

Agen mengautentikasi sekali dan kredensialnya bertahan. Tanpa cookie browser. Tanpa batas waktu sesi yang memerlukan login ulang manusia. Hanya token atau kunci API yang berfungsi di seluruh lingkungan sementara.

4. Perintah yang Dapat Ditemukan

Agen dapat menemukan alat apa yang tersedia tanpa membaca dokumentasi yang ditulis untuk manusia. Perintah bantuan atau endpoint skema mengembalikan perintah yang tersedia, parameternya, dan format output yang diharapkan — semuanya terstruktur.


Mengapa Sebagian Besar Alat AI Salah dalam Hal Ini

Industri AI memiliki bias terhadap antarmuka visual. Ini bisa dimengerti — visual menjual produk. Investor ingin melihat dasbor. Pengguna ingin melihat bilah kemajuan.

Tetapi agen tidak peduli dengan dasbor. Mereka peduli dengan latensi, keandalan, dan output terstruktur. Setiap piksel UI yang dirancang untuk mata manusia adalah overhead ketika konsumennya adalah agen.

Inilah sebabnya perusahaan API-first memiliki keunggulan di era agen. Alat mereka sudah dirancang untuk akses terprogram. Tetapi bahkan alat API-first sering kali kurang: mereka mengembalikan skema yang berbeda, menggunakan metode autentikasi yang berbeda, dan memiliki perilaku batas kecepatan yang berbeda.

Desain agent-first melangkah lebih jauh: ia menyatukan antarmuka di seluruh kapabilitas. Agen mempelajari satu pola dan menerapkannya di mana-mana.


Biaya Token dari Desain Human-First

Desain agent-first bukan hanya filosofi — ia memiliki dampak terukur pada kinerja dan biaya agen.

Pertimbangkan perbedaan antara agen yang menggunakan runtime kapabilitas terpadu (agent-first) versus agen yang menggunakan lima server MCP terpisah (desain human-first yang dibungkus sebagai alat):

Runtime Agent-First 5 Server MCP Terpisah
Deskripsi alat (token) ~2.000 ~24.000
Format output yang ditangani 1 (JSON) 5 (JSON, teks, biner, HTML)
Alur autentikasi 1 5
Perintah yang diingat 5 (konsisten) 25+ (bervariasi)
Pola kesalahan 1 jenis 5 jenis berbeda

Penghematan token saja — 22.000 token dibebaskan per sesi — berarti agen memiliki lebih banyak konteks untuk penalaran aktual. Dalam jendela konteks 200K, itu adalah 11% lebih banyak ruang untuk kode, percakapan, dan instruksi kompleks.


Tumpukan Agent-First

Tumpukan pengembangan agent-first memiliki tiga prinsip:

  1. CLI di atas GUI. Setiap kapabilitas diekspos melalui perintah terminal. Tanpa otomatisasi browser, tanpa penguraian tangkapan layar, tanpa pemilihan elemen.

  2. JSON di atas HTML. Setiap output terstruktur. Agen tidak pernah harus "mencari tahu" apa arti sebuah respons. Skema yang memberitahunya.

  3. Satu di atas Banyak. Satu kredensial, satu format output, satu pola penanganan kesalahan. Agen mempelajarinya sekali dan menerapkannya di mana-mana.


Apa Artinya bagi Pembuat Alat

Jika Anda membangun alat untuk era agen AI:

  • Kirim biner CLI terlebih dahulu, dasbor kemudian. Agen tidak bisa menggunakan dasbor.
  • Kembalikan JSON, bukan teks terformat. Agen mengurai JSON. Manusia bisa membaca keduanya.
  • Gunakan satu model autentikasi. OAuth untuk manusia. Kunci API atau device flow untuk agen.
  • Dokumentasikan untuk mesin. Flag --help yang mengembalikan output terstruktur mengalahkan halaman dokumentasi.
  • Berpikir dalam perintah, bukan alur kerja. "Hasilkan gambar" adalah perintah. "Klik di sini, lalu klik di sana" adalah alur kerja manusia.

Pergeseran Sudah Dimulai

Claude Code, Codex CLI, Windsurf, dan Cursor semuanya berjalan di lingkungan terminal atau dekat terminal. Mereka agent-first karena kebutuhan — tidak ada GUI di VM sandbox.

Tetapi alat yang mereka hubungkan belum mengejar. Sebagian besar server MCP adalah pembungkus di sekitar API yang dirancang untuk manusia. Sebagian besar alat pembuatan gambar mengasumsikan manusia sedang mengunggah foto referensi. Sebagian besar solusi penyimpanan mengharapkan alur unggah berbasis browser.

Desain agent-first adalah gelombang berikutnya. Bukan karena tren, tetapi karena agen benar-benar tidak bisa menggunakan yang lain.


Terakhir diperbarui: Mei 2026