
Sebagian besar alat AI dirancang untuk manusia. Alat-alat ini memiliki antarmuka grafis, tombol, menu dropdown, dan umpan balik visual. Mereka berasumsi ada orang di sisi lain, yang mengklik dan menggulir.
Agen AI tidak mengklik. Mereka tidak menggulir. Mereka membaca teks terstruktur dan melakukan panggilan API.
Ketidakcocokan ini — alat yang dirancang manusia digunakan oleh agen non-manusia — menciptakan gesekan di setiap lapisan tumpukan agen. Solusinya adalah filosofi desain yang disebut desain agent-first: membangun alat yang dirancang untuk dikonsumsi oleh agen, bukan hanya digunakan oleh manusia.
Masalah GUI: Mengapa Antarmuka Manusia Merusak Agen
Ketika agen mencoba menggunakan alat yang dirancang untuk manusia, ia menghadapi tiga masalah:
1. Ketergantungan Visual
Manusia melihat tombol dan mengkliknya. Agen melihat markup HTML dan harus mencari tahu elemen mana yang memicu tindakan mana. Bahkan dengan model berkemampuan visi, mengurai antarmuka yang dirancang untuk mata manusia itu lambat, rawan kesalahan, dan mahal dalam hal token.
2. Sesi Berstatus
Alat manusia mengasumsikan sesi persisten. Anda login sekali, tetap login, dan menavigasi melalui beberapa halaman. Agen berjalan di lingkungan sementara — setiap sesi dimulai dari awal. Mengautentikasi ulang melalui alur web yang dirancang untuk manusia itu rapuh.
3. Output Tidak Terstruktur
Alat manusia mengembalikan halaman HTML kaya dengan tata letak, gambar, dan elemen interaktif. Agen membutuhkan data terstruktur — objek JSON dengan skema yang dapat diprediksi — untuk membuat keputusan. Mengurai HTML untuk mengekstrak data adalah masalah yang sudah terpecahkan, tetapi seharusnya tidak diperlukan.
Seperti Apa Desain Agent-First
Alat agent-first memiliki empat karakteristik:
1. Antarmuka Native Terminal
Antarmuka utamanya adalah CLI, bukan GUI. Agen memanggil perintah, bukan mengklik tombol.
# Agent-first
anycap image generate --model nano-banana-2 --prompt "hero image" -o hero.png
# Setara human-first
Buka browser → Pergi ke situs web → Klik "Generate" → Ketik prompt → Klik "Create" → Tunggu → Unduh
Versi CLI adalah satu perintah. Versi manusia adalah 7 langkah. Bagi agen, versi CLI bukan hanya lebih cepat — ini adalah satu-satunya versi yang bekerja dengan andal.
2. Output Terstruktur dan Dapat Diprediksi
Setiap respons adalah JSON yang dapat dibaca mesin. Skemanya konsisten di semua kapabilitas. Agen tidak perlu menangani lima format respons berbeda dari lima alat berbeda.
{
"status": "success",
"local_path": "/workspace/hero.png",
"url": "https://cdn.example.com/hero.png",
"model": "nano-banana-2",
"dimensions": "1024x1024"
}
Tanpa penguraian HTML. Tanpa ekstraksi regex. Tanpa menebak.
3. Autentikasi Tanpa Status
Agen mengautentikasi sekali dan kredensialnya bertahan. Tanpa cookie browser. Tanpa batas waktu sesi yang memerlukan login ulang manusia. Hanya token atau kunci API yang berfungsi di seluruh lingkungan sementara.
4. Perintah yang Dapat Ditemukan
Agen dapat menemukan alat apa yang tersedia tanpa membaca dokumentasi yang ditulis untuk manusia. Perintah bantuan atau endpoint skema mengembalikan perintah yang tersedia, parameternya, dan format output yang diharapkan — semuanya terstruktur.
Mengapa Sebagian Besar Alat AI Salah dalam Hal Ini
Industri AI memiliki bias terhadap antarmuka visual. Ini bisa dimengerti — visual menjual produk. Investor ingin melihat dasbor. Pengguna ingin melihat bilah kemajuan.
Tetapi agen tidak peduli dengan dasbor. Mereka peduli dengan latensi, keandalan, dan output terstruktur. Setiap piksel UI yang dirancang untuk mata manusia adalah overhead ketika konsumennya adalah agen.
Inilah sebabnya perusahaan API-first memiliki keunggulan di era agen. Alat mereka sudah dirancang untuk akses terprogram. Tetapi bahkan alat API-first sering kali kurang: mereka mengembalikan skema yang berbeda, menggunakan metode autentikasi yang berbeda, dan memiliki perilaku batas kecepatan yang berbeda.
Desain agent-first melangkah lebih jauh: ia menyatukan antarmuka di seluruh kapabilitas. Agen mempelajari satu pola dan menerapkannya di mana-mana.
Biaya Token dari Desain Human-First
Desain agent-first bukan hanya filosofi — ia memiliki dampak terukur pada kinerja dan biaya agen.
Pertimbangkan perbedaan antara agen yang menggunakan runtime kapabilitas terpadu (agent-first) versus agen yang menggunakan lima server MCP terpisah (desain human-first yang dibungkus sebagai alat):
| Runtime Agent-First | 5 Server MCP Terpisah | |
|---|---|---|
| Deskripsi alat (token) | ~2.000 | ~24.000 |
| Format output yang ditangani | 1 (JSON) | 5 (JSON, teks, biner, HTML) |
| Alur autentikasi | 1 | 5 |
| Perintah yang diingat | 5 (konsisten) | 25+ (bervariasi) |
| Pola kesalahan | 1 jenis | 5 jenis berbeda |
Penghematan token saja — 22.000 token dibebaskan per sesi — berarti agen memiliki lebih banyak konteks untuk penalaran aktual. Dalam jendela konteks 200K, itu adalah 11% lebih banyak ruang untuk kode, percakapan, dan instruksi kompleks.
Tumpukan Agent-First
Tumpukan pengembangan agent-first memiliki tiga prinsip:
CLI di atas GUI. Setiap kapabilitas diekspos melalui perintah terminal. Tanpa otomatisasi browser, tanpa penguraian tangkapan layar, tanpa pemilihan elemen.
JSON di atas HTML. Setiap output terstruktur. Agen tidak pernah harus "mencari tahu" apa arti sebuah respons. Skema yang memberitahunya.
Satu di atas Banyak. Satu kredensial, satu format output, satu pola penanganan kesalahan. Agen mempelajarinya sekali dan menerapkannya di mana-mana.
Apa Artinya bagi Pembuat Alat
Jika Anda membangun alat untuk era agen AI:
- Kirim biner CLI terlebih dahulu, dasbor kemudian. Agen tidak bisa menggunakan dasbor.
- Kembalikan JSON, bukan teks terformat. Agen mengurai JSON. Manusia bisa membaca keduanya.
- Gunakan satu model autentikasi. OAuth untuk manusia. Kunci API atau device flow untuk agen.
- Dokumentasikan untuk mesin. Flag
--helpyang mengembalikan output terstruktur mengalahkan halaman dokumentasi. - Berpikir dalam perintah, bukan alur kerja. "Hasilkan gambar" adalah perintah. "Klik di sini, lalu klik di sana" adalah alur kerja manusia.
Pergeseran Sudah Dimulai
Claude Code, Codex CLI, Windsurf, dan Cursor semuanya berjalan di lingkungan terminal atau dekat terminal. Mereka agent-first karena kebutuhan — tidak ada GUI di VM sandbox.
Tetapi alat yang mereka hubungkan belum mengejar. Sebagian besar server MCP adalah pembungkus di sekitar API yang dirancang untuk manusia. Sebagian besar alat pembuatan gambar mengasumsikan manusia sedang mengunggah foto referensi. Sebagian besar solusi penyimpanan mengharapkan alur unggah berbasis browser.
Desain agent-first adalah gelombang berikutnya. Bukan karena tren, tetapi karena agen benar-benar tidak bisa menggunakan yang lain.
Terakhir diperbarui: Mei 2026