DeepSeek V4 Kini Hadir: Bobot, Benchmark, dan Kesan Pertama
Bobot lengkap DeepSeek V4 kini tersedia di HuggingFace di bawah lisensi Apache 2.0. Setelah berbulan-bulan makalah arsitektur, pratinjau V4 Lite, dan antusiasme komunitas yang terus meningkat, model lengkapnya akhirnya dirilis.
Berikut adalah apa yang ditunjukkan data awal, dan apa yang perlu diketahui pengembang untuk mulai menggunakannya.
Yang Baru Dirilis
Rilis ini mencakup:
- Bobot V4 lengkap (~1 triliun total parameter, 37 miliar aktif per token melalui Mixture-of-Experts)
- Repositori HuggingFace di bawah Apache 2.0 — penggunaan komersial diizinkan, tanpa batasan penggunaan
- Akses API melalui platform DeepSeek, dengan perkiraan harga sekitar $0,30 per juta token input
Lisensi Apache 2.0 ini sangat berarti. Berbeda dengan beberapa rilis open-weight terbaru yang memiliki batasan non-komersial atau pembatasan bidang penggunaan, V4 dapat di-deploy secara komersial, di-fine-tune, dan didistribusikan ulang. Bagi tim enterprise dan startup yang membangun di atas model terbuka, ini adalah pilihan paling permisif di tingkat kemampuan ini.
Hasil Benchmark Awal
Evaluasi independen dimulai dalam hitungan jam setelah bobot dirilis. Berikut hasil pertama yang tersedia:
Coding (HumanEval / LiveCodeBench):
Pengujian awal menempatkan V4 di atas V3 pada LiveCodeBench, konsisten dengan hasil ablasi makalah penskalaan MoE yang menunjukkan peningkatan performa pada tugas coding dengan konfigurasi expert baru.
Matematika (MATH-500):
Hasilnya kompetitif dengan GPT-4o dan Claude 3.7 Sonnet pada benchmark matematika standar. Spesialisasi per-expert tampaknya menghasilkan peningkatan terukur pada tugas penalaran terstruktur.
Pengambilan Konteks Panjang (Needle-in-a-Haystack):
Ini adalah pengujian utama untuk V4. Evaluasi independen awal Engram pada 1 juta token menghasilkan angka akurasi di kisaran 93–96% — sedikit di bawah klaim internal DeepSeek sebesar 97%, namun jauh di atas baseline 84,2% untuk attention standar.
Benchmark internal 97% belum sepenuhnya direplikasi secara independen. Kisaran 93–96% adalah angka yang lebih dapat dipertahankan saat ini dan tetap merupakan peningkatan signifikan dibandingkan pendekatan alternatif.
Performa Engram di Lapangan
Engram — mekanisme memori kondisional V4 untuk pengambilan konteks panjang — adalah fitur arsitektur yang paling banyak menarik minat developer sebelum rilis. Pengujian komunitas awal pada tugas konteks panjang yang realistis (analisis codebase lengkap, review kontrak panjang, recall percakapan panjang) secara umum positif.
Observasi utama dari penguji awal:
- Review kode seluruh repositori: V4 dengan tepat mengidentifikasi dependensi lintas file dan menampilkan konteks relevan yang terlewatkan GPT-4o pada kedalaman token yang sama
- Analisis dokumen 500 ribu token: Kualitas pengambilan jauh lebih konsisten dibanding V3 pada panjang ini
- Latensi: Latensi first-token pada hosted API sebanding dengan V3 untuk konteks standar; permintaan konteks panjang lebih lambat dari yang pendek, seperti yang diharapkan, tetapi perlambatannya tidak separah pendekatan full-attention konvensional
Overhead inferensi mekanisme Engram — pertanyaan yang dibiarkan terbuka oleh makalah arsitektur — tampaknya moderat dalam praktiknya.
Harga dan Artinya
Dengan harga ~$0,30 per juta token input, V4 kira-kira:
- 16× lebih murah dari GPT-5.5 ($5/MTok input)
- Sebanding dengan harga tier GPT-4o Mini untuk beberapa penyedia
- Lebih murah dari harga peluncuran V3 di sebagian besar platform inferensi
Untuk workflow agentik di mana satu tugas mungkin mengonsumsi ratusan ribu token di berbagai panggilan, perbedaan harga ini bukan sekadar kosmetik. Loop agen yang menghabiskan $15 di GPT-5.5 hanya menghabiskan di bawah $1 di V4 dengan harga resmi.
Catatan: inferensi yang di-hosting sendiri dari model MoE 1 triliun parameter membutuhkan infrastruktur yang signifikan. Angka $0,30 berlaku untuk hosted API. Self-hosting dalam skala ini hanya praktis bagi tim dengan cluster GPU besar.
Mengakses V4 Melalui AnyCap
Jika Anda ingin menggunakan DeepSeek V4 tanpa mengelola akun penyedia atau infrastruktur secara langsung, API model terpadu AnyCap mengarahkan ke V4 bersama GPT-5.5, Claude 4, Gemini 3.1, dan model frontier lainnya — semuanya melalui satu endpoint.
import anycap
client = anycap.Client()
response = client.generate(
model="deepseek-v4",
messages=[{"role": "user", "content": "Review this codebase for security issues..."}],
max_tokens=4096
)
print(response.content)
AnyCap menangani failover penyedia, manajemen rate limit, dan penagihan terpadu — berguna bagi tim yang ingin membandingkan V4 dengan model lain tanpa membangun ulang integrasi untuk setiap penyedia.
Yang Perlu Diperhatikan dalam 48 Jam ke Depan
Benchmark independen yang paling bermakna biasanya tiba 24–72 jam setelah rilis bobot, ketika laboratorium evaluasi yang lebih besar menyelesaikan pengujian mereka:
- LMSYS Chatbot Arena — penilaian preferensi manusia terhadap GPT-5.5 dan Claude 4
- BigCode EvalPlus — suite benchmark coding komprehensif
- Pengujian adversarial konteks panjang — stress test yang dirancang untuk mengungkap kelemahan kualitas pengambilan yang terlewat oleh benchmark sintetis
Bagi developer yang membuat keputusan arsitektur, menunggu hasil ini sebelum menggunakan V4 untuk kasus penggunaan konteks panjang di produksi adalah langkah yang bijaksana.
→ Penjelasan Memori Engram DeepSeek V4
→ DeepSeek V4: Panduan Lengkap Developer
→ Tanggal Rilis DeepSeek V4: Semua yang Kami Pantau