evaluasi benchmark - Apiyi.com Blog

Analisis Lengkap Tolok Ukur Claude Opus 4.7: Data Uji Coba Nyata yang Mengungguli GPT-5.4 di 7 Papan Peringkat Utama

ByAPIYI - Stable and affordable AI API 2026年 4月 19日

Catatan Penulis: Interpretasi mendalam benchmark Claude Opus 4.7: SWE-bench Verified 87,6%, SWE-bench Pro 64,3%, GPQA Diamond 94,2%, mengungguli GPT-5.4 dan Gemini 3.1 Pro, dilengkapi dengan praktik pemanggilan API. Anthropic secara resmi merilis Claude Opus 4.7 pada 16 April 2026, yang berhasil memimpin di 7 dari 10 tolok ukur utama. Artikel ini akan mengulas data inti…