Model AI Baru OpenAI, Punya Kemampuan Penalaran Super Canggih Mampu Selesaikan Soal Matematika Tingkat Tinggi
- id.pinterest.com
Sementara itu, o3-mini, versi yang lebih ringkas dan ekonomis, juga menunjukkan performa membanggakan.
Dalam mode penalaran "High", model ini mencapai skor 83,6 persen pada AIME 2024, mengalahkan o1-mini yang hanya mencapai 63,6 persen.
Keunggulan o3 tidak terbatas pada matematika saja. Dalam pengujian soal sains tingkat universitas GPQA Diamond, model ini mencapai skor 87,7 persen.
O3 juga menunjukkan keunggulan di berbagai benchmark populer, termasuk SWE-Bench Verified dengan 22,8 poin dan Codeforces dengan 2.727 poin.
Yang lebih mengesankan, o3 menunjukkan kemampuan luar biasa dalam pengujian Artificial General Intelligence melalui ARC-AGI.
Model ini mencapai skor 76 persen dalam mode "Low" dan 88 persen dalam mode "High", jauh melampaui o1 yang hanya mencapai 20-30 persen.
Meski unggul dalam akurasi, o3 membutuhkan waktu pemrosesan lebih lama dibandingkan GPT-4o.