Model AI Terbaru OpenAI Makin Pintar, Tapi Sering Ngaco? Ini Faktanya!

chatGPT
chatGPT
Sumber :

VIVATechnoChatGPT OpenAI baru saja merilis dua model AI teranyar yang dirancang khusus untuk meningkatkan kemampuan penalaran, yaitu o3 dan o4-mini. Secara teori, dua model ini seharusnya lebih pintar dalam menjawab pertanyaan kompleks.

Tapi, ada satu hal yang bikin para peneliti garuk kepala, kedua model ini justru lebih sering “berhalusinasi” alias memberikan jawaban yang tidak akurat. Jadi, apakah ini sebuah kemajuan atau justru langkah mundur?Berikut penjelasan yang telah dirangkum dari kanal YouTube The AI Daily Brief yang berjudul OpenAI Drops Most Important New Feature of 2025 dan juga laman Tech Crunch.

 

Lebih Cerdas, Tapi Lebih Sering Salah?

Model o3 dan o4-mini memang dirancang untuk tugas-tugas penalaran tingkat tinggi, misalnya soal logika, matematika, atau pemrograman. Namun, dalam uji coba internal OpenAI menggunakan benchmark PersonQA, hasilnya agak mengejutkan.  

- o3 berhalusinasi dalam 33% pertanyaan

- o4-mini bahkan mencapai 48%

Sebagai perbandingan, model sebelumnya seperti o1 dan o3-mini hanya mencatat halusinasi 16% dan 14,8%.

 

Kenapa Bisa Begitu?

Tim OpenAI belum menemukan jawaban pasti, tapi salah satu dugaan mereka adalah teknik pelatihan berbasis reinforcement learning yang digunakan justru memperkuat pola-pola respons yang meyakinkan, tapi bisa saja keliru. Akibatnya, model jadi makin percaya diri, meski jawabannya salah.

 

Contoh Halusinasi Nyata

Organisasi riset independen, Transluce, menemukan bahwa o3 pernah mengklaim bisa menjalankan kode di luar platform ChatGPT, padahal itu jelas tidak mungkin. Ini semacam 'halu versi AI' yang bisa menyesatkan pengguna.

 

Dampaknya? Gak Bisa Dipakai Sembarangan 

Meski model o3 dan o4-mini bisa sangat berguna dalam beberapa konteks, seperti pemrograman atau brainstorming, tingkat kesalahan ini berbahaya kalau digunakan di ranah yang butuh akurasi tinggi, seperti bidang medis, hukum, atau pendidikan.(*)