MMLU Ölüyor mu? AI Modelleri İnsanların Son Sınavında Başarısız

  • 09 Mar 2026 05:28
  • Güncelleme: 09 Mar 2026
    1 dk. Okuma Süresi
Yazı Özetini Göster

Yeni bir tartışma AI topluluğunda alevlendi: MMLU (Massive Multitask Language Understanding) ölçümü artık geçerli mi?

Nature’da Yayınlanan Sonuçlar

Nature dergisinde yayınlanan bir makaleye göre, dünyanın önde gelen AI modelleri bile “insanların son sınavı” olarak adlandırılan MMLU testlerinde en fazla %50 skor alabildi.

  • Claude, GPT-5.2 ve diğer modeller düşük performans gösterdi
  • İnsan uzmanlar hala büyük güvenli alanda
  • MMLU’nun ölçüm validitesi sorgulanıyor

Bu durum, AI değerlendirmesinde yeni ölçütlere ihtiyaç olduğunu gösteriyor.

Kaynak: IT之家

Bir Yorum Yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Benzer Yazılar