Doğal dil planlamasının belirsizliği, kod deposu oluşturmayı sürekli başarısızlığa sürüklüyordu. Microsoft'un RPG'si (Repository Planning Graph)...
MMLU Ölüyor mu? AI Modelleri İnsanların Son Sınavında Başarısız
Yazı Özetini Göster
Yeni bir tartışma AI topluluğunda alevlendi: MMLU (Massive Multitask Language Understanding) ölçümü artık geçerli mi?
Nature’da Yayınlanan Sonuçlar
Nature dergisinde yayınlanan bir makaleye göre, dünyanın önde gelen AI modelleri bile “insanların son sınavı” olarak adlandırılan MMLU testlerinde en fazla %50 skor alabildi.
- Claude, GPT-5.2 ve diğer modeller düşük performans gösterdi
- İnsan uzmanlar hala büyük güvenli alanda
- MMLU’nun ölçüm validitesi sorgulanıyor
Bu durum, AI değerlendirmesinde yeni ölçütlere ihtiyaç olduğunu gösteriyor.
Kaynak: IT之家