“İnsanlığın Son Sınavı” Nature Dergisinde: Küresel AI Modelleri Kolektif Olarak Başarısız!
AI Modelleri “İnsanlığın Son Sınavı”nda Zorlandı
Nature dergisinde yayınlanan bir araştırma, yapay zeka modellerinin “İnsanlığın Son Sınavı” olarak adlandırılan yüksek zorluklu testte beklenmedik şekilde düşük performans sergilediğini ortaya koydu. Küresel AI modellerinin en yüksek skorları bile %50’yi geçemedi.
MMLU’nun Sonu Mu?
Araştırma, popüler MMLU (Massive Multitask Language Understanding) testlerinin artık AI performansını ölçmek için yeterli olmadığını gösteriyor. Yeni test protokolü, AI’nın derin muhakeme ve orijinal düşünme yeteneklerini gerçekten ölçmek için tasarlandı.
İnsan Uzmanlar Hala Üstte
Test sonuçlarına göre, insan uzmanlar %90+ seviyelerinde başarı gösterirken, en gelişmiş AI modelleri bile %50 seviyesinde kaldı. Bu fark, AI’nın karmaşık mantık yürütme ve matematiksel ispat gibi temel zihinsel görevlerde hala insanların gerisinde kaldığını gösteriyor.
Hızlı İlerleme Var Ama Sınırlar Da Açık
AI gelişimi hala hızlı devam ediyor. Claude’nun zor algoritma problemlerini çözmesinden GPT-5.2’nin matematik doktoru seviyesine kadar pek çok başarının haberi geliyor. Ancak bu yeni araştırma, AI’nın güvenli bölgelerinin hala var olduğunu ama sürekli daraldığını da gösteriyor.
Ne Anlama Geliyor?
Bulgular, AI’nın mühendislik uygulamaları ve model tanıma gibi alanlarda harika ilerlemeler kaydettiğini, ancak şu anda en azından, katı matematiksel ispatlar ve karmaşık mantık yürütme gibi çekirdek zihinsel görevlerde insanları değiştiremeyeceğini gösteriyor.
“İnsan uzmanların güvenli bölgesi hala var, ancak sürekli daralıyor.” – Nature araştırması
Kaynaklar
Bu çalışma, AI değerlendirmesinde yeni bir dönem başlatıyor. Artık sadece doğru cevap sayısına değil, cevapların kalitesine ve muhakeme derinliğine bakılacak.
Kaynak: BAAI Hub