"İnsanlığın Son Sınavı" Nature Dergisinde: Küresel AI Modelleri Kolektif Olarak Başarısız! - Ai Haber

“İnsanlığın Son Sınavı” Nature Dergisinde: Küresel AI Modelleri Kolektif Olarak Başarısız!

Nature dergisinde yayınlanan araştırma, AI modellerinin yüksek zorluklu testte en fazla %50 başarı gösterdiğini, insan uzmanların ise %90+ seviyelerinde kaldığını ortaya koydu. MMLU testlerinin yetersiz kaldığı ve AI'nın derin muhakeme yeteneklerinin sınırları masaya yatırılıyor.

AI Modelleri “İnsanlığın Son Sınavı”nda Zorlandı

Nature dergisinde yayınlanan bir araştırma, yapay zeka modellerinin “İnsanlığın Son Sınavı” olarak adlandırılan yüksek zorluklu testte beklenmedik şekilde düşük performans sergilediğini ortaya koydu. Küresel AI modellerinin en yüksek skorları bile %50’yi geçemedi.

MMLU’nun Sonu Mu?

Araştırma, popüler MMLU (Massive Multitask Language Understanding) testlerinin artık AI performansını ölçmek için yeterli olmadığını gösteriyor. Yeni test protokolü, AI’nın derin muhakeme ve orijinal düşünme yeteneklerini gerçekten ölçmek için tasarlandı.

İnsan Uzmanlar Hala Üstte

Test sonuçlarına göre, insan uzmanlar %90+ seviyelerinde başarı gösterirken, en gelişmiş AI modelleri bile %50 seviyesinde kaldı. Bu fark, AI’nın karmaşık mantık yürütme ve matematiksel ispat gibi temel zihinsel görevlerde hala insanların gerisinde kaldığını gösteriyor.

Hızlı İlerleme Var Ama Sınırlar Da Açık

AI gelişimi hala hızlı devam ediyor. Claude’nun zor algoritma problemlerini çözmesinden GPT-5.2’nin matematik doktoru seviyesine kadar pek çok başarının haberi geliyor. Ancak bu yeni araştırma, AI’nın güvenli bölgelerinin hala var olduğunu ama sürekli daraldığını da gösteriyor.

Ne Anlama Geliyor?

Bulgular, AI’nın mühendislik uygulamaları ve model tanıma gibi alanlarda harika ilerlemeler kaydettiğini, ancak şu anda en azından, katı matematiksel ispatlar ve karmaşık mantık yürütme gibi çekirdek zihinsel görevlerde insanları değiştiremeyeceğini gösteriyor.

“İnsan uzmanların güvenli bölgesi hala var, ancak sürekli daralıyor.” – Nature araştırması

Kaynaklar

Bu çalışma, AI değerlendirmesinde yeni bir dönem başlatıyor. Artık sadece doğru cevap sayısına değil, cevapların kalitesine ve muhakeme derinliğine bakılacak.

Kaynak: BAAI Hub

Tartışma

Bu habere emoji ile tepki ver

İptal

Hizli:

Henüz yorum yok. İlk yorumu siz yapın!

Yapıcı ve saygılı yorumlar bekliyoruz. Topluluk kuralları