Son Haberler

MMLU Ölüyor mu? AI Modelleri İnsanların Son Sınavında Başarısız

iowen
09 Mar 2026 05:28
Güncelleme: 09 Mar 2026

1 dk. Okuma Süresi

Yazı Özetini Göster

Yeni bir tartışma AI topluluğunda alevlendi: MMLU (Massive Multitask Language Understanding) ölçümü artık geçerli mi?

Nature’da Yayınlanan Sonuçlar

Nature dergisinde yayınlanan bir makaleye göre, dünyanın önde gelen AI modelleri bile “insanların son sınavı” olarak adlandırılan MMLU testlerinde en fazla %50 skor alabildi.

Claude, GPT-5.2 ve diğer modeller düşük performans gösterdi
İnsan uzmanlar hala büyük güvenli alanda
MMLU’nun ölçüm validitesi sorgulanıyor

Bu durum, AI değerlendirmesinde yeni ölçütlere ihtiyaç olduğunu gösteriyor.

Kaynak: IT之家

Etiketler :

Bir Yorum Yazın Yanıtı iptal et

Benzer Yazılar

Son Haberler

iowen

7 yıl önce

100年后，人类终于看到了黑洞

从天文学的角度来看， 2019年可谓是黑洞之年。　　这一年，黑洞研究取得了多项突破性进展。4月10日，科学家发布首张全球唯一的黑洞照片；11月28日，中科院国家天文台的科研人员又发现了银河系当中最大的恒星级黑洞，除此之外，美国科学家还发现了宇宙中最小质量的黑洞。而这些发现中，毫无疑问首张黑洞照片是最激动人心的一件事。银河系内最重的恒星级黑洞LB-1的艺术想象图（喻京川绘）　　1915年，爱因斯坦提出了广义相对论，几个月之后，身处德国战壕中的物理学家卡尔·史瓦西（K。 Schwarschild）求得了爱因斯坦方程的精确解，这个解就是现在我们所知道的黑洞解，没有转动的黑洞解，这也是第一次现代意义上对于黑洞的描述。　　在接下来的近一百年里，人类对黑洞的研究仅仅停留在理论上，我们对于黑洞长什么样几乎一无所知。　　一直到最近十多年，科技的发展让人类有机会去追寻、去探究黑洞真实的模样。终于在2019年4月份，全球20个国家的300多位科学家联合发布了第一张黑洞照片。　　通过黑洞探寻的历史，我们可以窥探整个科学发展的漫长历史。　　说到黑洞，或许我们会有一些恐惧感，因为在很多电影中把黑洞都描述成无所不“吃”，甚至连光和时间都能够停止的“巨人”，但是在一些物理学家的眼中，它又是非常神奇的，因为它或许在未来会充当时间之门的角色，带领人类快速地进行宇宙穿越。　　总体来说，黑洞是既神秘又神奇的天体。黑洞引力非常强，所以要认识它，我们就得从引力的发展历史去探究。　　万有引力发展史　　谈到引力，自然而然我们就会想到17世纪伟大的物理学家--牛顿，他坐在树下，看到下落的苹果，就意识到在宇宙中应该存在一种普遍的力，现在我们称之为万有引力。　　牛顿是一位非常伟大的物理学家，他不仅仅想到了这一点，他还让这个想法“落地”了，他根据这个想法写下了一个非常经典的公式：万有引力表达式。通过这个公式，我们知道，他认为引力是因为物体有质量而存在的。　　他把这一理论总结在经典的《自然哲学的数学原理》一书中。这一理论发表后得到了很多人的推崇，因为它不仅可以很好地解释天体在空间当中的运动，而且可以完美地预测天体未来的运动状态。...