OpenAI, GDPval değerlendirme yöntemini tanıttı

iowen
28 Eyl 2025 19:26
Güncelleme: 28 Eyl 2025

3 dk. Okuma Süresi

Yazı Özetini Göster

OpenAI, GDPval değerlendirme yöntemini tanıttı; büyük modeller üç büyük sektörde insanları ikame edebiliyor.

OpenAI, yakın zamanda GDPval adlı yeni bir değerlendirme yöntemi geliştirdi; bu yöntem, ekonomik değeri olan gerçek dünya görevlerinde AI modellerinin performansını takip etmeyi amaçlıyor. Yöntem, gayri safi yurtiçi hasılayı (GDP) ana gösterge olarak alıp GDP’ye en büyük katkıyı yapan sektörlerden görevler seçerek değerlendirme yapıyor. “Günümüzün en iyi en ileri modelleri, sektör uzmanlarının iş kalitesine yaklaşmış durumda” diye belirten OpenAI, kör testler yoluyla hükümet, perakende ve toptan ticaret sektörlerinde AI’nın yeteneklerinin insan seviyesine ulaştığını veya onu aştığını tespit etti.

Değerlendirme sonuçları, Claude Opus 4.1’in GDPval veri setinde en iyi performansı gösterdiğini, özellikle görsellik bakımından öne çıktığını; görevlerin %49’unun sektör uzmanlarından daha iyi veya onlarla eşdeğer olarak değerlendirildiğini ortaya koydu. GPT-5 ise doğruluk açısından daha belirgin bir üstünlük sergiledi. OpenAI, “Claude’un bu kadar yüksek puan almasının nedeni, saf performanstan ziyade hoş görünümlü grafikler üretme eğiliminde olması” diye belirtti. GPT-4o’dan GPT-5’e kadar AI’nın GDPval görevlerindeki performansı iki kattan fazla artış gösterdi ve belirgin bir doğrusal eğilim sergiledi.

GDPval, ABD GSYİH’sine en çok katkıda bulunan 9 sektörden seçilen yazılım geliştiriciler, avukatlar gibi 44 mesleği kapsar. Bu meslekler ekonomik önemleri nedeniyle seçilmiş olup, AI’nın günlük işlerinde profesyonellere anlamlı şekilde yardımcı olabileceği iş türlerini temsil eder. Değerlendirme görevleri deneyimli uzmanlar tarafından tasarlanıp denetlenir ve her görev, hukuki özetler, mühendislik planları gibi gerçek iş çıktıları temel alınarak hazırlanır.

OpenAI, model performansını uzman değerlendiriciler aracılığıyla ölçer; değerlendiriciler kör değerlendirmede AI ve insan teslimatlarını karşılaştırır. Ayrıca OpenAI, uzman değerlendiricilere yardımcı araç olarak “otomatik değerlendirici” geliştirmiştir, ancak bunun güvenilirliği uzman değerlendiriciler kadar yüksek değildir. GDPval’in erken sonuçları, AI’nın bazı tekrarlı görevleri uzmanlardan daha hızlı ve daha düşük maliyetle tamamlayabildiğini gösterse de, çoğu iş hâlâ insan yaratıcılığı ve yargısı gerektirmektedir.

OpenAI, GDPval’in henüz başlangıç aşamasında olduğunu ve gelecekte daha fazla meslek, sektör ve görev türünü genişletmeyi; etkileşimi artırmayı ve belirsizlikle başa çıkmayı gerektiren daha fazla görev eklemeyi planladığını belirtiyor. Uzun vadeli hedefi, çok çeşitli bilgi işlerindeki ilerlemeyi daha iyi ölçmek ve AI’nın ekonomik alandaki yaygın uygulamasını teşvik etmektir.

PDF: https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

Etiketler :

Bu yazıya ait etiket bulunamadı.