OpenAI, geçtiğimiz günlerde geliştirici ve profesyonel kullanıcılar için tarihi bir adım atarak GPT-5.2 modelinin resmi...
Yedi Büyük Dil Modeli “Werewolf Benchmark” Testinde Karşı Karşıya: GPT-5 Zirvede
Yapay zekâ alanında dikkat çeken yeni bir kıyaslama testi yayımlandı. Werewolf Benchmark adı verilen çalışmada, yedi farklı büyük dil modeli 210 adet 6 kişilik kurtadam oyunu karşılaşmasında birbirleriyle yarıştı. Teste göre GPT-5 %96,7 gibi ezici bir galibiyet oranıyla birinci sıraya yerleşti. En yakın rakibi Gemini 2.5 Pro’ya yaklaşık 30 puan fark attı. Açık kaynaklı GPT-OSS-120B ise listenin en altında yer aldı.
GPT-5’in Stratejik Üstünlüğü
Kurtadam rolünde GPT-5’in stratejik zekâsı öne çıktı. Polis seçimine aday olup tartışmayı programatik bir çerçeveye oturtması, rakiplerini sistematik şekilde etkisiz hale getirmesi dikkat çekti. Kimliği açığa çıktığında ise soğukkanlı karşı hamleler yaparak oyunun seyrini değiştirmeyi başardı. Örneğin, rakip model Kimi-K2, yanlış bir şekilde “cadı” rolünü üstlenerek oyunu çevirmeye çalışsa da GPT-5 buna karşı koydu.

Rakiplerin Performansı
-
Gemini 2.5 Pro, “anlatı yönlendirme” taktiğinde başarılı olsa da, aşırı bilgiç tavrı nedeniyle kolayca açığa çıktı.
-
GPT-5, köylü rolünde ise adeta bir “yargı düzenleyicisi” gibi hareket ederek tartışmaları kanıta dayalı kurallarla yönetti.
-
Diğer modellerde %20 oranında hata ile özel rol taşıyan oyuncular yanlış hedef alınırken, GPT-5 hiç hata yapmadı.
Testin Ölçütleri ve Sonuçlar
Araştırmacılar, modelleri üç temel ölçütle değerlendirdi:
-
Manipülasyon başarısı
-
Kendi kendini sabote etme oranı
-
İlk gün kurtadamı açığa çıkarma oranı
Sonuçlar, büyük dil modellerinin artık insana yakın sosyal stratejiler geliştirebildiğini gösteriyor. Araştırma ekibi, gelecekte testleri daha da genişletip, karmaşık sosyal senaryolarda yapay zekânın davranışlarını incelemeyi hedefliyor.
Özetle:
GPT-5, yalnızca teknik üstünlüğüyle değil, aynı zamanda sosyal zekâ ve strateji oyunlarındaki başarısıyla da öne çıkarak yapay zekâ rekabetinde çıtayı yeniden yükseltti.