AI Tarafından Yutulacak 30 Milyon İş Pozisyonu? Hindistan'ın 283 Milyar Dolarlık Yazılım Sektörü "Hesaplaşma Anı"na...
Thinking Machines Lab, büyük dil modeli çıkarımlarındaki belirsizliğin kökenini ortaya koydu
OpenAI eski CTO’su Mira Murati tarafından kurulan Thinking Machines Lab, büyük dil modeli çıkarımlarındaki belirsizlik sorununa odaklanan ilk araştırma sonuçlarını yayımladı. “Tekrarlanabilirlik bilimin ilerlemesinin temelidir, ancak büyük dil modellerinden tekrarlanabilir sonuçlar elde etmek son derece zordur” diye belirten araştırma ekibi, sıcaklık (temperature) parametresi 0 olarak ayarlansa bile model çıktılarında öngörülemezlik olduğunu saptadı. Geleneksel görüş, belirsizliğin “eşzamanlılık + kayan nokta” varsayımından kaynaklandığını; yani GPU kayan nokta işlemlerinin birleşmeli olmaması ve eşzamanlı yürütmenin farklılıklara yol açması nedeniyle ortaya çıktığını öne sürer.
Ancak araştırma, gerçek kökenin toplu işleme (batch) stratejisinde yattığını gösterdi. Sunucu yükü değiştiğinde batch size değiştiğinde, çekirdek fonksiyonlarının hesaplama sırası da değişiyor ve bu da çıktı sonuçlarını etkiliyor. “Neredeyse tüm büyük dil modeli çıkarım uç noktalarının belirsiz olmasının ana nedeni, yükün belirlediği batch size’ın kendisinin belirsiz olmasıdır” diye belirtti ekip. Takım, çekirdek fonksiyon yapılandırmasını sabitleyerek batch’e bağlı değişmezlik sağlanmasını; böylece RMSNorm, matris çarpımı ve dikkat mekanizmasının hesaplama sıralarının batch size’dan etkilenmemesini önerdi.
Deneyler, bu yöntem uygulandıktan sonra Qwen3 modelinin 1000 örneklemede tamamen tutarlı çıktılar verdiğini, optimize edilmemiş versiyonun ise 80 farklı sonuç ürettiğini gösteriyor. Araştırma ayrıca bu yöntemin pekiştirmeli öğrenmenin eğitim kararlılığı üzerinde olumlu etkisi olduğunu kanıtladı.
Bu çalışma, büyük dil modellerinin temel mekanizmalarını anlamaya yeni bir bakış açısı sunuyor; açık kaynaklı parti değişmezliği çekirdek fonksiyonu kütüphanesi mevcut çıkarım sistemlerine doğrudan uygulanabilir. Mevcut uygulamanın yaklaşık %15 performans kaybı bulunsa da, belirlenebilirlik gerektiren kullanım senaryoları için uygulanabilir bir çözüm sağlıyor.