Google yapay zekanın kendi kendine evrim paradigmasını genişletiyor

iowen
15 Eki 2025 21:07
Güncelleme: 15 Eki 2025

7 dk. Okuma Süresi

Yazı Özetini Göster

İçeriğin kaynağı: Makinenin Kalbi

Editör: Du Wei

Geçtiğimiz birkaç gün içinde, “ince ayarın ölümü”ne ilişkin açıklamalar akademik çevrelerde büyük ilgi gördü.

Stanford Üniversitesi, SambaNova, UC Berkeley’den bir makale, şu şekilde adlandırılan bir yöntem önermektedir:Ajansal Bağlam Mühendisliği(Agent/Active Context Engineering) teknolojisi, dil modellerinin ince ayar yapmadan kendi kendini geliştirmesine olanak tanır!

Aslında, daha önce, “ReasoningBank: Ölçekleme Aracısı, Akıl Yürütme Belleğiyle Kendi Kendini Geliştiriyor” başlıklı bir Google makalesi, Aracı Bağlam Mühendisliğine benzer bir kavram önermişti ——Muhakeme Bankası,Gerçek etiketlere ihtiyaç duymadan, aracının kendisi tarafından değerlendirilen başarı ve başarısızlık deneyimlerinden bellek öğelerini çıkaran ve düzenleyen, etmen sistemleri için yenilikçi bir bellek çerçevesi.

Şekil 1’de gösterildiği gibi, kullanarakMuhakeme BankasıBaşarıda yalnızca etkili stratejiler yakalamakla kalmaz, aynı zamanda başarısızlıktan önemli önleme dersleri çıkararak bunları bir dizi eyleme geçirilebilir ilkeye dönüştürebilirsiniz. Bu süreç kapalı bir döngüde çalışır: Temsilci, yeni bir görevle karşı karşıya kaldığında, eylemlerini yönlendirmek için ReasoningBank’tan ilgili anıları alır. Daha sonra yeni deneyimler analiz edilir, iyileştirilir ve ReasoningBank’e yeniden entegre edilir; böylece temsilcinin stratejik yeteneklerini sürekli olarak geliştirmesine ve geliştirmesine olanak sağlanır.

Google, ReasoningBank’ı güçlü bir deneyimsel öğrenci olarak kullanarak, bellek ve test zamanı ölçeklendirmesi arasında güçlü bir sinerji yaratmak için deneyimsel ölçeklendirmeyi araştırdı. Google, daha fazla görev ekleyerek deneyimin kapsamını genişletmez, bunun yerine her bir görevi derinlemesine keşfeder.

Ayrıca Google’ın tanıttığıBellek algılama testi süresinin uzatılması (MaTTS)Hem paralel hem de sıralı ortamlarda uygulanan bu yöntem, çeşitli keşifler üreterek zıt sinyaller sağlayarak ReasoningBank’in daha genel anıları sentezlemesine olanak tanır.

Sonuçta, hafıza ile test zamanı ölçeklendirmesi arasında bir sinerji elde edilir: Yüksek kaliteli anılar, ölçeklendirmeyi daha umut verici yollara doğru yönlendirirken, zengin deneyim, daha güçlü anıları daha da yumuşatır. Bu olumlu geri bildirim döngüsü, bellek tabanlı deneyim genişletmeyi aracılar için yeni bir genişletme boyutu haline getiriyor.

Bildiri adresi: https://arxiv.org/pdf/2509.25140

Netizenler, Google tarafından geliştirilen ve kendi hatalarından gerçek zamanlı olarak ders alabilen yapay zeka konusunda iyimser.

Yönteme genel bakış

Aşağıdaki şekil, deneyimlerin başlıklar, açıklamalar ve içerik de dahil olmak üzere yapılandırılmış hafıza öğelerine ayrıştırıldığı ReasoningBank’in genel çerçevesini göstermektedir. Her yeni görev için, aracı, çevreyle etkileşime girecek ilgili öğeleri alır ve başarı ve başarısızlık yörüngelerinden yeni bellek öğeleri oluşturur. Bu hafıza öğeleri daha sonra kapalı döngü hafıza süreci oluşturmak için ReasoningBank’a entegre edilir.

ReasoningBank bunların arasında aşağıdaki temel bileşenleri içerir:

hafıza yapısı. ReasoningBank’taki hafıza öğeleri, aktarılabilir akıl yürütme kalıplarını ve stratejilerini korurken düşük seviyeli uygulama ayrıntılarını soyutlayan, geçmiş deneyimlerden tasarlanmış ve geliştirilmiş yapılandırılmış bilgi birimleridir. Her hafıza öğesi üç bölümden oluşur: (i) temel stratejiyi veya akıl yürütme modelini özetleyen kısa ve öz bir tanımlayıcı görevi gören başlık; (ii) hafıza öğesinin tek cümlelik kısa bir özetini sağlayan açıklama; ve (iii) muhakeme adımlarını, karar mantığını veya geçmiş deneyimlerden elde edilen operasyonel içgörüleri kaydeden içerik. Çıkarılan bellek öğeleri hem insanlar tarafından anlaşılabilir hem de makineler tarafından kullanılabilir; bu da verimli kullanımı ve akıllı aracılarla entegrasyonu kolaylaştırır.

Temsilcilerle ReasoningBank entegrasyonu. ReasoningBank ile donatılmış temsilciler, kararlara rehberlik etmek için dikkatle seçilmiş devredilebilir stratejiler havuzundan yararlanabilirler. Bu, aracının geçerli öngörüleri hatırlamasına, önceki gözlemlerin tuzaklarından kaçınmasına ve görünmeyen sorgulara daha sağlam bir şekilde uyum sağlamasına olanak tanır. Entegrasyon süreci üç adıma bölünmüştür: (i) hafıza alımı, (ii) hafıza inşası ve (iii) hafıza entegrasyonu.

tTS: Bellek algısının test süresinin uzatılması. ReasoningBank’ın test süresi genişletmeyle doğrudan kombinasyonu Şekil 3(a)’da gösterilmektedir; burada daha fazla iz bağımsız olarak daha fazla bellek öğesine dönüştürülür. Ancak bu temel yaklaşım ideal değildir çünkü aynı sorun üzerinde gereksiz araştırmalardan gelen zıt sinyallerden faydalanmaz, bu da test zamanı ölçeklendirmesinin performans faydalarını sınırlar. Bu amaçla Google, ReasoningBank ile test süresi uzatmalarının yeni bir entegrasyonu olan MaTTS’yi önerdi. Temel yöntemlerin aksine MaTTS, belleği daha verimli bir şekilde düzenlemek için genişletme süreci sırasında oluşturulan çok sayıda başarı ve başarısızlık yörüngesinden kasıtlı olarak öğrenir. Google, MaTTS için iki tamamlayıcı uygulama tasarlamıştır: Şekil 3 (b) ve 3 (c)’de gösterildiği gibi paralel genişletme ve sıralı genişletme.

Paralel genişleme. Paralel bir ortamda Google, aynı sorgu için, alınan bellek öğelerinin rehberliğinde birden fazla yörünge oluşturur. Aracı, farklı yörüngeleri karşılaştırarak, sahte çözümleri filtrelerken tutarlı akıl yürütme modellerini belirleyebilir. Bu süreç, tek bir sorgunun birden fazla denemesi yoluyla çeşitli keşifleri teşvik ederek daha güvenilir bellek iyileştirmeyle sonuçlanır.

sıralı genişleme. Sıralı ölçeklendirmede Google, kendi kendini iyileştirme ilkesini izleyerek, ilk tamamlamanın ardından tek bir yörüngedeki akıl yürütmeyi yinelemeli olarak hassaslaştırır. Bu süreç sırasında, kendini geliştirme sırasında oluşturulan ara notlar da değerli hafıza sinyalleri olarak kullanılır çünkü bunlar, nihai çözümde görünmeyebilecek akıl yürütme girişimlerini, revizyonları ve içgörüleri yakalar.

Deneysel sonuçlar

Google, web tarama (WebArena, Mind2Web) ve yazılım mühendisliği (SWE-Bench-Verified) görevleri de dahil olmak üzere zorlu karşılaştırmalar üzerinde kapsamlı deneyler gerçekleştirdi.

Tablo 1, 2 ve 3, ReasoningBank’in sırasıyla WebArena, Mind2Web ve SWE-Bench-Verified’daki değerlendirme sonuçlarını göstermektedir; bu, etkililik (%34,2’ye kadar göreceli iyileşme) ve verimlilik (%16,0’a kadar azaltılmış etkileşim adımları) açısından temel yöntemden daha iyi olduğunu göstermektedir.

Özellikle ReasoningBank, MaTTS ile en iyi sinerjiyi oluşturarak onu bellek tabanlı deneyim ölçeklendirmede önemli bir bileşen haline getiriyor. Google, Webarena-Shopping alt kümesinde MaTTS ve Gemini-2.5-flash kombinasyonunu denedi. MaTTS varsayılan olarak ReasoningBank’ı entegre eder ancak diğer bellek mekanizmalarını da kullanabilir.

Genel ölçeklendirme etkisini incelemek için Google aşağıdaki kıyaslamaları gerçekleştirdi: (i) belleksiz bir ölçeklendirme ayarını temsil eden, belleksiz MaTTS; (ii) toplama olmadan MaTTS; (iii) Ölçeklendirme faktörü k ile ilgili etkiyi gösteren MaTTS. k = 1’in genişlemenin olmadığı ayar olduğunu belirtmekte fayda var.

Sonuçlar, hem paralel genişlemenin hem de sıralı genişletmenin performansı artırabileceğini gösteren Şekil 4’te gösterilmektedir.