Memento: İnce ayar yapmadan akıllı ajanların sürekli öğrenimi için yeni bir paradigma LLM

iowen
29 Ağu 2025 20:02
Güncelleme: 29 Ağu 2025

3 dk. Okuma Süresi

Yazı Özetini Göster

University College London ve Huawei’nin Nuh’un Gemisi Laboratuvarı tarafından ortaklaşa geliştirilen Memento sistemi, LLM ajanları için çığır açan bir sürekli öğrenme çözümü sunuyor. “Memento, hafıza destekli öğrenme için yeni bir paradigma sunarak, modeli ince ayar yapmadan akıllı ajanların sürekli evrimini mümkün kılıyor .” Sistem, insan hafıza mekanizmalarını simüle ederek, akıllı ajanların pahalı parametre ince ayarlarına güvenmek yerine, insanlar gibi deneyimlerden öğrenmesini sağlıyor.

Geleneksel LLM uzmanları bir ikilemle karşı karşıyadır: ya katı ve statik bir iş akışı benimsemek ya da parametre ince ayarına önemli miktarda kaynak ayırmak. Memento, vaka tabanlı akıl yürütmeyi Q-fonksiyonu öğrenmesiyle birleştirerek bu ikilemi etkili bir şekilde ele alır. Sistem, hafıza bankasını karar alma sürecinin ayrılmaz bir bileşeni olarak içeren ve vaka tabanlı akıl yürütmeyi takviyeli öğrenmeyle kusursuz bir şekilde entegre eden bir hafıza destekli Markov karar süreci (M-MDP) çerçevesi kullanır. “Vaka tabanlı akıl yürütme, dağıtım dışı görevler için %4,7-%9,6 arasında mutlak bir performans artışı sağlar .” Memento, GAIA kıyaslamasında olağanüstü bir performans elde ederek doğrulama setinde %87,88 Pass@3 ile en iyi 1 puanını elde etti. Özellikle, en karmaşık Seviye 3 görevindeki %61,54’lük doğruluğu, benzer sistemleri çok geride bıraktı. Bunun nedeni, “hızlı düşünen” planlayıcının “yavaş düşünen” modele göre %23,08 daha iyi performans gösterdiği yenilikçi iki aşamalı mimarisidir.

Sistem, üst düzey planlama için vaka belleği, yürütmeyi koordine etmek için alt görev belleği ve günlük işlemleri için araç belleği olmak üzere üç ortak bellek modülünden oluşur. Standartlaştırılmış Model Bağlam Protokolü (MCP) arayüzü sayesinde Memento, çeşitli harici araçlarla esnek bir şekilde entegre edilebilir. Bu tasarım, performansı artırmanın yanı sıra dağıtım karmaşıklığını da önemli ölçüde azaltarak, gerçek dünya iş senaryolarında akıllı ajan uygulamaları için uygulanabilir bir çözüm sunar.

Memento’nun temel atılımı, öğrenme hedefini LLM parametrelerinden hafif Q-fonksiyonu eğitimine kaydırmasıdır. Eğitilebilir bir erişim politikasına sahip bir bellek sistemidir . Bu tasarım, temel modeli korurken bellek alma stratejisini sürekli olarak optimize ederek sistemin performans iyileştirmeleri elde etmesini sağlar. Deneyler, bu yaklaşımın etkililiğini korurken model uyarlama maliyetlerini %90 oranında azalttığını ve LLM ajanlarının pratikte kullanımı için yeni bir yol açtığını göstermiştir.

Etiketler :

Bu yazıya ait etiket bulunamadı.