Bu sabahın erken saatlerinde OpenAI CEO'su Sam Altman, ChatGPT'nin Aralık ayında bir "yetişkin modu" başlatacağını...
Ai Haberleri
Anthropic, yapay zekâ ajanları için verimli araçlar geliştirme deneyimini yakın zamanda paylaştı. “Sistematik değerlendirme, araç kalitesini doğrulamanın anahtarıdır” ilkesi , tüm metodolojisine nüfuz etmiştir. Geleneksel API tasarımının aksine, yapay zekâ araçları, deterministik olmayan sistemlerin özelliklerini özel olarak dikkate almalı ve bunların etkinliğini karmaşık, gerçek dünya görevleri aracılığıyla doğrulamalıdır.
Tasarım sürecinde “az, çoktur” kavramı vurgulandı. Çok sayıda parçalı özellik sunmak yerine, çok adımlı görevleri yöneten entegre araçlar geliştirmek daha iyidir. Örneğin, toplantıları otomatik olarak planlayan bir araç, kişileri sorgulamak, takvimleri görüntülemek ve etkinlikler oluşturmak için ayrı API’ler sağlamaktan daha etkilidir. Bu tasarım, yapay zekanın muhakeme yükünü önemli ölçüde azaltır ve görev tamamlama oranlarını artırır.
Araç açıklamalarının kalitesi, kullanıcı etkinliğini doğrudan etkiler. “Açık ve doğru açıklamalar, araç çağırma başarı oranlarını artırmanın en etkili yollarından biridir .” Ekip, araç açıklamalarının yeni üyelere eğitim vererek, parametre adlandırma ve beklenen davranışı açıklayarak yazılmasını öneriyor. Testler, açıklamaları optimize etmenin bile Claude’un karmaşık görevlerdeki performansını önemli ölçüde artırabileceğini göstermiştir.
Değerlendirme sürecinde ikili bir doğrulama mekanizması kullanıldı: nihai sonuçların doğruluğunun kontrol edilmesi ve ara muhakeme sürecinin analiz edilmesi. Ekip, yüzlerce gerçek dünya test senaryosunu programatik olarak çalıştırarak, aracın gerçek dünya kullanımındaki olası sorunlarını tespit edebildi. Bu yaklaşım, Claude’un SWE-bench değerlendirmesinde en üst düzey performansa ulaşmasına yardımcı oldu.
Gelecekte, Yapay Zeka yetenekleri geliştikçe, araç tasarımı bağlamsal verimliliğe öncelik verecektir. Ekip, token tüketimini kontrol etmek için yanıtlara sayfalama ve filtreleme özellikleri eklenmesini öneriyor. Bu ilkeler yalnızca Claude için geçerli olmakla kalmıyor, aynı zamanda Yapay Zeka sektöründe araç geliştirme için pratik bir çerçeve de sağlıyor.