Son Haberler

Microsoft ,Claude Code’a Meydan Okuyor

iowen
07 Eki 2025 21:28
Güncelleme: 07 Eki 2025

8 dk. Okuma Süresi

Yazı Özetini Göster

Doğal dil planlamasının belirsizliği, kod deposu oluşturmayı sürekli başarısızlığa sürüklüyordu. Microsoft’un RPG’si (Repository Planning Graph) metnin yerini grafiklerle alıyor; düğümler fonksiyonları ve dosyaları, kenarlar ise bağımlılıkları ve arayüzleri işaretliyor. Kıyaslama testleri, %11-13 oranında fonksiyonel yenilik ve %69.7 kod başarı oranı göstererek Claude Code’u geride bıraktı ve büyük ölçekli yapay zeka geliştirmesinin önünü açtı.

Son yıllarda, büyük dil modellerinin kod yazma yeteneği büyük bir ilerleme kaydetti. Fonksiyon ve dosya düzeyinde üretim oldukça güvenilir hale geldi; geliştiriciler tek bir açıklamayla eksiksiz bir fonksiyon veya modül elde edebiliyor.

Ancak, bakış açısı **tüm kod deposuna** genişletildiğinde zorluklar ortaya çıkıyor: Onlarca, hatta yüzlerce dosya, sınıf ve fonksiyon arasında **karmaşık bağımlılıklar** iç içe geçiyor; soyut bir açıklamadan eksiksiz bir depoya geçmek her zaman zorlu olmuştur.

Mevcut yöntemlerin çoğu, “ne yapılacağına ve nasıl yapılacağına” karar vermek için doğal dil planlamasına dayanıyor. Bu yaklaşım sezgisel olsa da, doğası gereği belirsizdir ve yapıdan yoksundur, bu da uzun vadeli bağımlılık takibini istikrarlı bir şekilde sürdürmeyi zorlaştırır.

Sonuç olarak iki yaygın başarısızlık türü görülür: Ya fonksiyon önerileri yetersiz kalır ve gereksinimleri tam olarak karşılayamaz; ya da uygulama süreci kayar, arayüzler ve modül sınırları yavaş yavaş bozulur.

Makale adresi: https://arxiv.org/abs/2509.16198

Bu sorunu çözmek için Microsoft, kırılgan metin tabanlı planlamanın yerine yapılandırılmış bir grafik haritası öneren **Repository Planning Graph (RPG)**’i sundu. RPG, **fonksiyonları, dosyaları, bağımlılıkları ve veri akışını** tek bir şemada birleştirerek, kod deposu üretiminin ilk kez **kontrol edilebilir, ölçeklenebilir ve doğrulanabilir** bir temele sahip olmasını sağladı.

**Gereksinimden Depoya Tek Bir Planlama Şeması**

**Repository Planning Graph (RPG)**, depo oluşturma sürecinin tamamını tek bir grafikte birleştiren yapısal bir gösterimdir.

RPG’nin düğümleri fonksiyon hedefleri, dosyalar, sınıflar veya fonksiyonlar olabilir; kenarları ise arayüz çağrılarını, bağımlılık ilişkilerini ve veri akışını açıkça belirtir.

Bu tasarım, hem **”ne başarılacağını”** (öneri katmanı) hem de **”nasıl başarılacağını”** (uygulama katmanı) yanıtlayabilir, böylece yüksek seviyeli niyet ile düşük seviyeli uygulama arasında **tutarlılık** sağlar.

ZeroRepo Sürecine Genel Bakış: (A) Öneri Düzeyi Oluşturma: Kullanıcı gereksinimlerini fonksiyonel bir grafiğe dönüştürme; (B) Uygulama Düzeyi Oluşturma: Dosya yapısı ve veri akışına daha da detaylandırma, Repository Planning Graph (RPG) oluşturma; (C) Grafikle Güdümlü Üretim: RPG’nin topolojik sırasını takip ederek, eksiksiz depoyu adım adım oluşturma.

Bu temelde, araştırma ekibi **ZeroRepo çerçevesini** önerdi. ZeroRepo, kullanıcının doğal dil açıklamasından yola çıkarak RPG’yi üç adımda aşamalı olarak inşa eder ve rehberliğinde kodu üretir:

Birinci Adım: Öneri Düzeyi Oluşturma

ZeroRepo, modelin “doğaçlama yapmasına” izin vermek yerine, kullanıcının doğal dil gereksinimlerini önce RPG’ye indirir ve aşamalı olarak fonksiyonel bir grafik haritası oluşturur.

Büyük bir fonksiyon ağacına dayanarak düğümleri arar ve birleştirir; örneğin, “kullanıcı girişi”, “alışveriş sepeti yönetimi”, “ödeme işlemleri” gibi fonksiyonları bir yapı iskelesi gibi birleştirerek eksiksiz bir plan oluşturur.

Bu sayede sistem, yalnızca tüm temel fonksiyonları kapsamakla kalmaz, aynı zamanda net bir yapı ve makul bir hiyerarşi de sağlar.

İkinci Adım: Uygulama Düzeyi Oluşturma

Fonksiyonel plan hazır olduğunda, her modülün “nereye yerleştirileceği” de netleştirilmelidir.

ZeroRepo, fonksiyon düğümlerini daha da açarak somut dosyalar, arayüzler ve veri akışları olarak yazar ve bunları tek tek RPG’ye ekler. Örneğin, “ödeme işlemleri” *payment_service.py*, *api/payment_api.py* gibi dosyalara ayrılır ve sipariş ve stok modüllerinin çıktısına olan bağımlılıkları açıkça belirtilir.

Bu şekilde, modüller arasındaki sınırlar ve bağımlılıklar sıkıca sabitlenir ve üretim sürecinde sapmalar önlenir.

Üçüncü Adım: Grafikle Güdümlü Üretim

Son olarak, ZeroRepo kod üretimini RPG’nin topolojik sırasına göre ilerletir. Her bir dosya veya fonksiyon uygulandığında, önce test senaryoları oluşturulur, ardından fonksiyon gövdesi yazılır ve sonuç RPG’ye geri yazılır.

Bu, bir “üretim-doğrulama-güncelleme” döngüsü oluşturur.

Tüm süreç, bir planlama şeması boyunca inşaat yapmaya benzer: planlama ve doğrulama vardır, depo boyutu sürekli genişler, ancak arayüzler hizalı ve yapı stabil kalır.

—

ZeroRepo’nun Kanıtı: Planlama Şemasından Gerçek Kod Deposuna

Depo düzeyindeki üretim yeteneğini kapsamlı bir şekilde değerlendirmek için, yeni bir kıyaslama testi olan **RepoCraft**’ı oluşturdular.

RepoCraft kıyaslama testinde doğruluk görevleri için genel veri toplama süreci

Daha önceki hazır depolara veya ayrıntılı belgelere dayalı kurulumların aksine, RepoCraft tam bir mimari planlama şeması sunmaz ve 6 gerçek projeyi, toplam 1052 görevi kapsar:

scikit-learn, pandas, requests, django, statsmodels, sympy.

Modelin belirsiz gereksinimlerden yapılandırılmış uygulamaya geçiş yeteneğini gerçekten test eder.

RepoCraft kıyaslama testinde farklı ajan çerçevelerinin ve modellerin performans karşılaştırması (Gold Projects gerçek dünya depolarını temsil eder)

**Fonksiyon Kapsamı ve Ölçeği**: Kapsam oranı **%81.5**’e ulaştı ve en iyi temel model olan **Claude Code’dan 27.3 puan daha yüksek**; aynı zamanda **100’den fazla yeni fonksiyon** üretebiliyor (%11–13 yenilik oranı), diğer yöntemlerden çok daha iyi. Üretilen depoların ortalama **36 bin satır kod** ve **445 bin token** içermesi, Claude Code’un 3.9 katı, diğer yöntemlerin ise 64 katı büyüklüğünde ve karmaşıklığı manuel projelere yakın.
**Doğruluk ve Tutarlılık**: Kod başarı oranı **%69.7**, **Claude Code’dan 35.8 puan daha yüksek**, manuel proje sınırına (%81) yakın. RPG’nin yapısal kısıtlaması, modül sınırlarının ve arayüz tasarımının tutarlılığını etkili bir şekilde sağlayarak, üretim sonuçlarının daha istikrarlı ve tasarım amacına daha yakın olmasını sağlıyor.

ZeroRepo’nun Qwen3-Coder-480B-A35B-Instruct kullanarak makine öğrenimi kütüphanesi üzerinde veri akışı ve fonksiyon bağımlılıklarını gösteren şematik gösterimi

**Karmaşık Bağımlılık ve Koordinasyon**: Qwen 3 Coder tarafından üretilen sonuçlara bakıldığında, RPG sadece dosya hiyerarşisini ve modül akışını açıkça düzenlemekle kalmaz, aynı zamanda modüller arası çağrıları ve geri bildirim bağımlılıklarını da açıkça yakalar. Bu, karmaşık ilişkilerin güvenli bir şekilde yönetilmesini sağlayarak, depo karmaşıklığı artarken bile genel koordinasyonu sürdürür.

ZeroRepo’nun planlama yineleme sayısı arttıkça fonksiyon sayısındaki (sol grafik) ve kod sayısındaki (sağ grafik) büyüme durumu

ZeroRepo, hem fonksiyon sayısı hem de kod ölçeği açısından **neredeyse doğrusal bir büyüme eğilimi** sergilemektedir.

Yineleme sayısı arttıkça, RPG rehberliğindeki planlama, yeni fonksiyonların ve eklenen kodun istikrarlı bir şekilde genişlemesini sağlar; oysa temel yöntemler erken aşamalarda duraksama eğilimi gösterir.

Bu **doğrusal ölçeklenme** yeteneği, **büyük ölçekli depoların** sürekli gelişimini destekleme potansiyeline sahip olduğunu kanıtlamaktadır.

RPG’nin ajan konumlandırma görevlerindeki hızlandırma etkisinin karşılaştırması (wo/G küresel bilgi olmadan anlamına gelir)

Ayrıca, RPG’nin sağladığı küresel yapısal bakış açısı, ajanın depo anlama ve konumlandırma yeteneğini önemli ölçüde artırarak, bağımlılıkları daha hızlı takip etmesini, sorunları bulmasını ve modül entegrasyonunu tamamlamasını sağlıyor, böylece tüm geliştirme sürecini hızlandırıyor.

—

Özet ve Görünüm

ZeroRepo, yapılandırılmış grafik haritasının depo üretimindeki benzersiz değerini gösteriyor: Yalnızca fonksiyon kapsamını, kod ölçeğini ve doğruluğu artırmakla kalmıyor, aynı zamanda doğal dil planlamasının uzun süredir devam eden belirsizlik ve kayma sorunlarını da çözüyor, böylece otomatik depo üretimini ilk kez gerçek yazılım geliştirme sürecine yaklaştırıyor.

Gelecekte, araştırma ekibi RPG’nin uygulama alanını daha da genişletmeyi, çok turlu gereksinim değişiklikleri altındaki etkileşimli geliştirmeyi, depolar arası koordineli evrimi ve mevcut mühendislik araç zincirleriyle derin entegrasyonu desteklemeyi planlıyor.

Referanslar:

https://arxiv.org/abs/2509.16198

İçerikte yer alan görseller telif hakkı içeriyorsa, lütfen silinmesi için bizimle iletişime geçin

Etiketler :

Bu yazıya ait etiket bulunamadı.