Lost in Translation? Vocabulary Alignment for Source-Free Domain Adaptation in Open-Vocabulary Semantic Segmentation

iowen
21 Eyl 2025 12:06
Güncelleme: 21 Eyl 2025

3 dk. Okuma Süresi

Yazı Özetini Göster

Açık sözcük dağarcığı semantik segmentasyonunda görsel dil modelleri (VLM) için özel olarak tasarlanmış yeni bir pasif alan uyarlama çerçevesi olan VocAlign’ı öneriyoruz. Bu yaklaşım, sözcüksel hizalama stratejisiyle birleştirilmiş öğrenci-öğretmen paradigmasını benimser ve ek kategorik kavramlar getirerek sözde etiket oluşturma kalitesini artırır. Verimliliği sağlamak için, model ince ayarı için Düşük Sıralı Uyarlama (LoRA) teknolojisini kullanarak, modelin doğal yeteneklerini korurken hesaplama yükünü en aza indiriyoruz. Ayrıca, öğrenci modeli için Top-K kategori seçim mekanizması tasarlıyoruz, bu da bellek tüketimini önemli ölçüde azaltırken uyarlanabilir performansı daha da iyileştiriyor. Yaklaşımımız, CityScapes veri setinde 6,11 mIoU’luk önemli bir iyileşme sağlar ve sıfır atış segmentasyon karşılaştırmalarında olağanüstü bir performans gösterir, açık sözlük senaryolarında pasif alan uyarlaması için yeni bir karşılaştırma ölçütü oluşturur.

Bu makale, açık sözlük semantik segmentasyonunda pasif alan adaptasyonunun zorluklarını, özellikle görsel dil modellerinin (VLM’ler) kaynak alan verileri olmadan yeni hedef alanlara etkili bir şekilde adapte olmasını nasıl sağlayabileceğini ele almayı amaçlamaktadır. Geleneksel alan adaptasyon yöntemleri, eğitim için kaynak alan verilerine dayandığından ve bu veriler gizlilik veya depolama kısıtlamaları nedeniyle pratik uygulamalarda kullanılamayabileceğinden, bu zorlu yeni bir sorunu temsil etmektedir.

VocAlign çerçevesi, sözde etiket oluşturmayı geliştirmek için sözcük hizalama stratejileriyle birleştirilmiş öğrenci-öğretmen paradigmasını kullanarak önerilmektedir. Çapraz alan anlayışını geliştirmek için yeni kategori kavramları getirir; verimli ince ayar için Düşük Sıralı Uyarlama (LoRA) kullanır, orijinal modelin yeteneklerini korurken hesaplama yükünü azaltır; ve bellek tüketimini en aza indirgemek ve uyarlanabilirliği artırmak için Top-K kategori seçim mekanizması tasarlar. Mevcut yöntemlerle karşılaştırıldığında, yeniliği kaynak veri gerektirmemesi ve anlamsal hizalamayı geliştirmek için sözlüğü dinamik olarak genişletmesidir.

Deney, CityScapes veri setinde 6,11 mIoU’luk önemli bir iyileşme sağladı ve çoklu sıfır atış segmentasyon karşılaştırma testlerinde üstün performans gösterdi. Standart pasif etki alanı uyarlama değerlendirme protokolü kullanılarak, yöntemin genelleştirme yeteneği doğrulandı. Şu anda kodun açık kaynak kodlu olduğu açıkça belirtilmese de, LoRA tabanlı tasarım kolay çoğaltmayı kolaylaştırır. Gelecekteki araştırmalar, daha geniş kelime haznesi uyumlaştırma mekanizmalarını ve çok modlu senaryolarda genişletilmiş uygulamaları keşfedebilir.

İlgili araştırma

1. Görüntüden Görüntüye Çeviri Yoluyla Alan Uyumlu Anlamsal Segmentasyon

2. Dönüştürücülerle Anlamsal Segmentasyon için Kaynak Dışı Etki Alanı Uyarlama

3. Anlamsal Segmentasyonda Kaynak Olmayan Alan Uyarlama için Sınıf Korelasyonunun Kullanılması

4. Açık Kelime Dağarcığı Anlamsal Segmentasyonu için Test Süresi Uyarlama

5. Görme-Dil Modelleri ile Dil Odaklı Anlamsal Segmentasyon

PDF: https://arxiv.org/abs/2509.15225v1

PDF OKu

Etiketler :

Bu yazıya ait etiket bulunamadı.