Dikkatten Önce Katılın: Otoregresif Gözetleme ile Verimli ve Ölçeklenebilir Video Anlama

Baifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, +8 yazar

YAYIN:12 Mar 2026 ALAN:cs.CL OKUMA:24 YILDIZ:★ 2.5

Özet

Çok modlu büyük dil modelleri (MLLM'ler) gelişmiş genel amaçlı video anlayışına sahiptir, ancak uzun, yüksek çözünürlüklü videolarla mücadele ederler - önemli mekan - zamansal fazlalığa rağmen her pikseli görüş transformatörlerinde (ViT'ler) veya LLM'lerinde eşit olarak işlerler. Bir ViT veya MLLM tarafından işlenmeden önce gereksiz yamaları kaldıran hafif bir modül olan AutoGaze'i tanıtıyoruz. Sonraki belirteç tahmini ve pekiştirmeli öğrenme ile eğitilen AutoGaze, videoyu kullanıcı tarafından belirlenen bir hata eşiği içinde yeniden oluşturabilen ve bilgileri korurken fazlalığı ortadan kaldıran minimum sayıda çok ölçekli yamayı otomatik olarak seçer. Ampirik olarak, AutoGaze görsel tokenleri 4x -100x azaltır ve ViT'leri ve MLLM'leri 19x'e kadar hızlandırarak MLLM'lerin 1K kare 4K çözünürlüklü videolara ölçeklendirilmesini ve video karşılaştırmalarında üstün sonuçlar elde edilmesini sağlar (örneğin, VideoMME'de % 67.0). Ayrıca, HLVid'i tanıtıyoruz: AutoGaze ile ölçeklendirilmiş bir MLLM'nin taban çizgisine göre % 10,1 oranında iyileştiği ve önceki en iyi MLLM'den % 4,5 daha iyi performans gösterdiği 5 dakikalık 4K çözünürlüklü videolara sahip ilk yüksek çözünürlüklü, uzun formlu video QA ölçütü. Proje sayfası: https://autogaze.github.io/.

Giriş

Çok modlu büyük dil modelleri (MLLM’ler) gelişmiş genel amaçlı video anlayışına sahiptir, ancak uzun, yüksek çözünürlüklü videolarla mücadele ederler – önemli mekan – zamansal fazlalığa rağmen her pikseli görüş transformatörlerinde (ViT’ler) veya LLM’lerinde eşit olarak işlerler.

Araştırma Detayları

Bir ViT veya MLLM tarafından işlenmeden önce gereksiz yamaları kaldıran hafif bir modül olan AutoGaze’i tanıtıyoruz. Sonraki belirteç tahmini ve pekiştirmeli öğrenme ile eğitilen AutoGaze, videoyu kullanıcı tarafından belirlenen bir hata eşiği içinde yeniden oluşturabilen ve bilgileri korurken fazlalığı ortadan kaldıran minimum sayıda çok ölçekli yamayı otomatik olarak seçer. Ampirik olarak, AutoGaze görsel tokenleri 4x -100x azaltır ve ViT’leri ve MLLM’leri 19x’e kadar hızlandırarak MLLM’lerin 1K kare 4K çözünürlüklü videolara ölçeklendirilmesini ve video karşılaştırmalarında üstün sonuçlar elde edilmesini sağlar (örneğin, VideoMME’de % 67.0). Ayrıca, HLVid’i tanıtıyoruz: AutoGaze ile ölçeklendirilmiş

Sonuçlar

bir MLLM’nin taban çizgisine göre % 10,1 oranında iyileştiği ve önceki en iyi MLLM’den % 4,5 daha iyi performans gösterdiği 5 dakikalık 4K çözünürlüklü videolara sahip ilk yüksek çözünürlüklü, uzun formlu video QA ölçütü. Proje sayfası: https://autogaze.github.io/.

Yazarlar

Baifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin

Kategoriler

cs.CV

Kaynaklar

Tartışma

Bu habere emoji ile tepki ver

3 kişi tepki verdi

İptal

Hizli:

Henüz yorum yok. İlk yorumu siz yapın!

Yapıcı ve saygılı yorumlar bekliyoruz. Topluluk kuralları