Giriş
Çok modlu büyük dil modelleri (MLLM’ler) gelişmiş genel amaçlı video anlayışına sahiptir, ancak uzun, yüksek çözünürlüklü videolarla mücadele ederler – önemli mekan – zamansal fazlalığa rağmen her pikseli görüş transformatörlerinde (ViT’ler) veya LLM’lerinde eşit olarak işlerler.
Araştırma Detayları
Bir ViT veya MLLM tarafından işlenmeden önce gereksiz yamaları kaldıran hafif bir modül olan AutoGaze’i tanıtıyoruz. Sonraki belirteç tahmini ve pekiştirmeli öğrenme ile eğitilen AutoGaze, videoyu kullanıcı tarafından belirlenen bir hata eşiği içinde yeniden oluşturabilen ve bilgileri korurken fazlalığı ortadan kaldıran minimum sayıda çok ölçekli yamayı otomatik olarak seçer. Ampirik olarak, AutoGaze görsel tokenleri 4x -100x azaltır ve ViT’leri ve MLLM’leri 19x’e kadar hızlandırarak MLLM’lerin 1K kare 4K çözünürlüklü videolara ölçeklendirilmesini ve video karşılaştırmalarında üstün sonuçlar elde edilmesini sağlar (örneğin, VideoMME’de % 67.0). Ayrıca, HLVid’i tanıtıyoruz: AutoGaze ile ölçeklendirilmiş
Sonuçlar
bir MLLM’nin taban çizgisine göre % 10,1 oranında iyileştiği ve önceki en iyi MLLM’den % 4,5 daha iyi performans gösterdiği 5 dakikalık 4K çözünürlüklü videolara sahip ilk yüksek çözünürlüklü, uzun formlu video QA ölçütü. Proje sayfası: https://autogaze.github.io/.
Yazarlar
Baifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin
Kategoriler
cs.CV
Henüz yorum yok. İlk yorumu siz yapın!