giriş
Uzun anlatılar için çoklu çekim video üretimi çok önemlidir, ancak mevcut çift yönlü mimariler yetersiz etkileşim ve yüksek gecikme sürelerinden muzdariptir. Bunu ele almak için, etkileşimli anlatıları destekleyen ve verimli, gerçek zamanlı kare üretimi sağlayan yeni bir nedensel çoklu çekim üretim mimarisi olan ShotStream’i öneriyoruz. Bu yöntem, görevi “geçmiş bağlamına dayalı sonraki çekim üretimi” olarak yeniden tanımlayarak, kullanıcıların akışlı uyarılar aracılığıyla devam eden anlatı sürecine dinamik olarak müdahale etmelerini sağlar. Özellikle, önce bir metinden videoya modelini ince ayar yaparak, onu çift yönlü bir “sonraki çekim üreteciye” dönüştürüyoruz. Ardından, “Dağıtım Eşleştirme Damıtma” yöntemini kullanarak, bu çift yönlü modelden elde edilen bilgiyi nedensel, hafif bir öğrenci modeline damıtıyoruz. Otoregresif üretimde zayıf çekimler arası tutarlılık ve ciddi hata birikimi gibi doğal zorlukların üstesinden gelmek için iki temel teknik iyileştirme öneriyoruz: İlk olarak, görsel tutarlılığı sağlamak için çift tamponlu bir bellek mekanizması tasarlıyoruz: küresel bir bağlam önbelleği, koşullu kareleri depolayarak çekimler arasında tutarlılığı sağlar; Yerel bir bağlam önbelleği, çekim içindeki zamansal tutarlılığı korumak için mevcut çekim içinde zaten oluşturulmuş kareleri geçici olarak depolar. Eş zamanlı olarak, iki önbellek türü arasında açıkça ayrım yapmak ve belirsizliği tamamen ortadan kaldırmak için bir Dönme Konum Kodlaması (RoPE) süreksizlik göstergesi sunuyoruz. İkinci olarak, hata birikimi sorununu hafifletmek için iki aşamalı bir damıtma stratejisi öneriyoruz: ilk aşama, eğitim için koşullar olarak gerçek geçmiş çekimleri kullanan “çekim içi kendi kendine zorlama”yı kullanır; ikinci aşama, eğitim ve çıkarım arasındaki dağıtım boşluğunu etkili bir şekilde kapatarak, modelin kendisi tarafından oluşturulan geçmiş çekimleri eğitim için koşullar olarak kullanan “çekimler arası kendi kendine zorlama”ya kademeli olarak geçiş yapar. Kapsamlı deneyler, ShotStream’in saniyenin altında gecikmeyle son derece tutarlı çok kameralı videolar üretebildiğini ve tek bir GPU’da saniyede 16 kare (FPS) gerçek zamanlı üretim hızına ulaştığını göstermektedir. Üretim kalitesi, mevcut, daha yavaş çift yönlü modellerle rekabet eder veya hatta onları aşar ve gerçek zamanlı etkileşimli hikaye anlatımı için yeni bir yol açar. Eğitim ve çıkarım kodları ile önceden eğitilmiş modelin tamamı açık kaynaklıdır.
Henüz yorum yok. İlk yorumu siz yapın!