NVIDIA iki açık kaynaklı ASR modelini yükseltiyor

NVIDIA, iki gelişmiş açık kaynaklı ASR modelinin piyasaya sürüldüğünü duyurdu: Canary-1b-v2 ve Parakeet-tdt-0.6b-v3. NVIDIA’nın bugüne kadarki en büyük açık kaynaklı çok dilli konuşma veri kümesi olan Granary üzerinde eğitilen bu modeller, çok dilli konuşma yapay zekası için güçlü ve kolay entegre edilebilir çözümler sunmak üzere tasarlandı.
Temel teknoloji vurguları:
- Canary-1b-v2:
- 1 milyar (1b) parametresi vardır ve yüksek doğruluk ve karmaşık görevler için tasarlanmıştır;
- Hugging Face açık kaynaklı çok dilli konuşma tanıma liderlik tablosunda mükemmel bir performans elde etti, üç kat daha fazla parametreye sahip modellerle rekabet etti ve 10 kata kadar daha hızlı çıkarım hızına ulaştı.
- Ses transkripsiyonunu destekliyor ve İngilizce ile 24 farklı dil arasında çeviri yapabiliyor; bu da güçlü çoklu görev yeteneklerini gösteriyor.
- Parakeet-tdt-0.6b-v3:
- 600 milyon (0,6b) parametre ile yüksek verimli ve düşük gecikmeli uygulamalar için optimize edilmiştir;
- Tek seferde 24 dakikaya kadar sesi yazıya dökebiliyor ve Hugging Face liderlik tablosunda benzer modeller arasında en yüksek verimi elde ediyor.
- Genel özellikler:
- Çoklu dil desteği: Her iki model de Rusça ve Ukraynacanın yanı sıra çoğu resmi AB dilini kapsayan 25 dile kadar destek sağlıyor;
- Otomatik dil tanımlama: Ses dosyasındaki dili ek bir uyarıya gerek kalmadan otomatik olarak tanımlayın ve yazıya dökün;
- Eğitim temeli: 1 milyon saatlik ses verisi içeren Granary veri kümesi üzerinde eğitim, sınırlı verilerle yüksek hedef doğruluğu elde edebilir; bu da özellikle düşük kaynaklı dilleri desteklemek için faydalıdır.
Canary-1b-v2:
Parakeet-tdt-0.6b-v3: