NVIDIA, performans ve verimlilikte çığır açan Jet-Nemotron serisi küçük modellerini piyasaya sürdü

  • 28 Ağu 2025 18:35
  • Güncelleme: 28 Ağu 2025
    2 dk. Okuma Süresi
Yazı Özetini Göster
✨ Bu İçeriği Yapay Zekâ ile Özetle
🧠 Yazının Kısaca Özeti:
NVIDIA, Jet-Nemotron-2B ve Jet-Nemotron-4B olmak üzere iki boyutta sunulan yeni Jet-Nemotron dil modeli serisini yakın zamanda piyasaya sürdü. Tamamen Çinli bir ekip tarafından geliştirilen bu seri, Post-Nöral Mimari Arama (PostNAS) ve yeni doğrusal dikkat modülü JetBlock'u sunarak performanstan ödü

NVIDIA, Jet-Nemotron-2B ve Jet-Nemotron-4B olmak üzere iki boyutta sunulan yeni Jet-Nemotron dil modeli serisini yakın zamanda piyasaya sürdü. Tamamen Çinli bir ekip tarafından geliştirilen bu seri, Post-Nöral Mimari Arama (PostNAS) ve yeni doğrusal dikkat modülü JetBlock’u sunarak performanstan ödün vermeden çıkarım verimliliğini önemli ölçüde artırıyor.

Temel teknolojiler ve öne çıkanlar

Post-Nöral Mimari Arama (PostNAS): Sıfırdan yeni bir mimari eğitmek yerine, PostNAS önceden eğitilmiş Transformatör modellerini optimize etmek için verimli bir süreçtir. En önemli dikkat katmanlarını akıllıca belirleyip optimize ederek, yüksek doğruluk sağlarken uzun bağlamlı çıkarımın verimini önemli ölçüde artırır.

  • JetBlock: Temel bir teknolojik yenilik olan JetBlock, yenilikçi bir doğrusal dikkat modülüdür. Dinamik evrişimi donanıma duyarlı mimari arama ile birleştiren JetBlock, Mamba2 gibi önceki tasarımlara benzer eğitim ve çıkarım hızlarında daha yüksek doğruluk elde eder.
  • Üstün performans: Kapsamlı kıyaslama testlerinde Jet-Nemotron ailesi, matematik, kod, sağduyu, geri alma ve uzun bağlam dahil olmak üzere birden fazla boyutta Qwen3, Gemma3 ve Llama3.2 gibi ana akım açık kaynaklı modellerden daha iyi performans gösterdi.
  • Şaşırtıcı verimlilik: Mimari optimizasyonlar sayesinde, NVIDIA H100 GPU’lardaki Jet-Nemotron serisi modellerin çıkarım verimliliği 53,6 kata kadar artırılabilir. Özellikle, kod çözme verimliliği, uzun bağlam işlemede 50 katın üzerinde bir büyüklük sırasına kadar artırılabilir.

Jet-Nemotron’un piyasaya sürülmesi, NVIDIA’nın küçük modeller üzerindeki devam eden araştırmalarını sürdürüyor ve küçük parametre sayılarına sahip modellerde hem performans hem de verimlilik elde etme konusunda muazzam bir potansiyel olduğunu daha da ortaya koyuyor.

İlgili bağlantılar: github.com/NVlabs/Jet-…

Bir Yorum Yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Benzer Yazılar