https://www.youtube.com/watch?v=DupfnOCH-JI OpenAI, 23 Ekim’de yaptığı açıklamayla “Company Knowledge” (Şirket Bilgisi) adlı yeni özelliği tanıttı. Bu...
Google Nano Banana Ekibi, Gemini 2.5 Flash Görüntü Teknolojisindeki Yeniliği Açıkladı
Google DeepMind’ın yeni yapay zeka modeli Gemini 2.5 Flash, yerel görüntü oluşturma ve düzenleme özellikleriyle dikkat çekiyor. Yüksek hız, sahne tutarlılığı ve yaratıcı yorumlama yetenekleriyle tanışın.
Gemini 2.5 Flash Görüntü: Yüksek Hızlı ve Tutarlı Görüntü Üretimi
Google DeepMind ekibinin en son geliştirdiği yapay zeka modeli Gemini 2.5 Flash Görüntü, yerel görüntü oluşturma ve düzenleme özellikleriyle büyük ilgi topladı. Yalnızca on saniyeden biraz fazla bir sürede yüksek kaliteli görüntüler üretebilen model, birden fazla konuşma boyunca sahne tutarlılığını koruyarak etkileşimli deneyimde benzersiz bir seviye sunuyor. Demo sırasında, modelin yüz hatlarını koruyarak bir Chicago sokak manzarası arka planı eklemesi, bu yeteneği tam olarak kanıtladı.
Projenin Arkasındaki Güçlü Ekip
Bu çığır açıcı projenin arkasında, ürün müdürü Logan Kilpatrick, araştırma mühendisleri Kaushik Shivakumar ve Robert Riachi gibi yapay zeka alanında geniş deneyime sahip çekirdek ekip üyeleri yer alıyor. Daha önce OpenAI’da geliştirici ilişkileri başkanı olarak görev alan Kilpatrick, Gemini 2.0 Flash’ın lansmanına da öncülük etmişti. Shivakumar, robotik ve çok modlu öğrenme konularındaki uzmanlığıyla öne çıkarken, Riachi ise görüntü oluşturma yeteneklerini konuşma tabanlı yapay zeka ile birleştirme hedefinde. Bu deneyimli ekip, projeye farklı bakış açıları getirerek modelin gelişimini hızlandırıyor.
Üç Temel Özellik ve Teknik Yenilikler
Gemini 2.5 Flash Image’ın teknik özellikleri üç ana alanda kendini gösteriyor:
- Görüntü Düzenleme ve Sahne Tutarlılığı: Model, kullanıcıların birden fazla düzenleme yapmasına rağmen sahnedeki tutarlılığı koruyabiliyor.
- Yaratıcı Yorumlama: Belirsiz veya net olmayan talimatları anlayarak yaratıcı çözümler sunma yeteneğine sahip.
- Metin İşleme: Yapay zeka tarafından oluşturulan görüntülerde yanlış metin gösterilmesi sorununu çözerek daha doğru ve anlamlı sonuçlar üretiyor.
Model, piksel mükemmelliğinde düzenlemeler için karmaşık talimatları birden fazla işlem turuna bölen “iç içe geçmiş bir üretim mekanizması” kullanıyor. Bu mekanizma sayesinde ev tasarımı görselleştirmeleri ve moda eşleştirmeleri gibi senaryolarda benzersiz avantajlar sunuyor. Metinden görsele görevlere odaklanan Imagen gibi modellerle karşılaştırıldığında, Gemini 2.5 karmaşık çok modlu görevler için daha uygun ve yaratıcı iş akışlarını destekliyor.
Geleceğe Yönelik Heyecan Verici Hedefler
Görsel üretim ürün lideri Nicole Brichtova, Gemini’nin nihai hedefinin tüm yöntemleri entegre ederek Yapay Genel Zeka’ya (AGI) doğru ilerlemek olduğunu belirtiyor. Araştırmacı bilim insanı Mostafa Dehghani, modelin gelecekte daha fazla zeka göstererek kullanıcı beklentilerini aşan sonuçlar üreteceğini umuyor. Bu beklentiler, Google DeepMind ekibinin yapay zeka görüntü oluşturma alanındaki iddialı hedeflerini açıkça ortaya koyuyor.