Nat. Biotechnol. | Üç modlu protein dil modeli ile gelişmiş protein arama

  • 06 Eki 2025 16:40
  • Güncelleme: 06 Eki 2025
    6 dk. Okuma Süresi
Yazı Özetini Göster

Araştırmacılar, proteinlerin dizilim, yapı ve işlev üçlü modunu aynı anda entegre eden ProTrek adında bir üç modlu protein dil modeli önerdiler. Karşılaştırmalı öğrenme ile, ProTrek, modlar arasında yakın ilişkiler kurarak, çoklu arama görevlerini gerçekleştirebiliyor. Mevcut dizilim veya yapı karşılaştırma araçlarına kıyasla, ProTrek hız ve kesinlik açısından daha iyi sonuçlar gösteriyor ve işlevle ilgili proteinleri daha verimli bir şekilde tanımlıyor. Hesaplama simülasyonları ve deneysel doğrulama, ProTrek sunucusunun 50 milyardan fazla protein gömüsünü önceden hesapladığını ve büyük ölçekli protein veritabanlarının araştırma ve analizleri için verimli bir platform sunduğunu göstermektedir.

Proteinler, hücrenin temel moleküler makineleridir ve çeşitli biyolojik süreçleri sürdürür. Dizilim, yapı ve işlev arasındaki ilişkiyi (SSF ilişkisi) çözümlemek, moleküler bilim ve farmakolojinin temel zorluklarından biridir. Ancak, proteinlerin yapısal çeşitliliği, çevre bağımlı işlev özellikleri ve karmaşık moleküler etkileşimler bu görevi son derece zorlaştırmaktadır.

Geleneksel karşılaştırma yöntemleri (BLAST, MMseqs2, Foldseek vb.), protein araştırmalarını ilerletmede önemli bir rol oynamıştır, ancak yalnızca tek modlu çiftler arası karşılaştırma ile sınırlıdır. Bu yöntem, çapraz modlu ilişkilerin keşfini kısıtlamakla kalmaz, aynı zamanda toplam bağlamı göz ardı etme eğilimindedir; bu durum, özellikle yaklaşık %30’u henüz açıklanmamış UniProt proteinleri için daha belirgindir. Sinir ağı tabanlı araçlar sabit bir kelime dağarcığından işlev etiketlerini tahmin edebilmesine rağmen, doğal dil tanımlarını anlamakta güçlük çekmektedir ve bu durum hassas işlev açıklamaları ve metin tabanlı protein aramaları için sınırlamalar getirmektedir.

Büyük dil modelleri ve protein dil modellerinin hızlı gelişimi ile araştırmacılar, proteinlerin dizilim, yapı ve işlev modlarını birleştiren bir temel model kurmayı önermişlerdir.

Yöntem

ProTrek, gerçek dizilim-yapı, yapı-işlev, dizilim-işlev eşleşmelerini yakınlaştırarak ve negatif örnekleri uzaklaştırarak üç modlu karşılaştırmalı öğrenmeyi benimser. Mimarisi şunları içerir:

  • Dizilim kodlayıcı: Önceden eğitilmiş ESM modelini kullanır.

  • Yapı kodlayıcı: Protein yapısını Foldseek kullanarak 3Di dizinine dönüştürür ve ardından BERT tarzı model ile modelleme yapar.

  • Metin kodlayıcı: Doğal dil işlev tanımlarını modellemek için PubMedBERT kullanır.

Eğitim verisi, yaklaşık 40 milyon protein-metin eşleşmesinden oluşmaktadır; bu eşleşmeler arasında yüksek kaliteli SWISS-PROT verisi ve TrEMBL’den seçilen “gürültü” eşleşmeleri bulunmaktadır. ProTrek eğitim sırasında altı çapraz modlu karşılaştırma kaybı ve iki maskeleme dil modelleme kaybını birleştirerek üç mod arasında tutarlı bir temsil sağlamaktadır.

Sonuçlar

Çapraz mod ve tek mod arama

ProTrek, dokuz tür arama görevini desteklemektedir (dizilim↔yapı, dizilim↔işlev, yapı↔işlev ve tek mod içi arama). SWISS-PROT test setinde ProTrek, ProteinDT ve ProtST’den belirgin şekilde üstün performans gösterdi; MAP göstergesi %30-60 oranında arttı, özellikle küresel arama görevlerinde bariz avantaj sağladı.

Metin-protein çevirisi

Literatüre dayalı doğrulama deneylerinde, ProTrek doğru bir şekilde metin tanımlarını hedef proteinlere haritalandırabilmektedir veya protein dizilimlerini doğru işlev tanımlarına aratabilmektedir. Eğitim setinde yer almayan yeni enzim veya CRISPR proteinleriyle karşılaştığında bile, ProTrek doğru bir şekilde tanıyabilmekte ve güçlü bir genelleme yeteneği sergilemektedir.

Protein işlev eğilimlerinin tanınması

Enzim aktivitesi ve CRISPR proteinlerinin işlevsel metinlerini karşılaştırarak, ProTrek, işlev olarak benzer fakat dizilim veya yapı farklılıkları belirgin proteinleri tanımlayarak, yakınsama evrimi fenomenini ortaya çıkarmaktadır. Bu, geleneksel homoloji tabanlı yöntemlerle elde edilmesi zor bir zorluktur.

Karşılaştırma araçları ile karşılaştırma

Dizilim-dizilim, yapı-yapı gibi görevlerde, ProTrek BLASTp, MMseqs2 ve Foldseek’i geride bırakarak, özellikle düşük benzerlik alanlarında (“alacakaranlık bölgesi”) işlev olarak benzer proteinleri doğru bir şekilde bulabilmektedir.

Deneysel doğrulama

Araştırmacılar, ProTrek kullanarak insan UDG protein işlevine benzer bir dizi aday protein bulmuş ve mutasyon tasarımı ile yeni bir timidnaz kesici enzim geliştirmiştir. Bu sayede baz düzenleme verimliliğini artırmışlardır. Bu proteinler hücresel deneylerde mevcut düzenleyicilerden daha yüksek verimlilik ve daha düşük off-target oranı göstermektedir.

Tahmin hızı ve ölçeklenebilirlik

Maksimum iç çarpan arama algoritmasına dayalı olarak, ProTrek birkaç saniye içerisinde yüz milyonlarca veri tabanı aramalarını tamamlayabilmekte ve mevcut araçlardan yüz kat daha hızlıdır. Şu anda ProTrek, 50 milyar protein verisini entegre etmiş olup, gelecekteki hedefi 100 milyar girdiyi kapsamak olacaktır.

Tartışma

ProTrek, protein dizilim, yapı ve işlev modlarını birleştirirken çarpıcı bir yetenek göstermektedir; yalnızca yüksek verimli ve doğru aramalar yapmakla kalmaz, aynı zamanda yakınsama evrimi analizi, işlev açıklaması ve yeni protein keşfini destekler. Avantajları şunlardır:

  • Çapraz mod temsil öğrenimi, tek mod kısıtlamalarını kırar.

  • Güçlü metin anlama yeteneği, doğal dil aramalarını destekler.

  • Yüksek verimli arama hızı, dev ölçekli protein veri tabanlarına uygundur.

ProTrek’in yeni tasarlanmış proteinler veya ince dizilim varyasyonları üzerinde yetersizlikleri olsa da, araştırmacılar onun, biyolojik hipotezler oluşturma, yeni proteinler keşfetme ve protein işlev desenlerini araştırma konusunda etkili bir araç haline geldiğini düşünmektedir.

Derleme | DrugOne ekibi

Kaynaklar

Su, J., He, Y., You, S. ve diğerleri. Üç modlu bir protein dil modeli, ileri düzey protein aramalarını mümkün kılar. Nat Biotechnol (2025).

https://doi.org/10.1038/s41587-025-02836-0

İçerikte yer alan görsellerin telif hakkı sorunları olması durumunda lütfen bizimle iletişime geçin

 

Bir Yorum Yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Benzer Yazılar