Doktora Tezi | CMU 2024 | Açıklanabilir Grafik ve Zaman Serisi Madenciliği: Algoritmalar ve Uygulamalar

iowen
22 Eyl 2025 19:21
Güncelleme: 22 Eyl 2025

7 dk. Okuma Süresi

Yazı Özetini Göster

Bir sosyal ağ verildiğinde, kullanıcılar arasındaki bağlantıları nasıl tahmin edebilir ve bu bağların ortak ilgi alanlarından mı yoksa karşılıklı tanıdıklardan mı kaynaklandığını nasıl belirleyebiliriz? Benzer şekilde, zaman serisi verilerindeki anomalileri nasıl tespit edebilir ve bunların şüpheli doğasını nasıl açıklayabiliriz? Makine öğrenimi modelinin performansında son zamanlarda kaydedilen gelişmelere rağmen, bu yaklaşımlar genellikle şeffaf olmayan kara kutu yöntemleri olarak kalmaktadır. Bu durum, içsel yorumlanabilirliği sayesinde değerli içgörüler sağlayan açıklanabilir yapay zeka (XAI) alanını araştırmamızı teşvik etmektedir. Bu makalede sunduğumuz önerilerde, sunduğumuz her yöntem ya doğası gereği açıklanabilir ya da verileri veya kararları için açıklamalar sunabilir niteliktedir.

Grafik madenciliğinin ilk bölümünde, düğüm düzeyindeki görevlere odaklandık. Grafik yapısı içindeki ağ etkileri ve düğüm özellikleri içindeki mevcut bilgiler gibi çeşitli grafik bilgilerini analiz etmek için birkaç algoritma önerdik. Önerdiğimiz doğrusal yaklaşım, doğası gereği yorumlanabilir ve hızlı olmasının yanı sıra, düğüm sınıflandırma ve bağlantı tahmin görevlerinde temel yöntemlerden daha iyi performans gösteriyor. Düğüm sınıflandırmada, yöntemimiz ikinci en iyi temel yönteme göre %10,3 daha yüksek doğruluk elde ederken, 2,5 kat daha hızlıdır. Bağlantı tahmininde, yöntemimiz 12 gerçek dünya veri setinden 11’inde temel yöntemlerden daha iyi performans göstererek ortalama 1,1 sıralama elde ediyor.

Grafik madenciliğinin ikinci bölümünde, grafik düzeyindeki görevlere odaklanıyoruz. Sık görülen alt grafikleri keşfetmek için Minimum Tanım Uzunluğu (MDL) ilkesini ve öğrenilebilir grafik çekirdeklerini kullanıyoruz. Grafik anomali tespiti için, MDL tabanlı yaklaşımımız ikinci en iyi temel değerden 58 kat daha hızlıdır ve ortalama doğruluk oranı 1,3 kat daha yüksektir. Grafik regresyonunda, öğrenilebilir grafik çekirdeği tabanlı yöntemimiz ortalama mutlak hatayı %14,3 oranında azaltır.

Zaman serisi madenciliği için, temel odak noktamız tıbbi sinyaller (EEG) ve sensör sinyallerini kapsayan uygulamalarla birlikte anomali tespiti üzerindedir. Nokta anomalilerine odaklanan geleneksel yöntemlerin aksine, algoritmamız grup anomalilerini ele almaktadır. Ayrıca, yaklaşımımız hem hızlı hem de ölçeklenebilir olup, iki dakika içinde bir milyon veri noktası üzerinden hem nokta hem de grup anomalilerini tespit edip sıralayabilmektedir. Ek olarak, modelimiz zaman serileri içindeki anomaliler için karşılaştırma hiperparametrelerini etkili bir şekilde belirlemek üzere kendi kendine denetimli öğrenmeyi kullanarak, temel yöntemlere kıyasla ortalama 2,2’lik bir sıralama iyileştirmesi sağlamaktadır.

Son olarak, insan kaçakçılığı tespiti gibi grafik algoritmalarını kullanan birkaç etkili pratik uygulamayı sunuyoruz. Yaklaşımımız, insan kaçakçılığı reklamlarını tespit etmede %84’lük bir doğruluk oranına ulaşırken, sadece sekiz saat içinde dört milyon belgeyi işliyor.

Orjinal Konu：Explainable Mining of Graphs and TimeSeries: Algorithms and Applications
Tez konusu: Grafiklerin ve Zaman Serilerinin Açıklanabilir Madenciliği: Algoritmalar ve Uygulamalar

Tür: 2024 Doktora Tezi

Okul: Carnegie Mellon Üniversitesi (Amerika Birleşik Devletleri)

İndirme bağlantısı:

Bağlantı: https://kilthub.cmu.edu/articles/thesis/Explainable_Mining_of_Graphs_and_Time_Series_Algorithms_and_Applications/29448089?file=55904234

1.1 Motivasyon

Son on yılda, çeşitli grafik ve zaman serisi sorunlarını ele almak için çok sayıda etkili makine öğrenimi (ML) ve derin öğrenme yöntemi önerilmiştir. Ancak, çoğu yaklaşım performansı optimize etmek için tasarlanmıştır ve genellikle model şeffaflığının önemini göz ardı etmektedir. Başka bir deyişle, bu kara kutu yöntemleri ne doğası gereği yorumlanabilir ne de karar verme süreçleri için açıklamalar sunabilir.

Sonuç olarak, açıklanabilir yapay zeka (XAI) son yıllarda büyük ilgi görmüştür. Bu yaklaşımlar sadece açıklamalar sağlamakla kalmayıp, aynı zamanda etkinliği de korumayı amaçlamaktadır. XAI, özellikle sağlam çözümler gerektiren alanlarda, makine öğrenimi yöntemlerinin gerçek dünyada uygulanmasının önünü açmaktadır. Bunlar arasında hukuk, tıp, finans ve diğer alanlar bulunmaktadır. Örneğin, doktorların tıbbi kararlar almasına yardımcı olmak için bir makine öğrenimi yöntemi geliştirilirse, doktorlar bu yöntemin açıklamalar sunmasını isteyecektir. Önemli olan, yöntem ve doktorun birbirini tamamlaması ve klinisyenin karar verme sürecinin ardındaki mantığı anlamasını sağlamasıdır.

Çok sayıda veri türü arasında, grafikler ve zaman serileri en yaygın iki kategoriyi temsil eder. Sosyal ağlar, finansal işlem grafikleri ve ürün birlikte satın alma ağlarını kapsayan grafikler, çok sayıda pratik senaryoda uygulama alanı bulmuştur. Benzer şekilde, zaman serisi verileri, sunucu makinesi metrikleri, içme suyu IoT ağları ve elektroensefalogram kayıtları gibi çeşitli sistemlerin izlenmesinde yaygın olarak kullanılmaktadır. Bu da bizi zaman serilerindeki anomalileri tespit etme gibi kritik bir konuya götürür.

NETEFFECT, üç yeni katkısı sayesinde iyi performans gösterir: (a) NETEFFECT_TEST, GNE’nin varlığını istatistiksel olarak doğrular. (b) NETEFFECT_EST, grafik yorumlaması için x-ofili uyumluluk matrislerini kullanır. (c) NETEFFECT_EXP, yüksek hızı korurken düğüm sınıflandırmasında mükemmeldir.

RWK+ 更好。在 RWK 中，这两条路径完全相同；在 RWK+ 中，这两条路径有所不同，因为考虑了中间节点。
RWK+ daha üstündür. RWK’da bu iki yol aynıdır; RWK+’da ise ara düğümlerin eklenmesi nedeniyle farklılık gösterir.

RWK+CN: Her bir girdi grafiği, denetimsiz kayıp yoluyla uçtan uca öğrenilen bir dizi küçük gizli grafiğe olan RWK benzerliği ile temsil edilir.

(a) GEN2OUT, gerçek verilerle uyumludur. Soldaki görüntü, elektrot konumlarının gerçek verilere karşılık geldiği hastanın beyin taramasını göstermektedir. Sağdaki görüntü, gerçek nöbet konumlarıyla eşleşen tespit edilen kırmızı kümeleri göstermektedir. (b) HTTP saldırı tespit veri setinin ısı haritası; (c) GEN2OUT, GA1, GA2 ve GA3 olarak etiketlenen küme (DDoS) saldırılarını doğru bir şekilde tanımlamaktadır.

Aksiyomların gösterimi.

Uçtan uca kendinden uyarlanabilir TSAD için TSAP çerçevesi. Sol diyagram: Çevrimdışı eğitilmiş türevlenebilir artırma modeli faug(·; ϕ), normal verileri ve artırma hiperparametrelerini a girdi olarak alır ve sözde anomalileri ˜xaug çıktısı olarak verir. Sağ diyagram: Kendinden uyarlanabilir motor, önceden eğitilmiş faug’u entegre eder ve iki aşama arasında geçiş yapar: (i) Algılama aşaması – İterasyon t’de a(t) verildiğinde, fdet için algılayıcı parametreleri θ(t) tahmin etmek üzere Ltrn (ikili sınıflandırma kaybı) optimize edilir; (ii) Hizalama aşaması – fdet(·; θ(t)) verildiğinde, ztrn ∪ zaug gömülerini zval ile daha iyi hizalamak için artırmalar (a tarafından kontrol edilir) güncellenir. xval’ın hem normal hem de anormal zaman serilerini aynı anda içerdiğini, ancak etiketlerin eğitim sırasında hiçbir noktada bilinmeyen veya kullanılmayan kaldığını unutmayın.