This is very geniş Ben kapsayacak şekilde imkansız olduğunu düşünüyorum, hangi soru kapsamlı tek cevap. Bu nedenle, ilgili cevaplara ve / veya kaynaklara bazı işaretçiler sağlamanın daha faydalı olacağını düşünüyorum. Aşağıdaki bilgileri ve düşüncelerimi sunarak tam olarak yapacağım şey bu.
Her şeyden önce, Microsoft Research'ten Burges (2009) tarafından boyutsallığın azaltılması konusunda mükemmel ve kapsamlı öğreticiden bahsetmeliyim . Monograf boyunca verilerin yüksek boyutlu yönlerine sık sık değiniyor . Bu çalışma, atıfta boyut indirgeme olarak boyut indirgenmesi , hediye olarak teorik besleme sorunu , bir anlaşılacağı sınıflandırmayı oluşan, boyut indirgeme yöntemleri yansıtmalı yöntem ve manifold modelleme yöntemleri yanı sıra, bir sağlar, genel her kategoride birden fazla yöntem.
İncelenen " projektif takip" yöntemleri, bağımsız bileşen analizi (ICA) , ana bileşen analizi (PCA) ve bunun çekirdek PCA ve olasılık PCA , kanonik korelasyon analizi (CCA) ve çekirdek CCA varyasyonu, doğrusal diskriminant analizi (LDA gibi varyasyonlarını içerir. ) , çekirdek boyut küçültme (KDR) ve diğerleri. İncelenen manifold yöntemleri arasında çok boyutlu ölçeklendirme (MDS) ve onun dönüm noktası MDS varyasyonu, Isomap , Yerel Doğrusal Gömme yer alırve Laplacian eigenmaps ve spektral kümeleme gibi grafik yöntemler . Orijinal yayının sizin için çevrimiçi (yukarıdaki bağlantı) veya çevrimdışı (Referanslar) erişememesi durumunda, incelenen yöntemlerin çoğunu burada listeliyorum .
Yukarıda belirtilen çalışmaya uyguladığım "kapsamlı" terimi için bir uyarı var . Gerçekten de oldukça kapsamlı olsa da, boyutsal küçültmeye yönelik bazı yaklaşımlar, özellikle gözlemlenemeyen (gizli) değişkenlere odaklanan monografta tartışılmadığından bu görecelidir . Bununla birlikte, bunlardan bazıları, başka bir kaynağa referanslarla - boyutsallığın azaltılması üzerine bir kitaptan - bahsedilmektedir.
Şimdi, konuyla ilgili veya ilgili cevaplarıma başvurarak söz konusu konunun daha dar yönlerini kısaca ele alacağım. İle ilgili olarak en yakın komşuları (NN) tipi yaklaşımlar yüksek boyutlu verilere, cevapları bakın burada (özellikle listemde kağıdı 4. kontrol etmek önerilir). Boyutsallığın lanetinin etkilerinden biri, yüksek boyutlu verilerin sıklıkla seyrek olmasıdır . Bu gerçeği göz önüne alındığında, benim alakalı cevaplar inanıyoruz burada ve burada üzerinde gerileme ve PCA için seyrek ve yüksek boyutlu veri yararlı olabilir.
Referanslar
Burges, CJC (2010). Boyut küçültme: Rehberli tur. Makine Öğreniminde Temeller ve Trendler®, 2 (4), 275-365. DOI: 10,1561 / 2200000002