Denetimli boyut azalması


13

15K etiketli örneklerden (10 gruptan) oluşan bir veri setim var. Boyutların azaltılmasını etiketlerin bilgisini dikkate alan 2 boyuta uygulamak istiyorum.

PCA gibi "standart" denetimsiz boyutsallık azaltma tekniklerini kullandığımda, saçılma grafiğinin bilinen etiketlerle ilgisi yok gibi görünüyor.

Aradığım şeyin bir adı var mı? Bazı çözüm referanslarını okumak istiyorum.


3
Doğrusal yöntemler arıyorsanız, o zaman lineer diskriminant analizi (LDA) kullanmanız gerekir.
amip, Reinstate Monica

@amoeba: Teşekkürler. Ben kullandım ve çok daha iyi performans gösterdi!
Roy

Yardım ettiğine sevindim. Bazı referanslarla kısa bir cevap verdim.
amip, Reinstate Monica

1
Bir olasılık ilk olarak sınıf sentroidlerini kapsayan dokuz boyutlu boşluğa azaltmak ve daha sonra iki boyuta daha da azaltmak için PCA kullanmak olacaktır.
A. Donda

Related: stats.stackexchange.com/questions/16305 (muhtemelen yinelenen, belki de başka bir yol olsa da. Aşağıdaki cevabımı güncelledikten sonra buna geri döneceğim.)
amip, Reinstate Monica

Yanıtlar:


27

Denetimli boyutsallığın azaltılmasında en standart doğrusal yönteme doğrusal ayırıcı analiz (LDA) denir . Sınıf ayrımını en üst düzeye çıkaran düşük boyutlu projeksiyon bulmak için tasarlanmıştır. Bununla ilgili birçok bilgiyi etiketimiz altında ve örneğin serbestçe elde edilebilen İstatistiksel Öğrenmenin Unsurları gibi herhangi bir makine öğrenimi ders kitabında bulabilirsiniz .

İşte burada hızlı bir google arama ile bulduğum bir resim ; veri kümesinde iki sınıf bulunduğunda tek boyutlu PCA ve LDA projeksiyonlarını gösterir (benim tarafımdan eklenen kaynak):

PCA ve LDA

Başka bir yaklaşıma kısmi en küçük kareler (PLS) denir . LDA, grup etiketlerini kodlayan kukla değişkenlerle en yüksek korelasyona sahip projeksiyonlar aramak olarak yorumlanabilir (bu anlamda LDA, özel bir kanonik korelasyon analizi, CCA örneği olarak görülebilir). Buna karşılık PLS, grup etiketleriyle en yüksek kovaryansa sahip projeksiyonları arar. LDA, iki grup için (yukarıdaki resimde olduğu gibi) sadece 1 eksen verirken, PLS azalan kovaryans tarafından sıralanan birçok ekseni bulacaktır. Veri kümesinde ikiden fazla grup olduğunda, PLS'nin biraz farklı sonuçlar üretecek farklı "tatları" olduğunu unutmayın.

Güncelleme (2018)

Bu cevabı genişletmek için zaman bulmalıyım; Bu konu popüler gibi görünüyor, ancak yukarıdaki orijinal cevabım çok kısa ve yeterince ayrıntılı değil.

k


1
güzel grafik, çok açıklıyor
Titou
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.