PCA ile sadece büyük çift mesafeleri koruyarak ne kastedilmektedir?


10

Şu anda t-SNE görselleştirme tekniğini okuyorum ve yüksek boyutlu verileri görselleştirmek için temel bileşen analizini (PCA) kullanmanın dezavantajlarından birinin, noktalar arasındaki sadece büyük çift mesafeleri koruduğu belirtildi. Yüksek boyutlu uzayda birbirinden ayrı olan anlam noktaları, düşük boyutlu altuzayda da çok farklı görünecektir, ancak diğer tüm çift mesafeler vidalanacaktır.

Birisi bunun neden olduğunu ve grafiksel olarak ne anlama geldiğini anlamama yardımcı olabilir mi?


PCA, daha yüksek boyutlarda miyopik olan Öklid ve Mahalanobis mesafeleri ile yakından ilişkilidir, küçük mesafeleri göremezler.
Aksakal

Ayrıca, PCA'nın en basit metrik MDS olarak görüldüğü gibi, toplanan kare şeklinde öklid mesafelerinin yeniden yapılandırılmasıyla ilgili olduğuna dikkat edin . Hense, küçük mesafeler için hassasiyet acı çekiyor.
ttnphns

Yanıtlar:


8

Aşağıdaki veri kümesini düşünün:

PCA veri kümesi

PC1 ekseni, projeksiyonun varyansını en üst düzeye çıkarıyor. Bu durumda, açıkça sol alttan sağ üst köşeye çapraz olarak gidecektir:

PCA yalnızca büyük çift mesafeleri koruyor

Orijinal veri kümesindeki çift en büyük mesafe bu iki dış nokta arasındadır; PC1'de neredeyse tamamen korunduğuna dikkat edin. Dıştaki noktaların her biri ile diğer tüm noktalar arasında daha küçük fakat yine de önemli ölçüde çift mesafeler vardır; bunlar da oldukça iyi korunmuş. Ancak, merkezi kümedeki noktalar arasındaki daha da küçük çift mesafelere bakarsanız, bazılarının güçlü bir şekilde çarpıtılmış olduğunu göreceksiniz.

Bu doğru sezgiyi verdiğini düşünüyorum: PCA, maksimum varyans ile düşük boyutlu altuzay bulur. Maksimal sapma, altuzayın merkezden uzaktaki noktalara yaklaşacak şekilde hizalanma eğiliminde olduğu anlamına gelir; bu nedenle çiftli en büyük mesafeler iyi korunma eğilimi gösterecek ve küçük mesafeler daha az korunacaktır.

1010×1010×10aslında en iyi PC1 tarafından korunur (kanıt için cevabım bakın). Ve büyük çift mesafelerin genellikle büyük skaler ürünler anlamına geldiği iddia edilebilir; aslında, MDS algoritmalarından biri (klasik / Torgerson MDS) bu varsayımı açıkça yapmaya isteklidir.

Özetlemek gerekirse:

  1. PCA, orijinal ve yeniden yapılandırılmış skaler ürünler arasındaki kare farkların toplamının minimum olması gerektiği için, çift skaler ürünler matrisini korumayı amaçlamaktadır.
  2. Bu, en büyük mutlak değeri olan skaler ürünleri korumayı tercih edeceği ve küçük mutlak değeri olanlara daha az önem vereceği, çünkü kare hataların toplamına daha az katkıda bulundukları anlamına gelir.
  3. Bu nedenle, PCA daha büyük skaler ürünleri küçük olanlardan daha iyi korur.
  4. Çift mesafeler, genellikle ancak her zaman böyle olmayan skaler ürünlere benzedikleri kadar korunacaktır. Durum buysa, daha büyük ikili mesafeler de küçük olanlardan daha iyi korunacaktır.

Bunun doğru bir görsel olduğunu düşünmüyorum. Boyutsallık artışı ile işlerin nasıl kötüleştiğini göstermiyor
Aksakal

2
Ne demek istediğimi anladığımdan emin değilim @Aksakal. Bakış açınızla alternatif bir cevap göndermeyi düşünün. Bence daha küçük çift mesafelerden daha iyi korunmanın etkisi zaten 2B'de mevcut ve neler olup bittiğini anlamak için yüksek boyutluluk hakkında düşünmeye gerek yok. Bu yüzden basit bir 2D örneğe odaklandım.
amip

Çektiğiniz şey herhangi bir yönteme uygulanabilir. Birkaç noktayı çok uzağa koyabilir ve gerisini ağırlayabileceklerini iddia edebilirim. Öklid mesafeleri ile ilgili sorun, dinamik menzilinin boyutsallık artışı ile küçülmesidir
Aksakal

+1, Ama bir aksanı, senden biraz farklı bir şekilde değiştirirdim (çoğunlukla 4. nokta). Mesele şu ki, bunlar mesafeler değildir ve bunlar skaler ürünlerdir ("çift merkezli" matris) - sonuçta, diyagonal olarak aynı bilgileri korurlar. Aksine, sorun PCA ve Faktör analizi oranlarına tam olarak benzemektedir. Torgerson'ın PCoA'sı, PCA olarak, sc'nin rekonstrüksiyonunu en üst düzeye çıkarmayı amaçlayacaktır. prod. matris çoğunlukla diyagonal aracılığıyla, diyagonal olmayan girişlerin nasıl takılacağını kontrol etmemek.
ttnphns

(devam) Bahsedilen diyagonalin izi genel değişkenliktir ve doğrudan tek tek mesafeleri geride bırakarak tüm kare çift mesafelerin toplamı ile doğrudan ilişkilidir. PCA tarafından yeniden yapılandırılmış veri bulutunun orijinal karelere toplamı açısından en yakın olduğunu belirten Eckart-Young teoremi açısından da ifade edilebilir; yani, eski noktalar ile PCA tarafından yansıtılan noktaları arasındaki toplam kare mesafesi minimumdur. Bu, eski ikili mesafelerle aynı değildir - yeni pw mesafeleri ilişkileri.
ttnphns
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.