Aşağıdaki veri kümesini düşünün:
PC1 ekseni, projeksiyonun varyansını en üst düzeye çıkarıyor. Bu durumda, açıkça sol alttan sağ üst köşeye çapraz olarak gidecektir:
Orijinal veri kümesindeki çift en büyük mesafe bu iki dış nokta arasındadır; PC1'de neredeyse tamamen korunduğuna dikkat edin. Dıştaki noktaların her biri ile diğer tüm noktalar arasında daha küçük fakat yine de önemli ölçüde çift mesafeler vardır; bunlar da oldukça iyi korunmuş. Ancak, merkezi kümedeki noktalar arasındaki daha da küçük çift mesafelere bakarsanız, bazılarının güçlü bir şekilde çarpıtılmış olduğunu göreceksiniz.
Bu doğru sezgiyi verdiğini düşünüyorum: PCA, maksimum varyans ile düşük boyutlu altuzay bulur. Maksimal sapma, altuzayın merkezden uzaktaki noktalara yaklaşacak şekilde hizalanma eğiliminde olduğu anlamına gelir; bu nedenle çiftli en büyük mesafeler iyi korunma eğilimi gösterecek ve küçük mesafeler daha az korunacaktır.
1010 × 1010 × 10aslında en iyi PC1 tarafından korunur (kanıt için cevabım bakın). Ve büyük çift mesafelerin genellikle büyük skaler ürünler anlamına geldiği iddia edilebilir; aslında, MDS algoritmalarından biri (klasik / Torgerson MDS) bu varsayımı açıkça yapmaya isteklidir.
Özetlemek gerekirse:
- PCA, orijinal ve yeniden yapılandırılmış skaler ürünler arasındaki kare farkların toplamının minimum olması gerektiği için, çift skaler ürünler matrisini korumayı amaçlamaktadır.
- Bu, en büyük mutlak değeri olan skaler ürünleri korumayı tercih edeceği ve küçük mutlak değeri olanlara daha az önem vereceği, çünkü kare hataların toplamına daha az katkıda bulundukları anlamına gelir.
- Bu nedenle, PCA daha büyük skaler ürünleri küçük olanlardan daha iyi korur.
- Çift mesafeler, genellikle ancak her zaman böyle olmayan skaler ürünlere benzedikleri kadar korunacaktır. Durum buysa, daha büyük ikili mesafeler de küçük olanlardan daha iyi korunacaktır.