Neden sadece orada


22

PCA'da, sayısı sayısı numune sayısından büyük (hatta eşit) olduğunda , neden en fazla sıfır olmayan özvektörlere sahip olacaksınız ? Başka bir deyişle, kovaryans matrisinin boyutları arasındaki sırası .N N - 1 d N N - 1dNN1dNN1

Örnek: Örnekleriniz boyutunda vectorized resimlerdir , ancak yalnızca .N = 10d=640×480=307200N=10


5
puanın 2B veya 3B olduğunu hayal edin . Bu noktaların işgal ettiği manifoldun boyutu nedir? Cevap N - 1 = 1 : iki nokta daima bir çizgide uzanır (ve bir çizgi 1 boyutludur). Alanın tam boyutsallığı önemli değildir ( N'den büyük olduğu sürece ), puanlarınız yalnızca 1 boyutlu alt alanı kaplar. Dolayısıyla, varyans sadece bu alt alanda, yani 1 boyut boyunca “yayılır”. Bu herhangi bir N için de geçerlidir . N-=2N--1=1N-N-
amip diyor Reinstate Monica

1
@ Amoeba'nın yorumuna sadece ek bir hassasiyet eklerdim. Menşe noktası da önemlidir. Bu nedenle, N = 2 + kaynağınız varsa, boyut sayısı en fazla 2'dir (1 değil). Bununla birlikte, PCA'da genellikle verileri merkezleriz, bu da kökenini veri bulutunun alanı içine koyduğumuz anlamına gelir - o zaman bir boyut tüketilir ve cevap, amip tarafından gösterildiği gibi "N-1" olur.
ttnphns 9:14

Beni şaşırtan şey bu. Boyutu yok eden merkezleme değil, değil mi? Tam olarak N numuneleriniz ve N boyutlarınız varsa, merkezden sonra bile hala N özvektörleriniz var ..?
GrokingPCA

2
Niye ya? Tek bir boyutu yok eden merkezlemedir. Merkezleme (aritmetik ortalamaya göre) "orijini" veriyi "dışar" dan "yayılmış" uzaya taşır. N = 2 örneği ile. 2 puan + bazı kökenler genellikle düzlemi kaplar. Bu verileri ortaladığınızda, orijini 2 nokta arasındaki yarıya kadar düz bir çizgiye koyun. Bu nedenle, veriler artık yalnızca çizgiyi kapsıyor.
ttnphns

3
Euclid bunu 2300 yıl önce zaten biliyordu: iki nokta bir çizgi belirler, üç nokta bir uçak belirler. Genelleme, noktaları bir N - 1 boyutlu Öklid uzayını belirler . N-N--1
whuber

Yanıtlar:


20

PCA'nın ne yaptığını düşünün. Basitçe söylemek gerekirse, PCA (en yaygın şekilde çalışan), aşağıdakileri yaparak yeni bir koordinat sistemi oluşturur:

  1. menşeini verilerinizin merkezine kaydırmak,
  2. eksenleri sıkmak ve / veya uzunlukları eşit yapmak için germek, ve
  3. eksenlerinizi yeni bir yöne döndürür.

(Daha fazla ayrıntı için, bu mükemmel CV iş parçacığına bakın: Temel bileşen analizi, özvektörler ve özdeğerler anlamında .) Ancak, yalnızca eksenlerinizi eski bir şekilde döndürmez. Yeni (ilk ana bileşen) verilerinizin maksimum varyasyon yönüne yönlendirilmiştir. İkinci ana bileşen, birinci ana bileşene ortogonal olan bir sonraki en büyük varyasyon miktarı yönünde yönlendirilir . Kalan ana bileşenler de aynı şekilde oluşturulur. X1

Bunu akılda tutarak, hadi @ amoeba'nın örneğini inceleyelim . İşte üç boyutlu uzayda iki noktalı bir veri matrisi:
Şimdi bu noktaları (sözde) üç boyutlu bir dağılım grafiğinde inceleyelim:

X=[111222]

görüntü tanımını buraya girin

(1.5,1.5,1.5)(0,0,0)(3,3,3)(0,0,3)(3,3,0)(0,3,0)(3,0,3)

N-=2N--1=1

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.