Çeşitli boyutlardaki ("toplam varyans") varyans ile anlaşılan, her boyuttaki varyansların toplamıdır. Matematiksel olarak, bu kovaryans matrisinin bir izidir: iz basitçe tüm diyagonal öğelerin bir toplamıdır. Bu tanımın çeşitli güzel özellikleri vardır, örneğin, izleme dik doğrusal dönüşümler altında değişmezdir, yani koordinat eksenlerinizi döndürürseniz, toplam varyans aynı kalır.
Bishop'un kitabında (bölüm 12.1.1) kanıtlanmış olan, kovaryans matrisinin önde gelen özvektörünün maksimum varyans yönünü vermesidir. İkinci özvektör, ilk özvektör vb. İle dik olması gereken ek bir kısıtlama altında maksimum sapma yönünü verir (bunun Alıştırma 12.1'i oluşturduğuna inanıyorum). Amaç, 2D altuzayındaki toplam varyansı en üst düzeye çıkarmaksa, bu prosedür açgözlü bir maksimizasyondur: önce varyansı en üst düzeye çıkaran bir ekseni, ardından başka bir ekseni seçin.
Sorunuz: Bu açgözlü prosedür neden küresel bir maksimum elde ediyor?
İşte @whuber'ın yorumlarda önerdiği hoş bir argüman. Önce koordinat sistemini PCA eksenleriyle hizalayalım. Kovaryans matrisi köşegen olur: . Basitlik için aynı 2D durumu dikkate alacağız, yani maksimum toplam varyansa sahip düzlem nedir? İlk iki temel vektörün (toplam varyans ) verdiği düzlem olduğunu kanıtlamak istiyoruz .Σ = d i a g (λben)λ1+λ2
ve iki dikey vektörün kapsadığı bir düzlem düşünün . Bu düzlemdeki toplam varyansO Özdeğer doğrusal kombinasyonudur Yani , hepsi pozitif değil aşan yapmak katsayılarla (aşağıya bakınız) ve toplamı . Öyleyse, maksimum değere adresinden ulaşıldığı neredeyse açıktır .uv
u⊤Σ u +v⊤Σ v = ∑λbenu2ben+ ∑λbenv2ben= ∑λben(u2ben+v2ben) .
λben12λ1+λ2
Sadece katsayıların geçemeyeceğini göstermek için bırakılmıştır . Uyarı bu , burada olan -inci baz vektörü. Bu miktar, ve tarafından yayılan düzleme projeksiyonunun kare uzunluğudur . Bu nedenle kare uzunluğundan , QED'e eşit olan daha küçük olmalıdır .1u2k+v2k= ( u ⋅ k)2+ ( v ⋅ k)2kkkuvk| k|2= 1
Ayrıca bkz. @ Cardinal'in PCA'nın nesnel işlevi nedir? (aynı mantığı izler).