PCA neden projeksiyonun toplam varyansını en üst düzeye çıkarıyor?


11

Christopher Bishop, Desen Tanıma ve Makine Öğrenimi kitabında , veriler daha önce seçilen bileşenlere dik bir alana yansıtıldıktan sonra, ardışık her ana bileşenin projeksiyonun varyansını maksimuma çıkardığına dair bir kanıt yazar . Diğerleri de benzer kanıtlar gösteriyor.

Bununla birlikte, bu sadece her ardışık bileşenin varyansı en üst düzeye çıkarmak için bir boyuta en iyi projeksiyon olduğunu kanıtlar. Bu neden, ilk olarak bu tür bileşenleri seçerek bir projeksiyonun 5 boyuttaki varyansının maksimize edildiğini ima ediyor?


Lütfen bize, bir veri kümesinin beş boyuta yansıtılmasından kaynaklanan beş boyutlu veri kümesinin "varyansı" ile ne anlama geleceğini söyleyebilir misiniz? (Böyle bir miktarın maksimizasyona tabi tutulması için tek bir sayı olması gerekir .)
whuber

3
Çok iyi bir nokta. Kitabındaki Chris Bishop, bir projeksiyonun varyansını en aza indirmeyi ifade ediyor ve bunun 1'den fazla boyut için ne anlama geleceği çok açık değil. Varyansın hangi şekilde minimize edildiğini ve böyle bir prosedürün neden birlikte minimize ettiğini öğrenmek istiyorum.
michal

1
@ user123675: Son yorumunuzda büyük olasılıkla "en üst düzeye çıkarmak" değil, "en üst düzeye çıkarmak" anlamına gelir.
amip

Evet haklısın. Afedersiniz!
michal

Yanıtlar:


11

Çeşitli boyutlardaki ("toplam varyans") varyans ile anlaşılan, her boyuttaki varyansların toplamıdır. Matematiksel olarak, bu kovaryans matrisinin bir izidir: iz basitçe tüm diyagonal öğelerin bir toplamıdır. Bu tanımın çeşitli güzel özellikleri vardır, örneğin, izleme dik doğrusal dönüşümler altında değişmezdir, yani koordinat eksenlerinizi döndürürseniz, toplam varyans aynı kalır.

Bishop'un kitabında (bölüm 12.1.1) kanıtlanmış olan, kovaryans matrisinin önde gelen özvektörünün maksimum varyans yönünü vermesidir. İkinci özvektör, ilk özvektör vb. İle dik olması gereken ek bir kısıtlama altında maksimum sapma yönünü verir (bunun Alıştırma 12.1'i oluşturduğuna inanıyorum). Amaç, 2D altuzayındaki toplam varyansı en üst düzeye çıkarmaksa, bu prosedür açgözlü bir maksimizasyondur: önce varyansı en üst düzeye çıkaran bir ekseni, ardından başka bir ekseni seçin.

Sorunuz: Bu açgözlü prosedür neden küresel bir maksimum elde ediyor?

İşte @whuber'ın yorumlarda önerdiği hoş bir argüman. Önce koordinat sistemini PCA eksenleriyle hizalayalım. Kovaryans matrisi köşegen olur: . Basitlik için aynı 2D durumu dikkate alacağız, yani maksimum toplam varyansa sahip düzlem nedir? İlk iki temel vektörün (toplam varyans ) verdiği düzlem olduğunu kanıtlamak istiyoruz .Σ=dbenbirg(λben)λ1+λ2

ve iki dikey vektörün kapsadığı bir düzlem düşünün . Bu düzlemdeki toplam varyansO Özdeğer doğrusal kombinasyonudur Yani , hepsi pozitif değil aşan yapmak katsayılarla (aşağıya bakınız) ve toplamı . Öyleyse, maksimum değere adresinden ulaşıldığı neredeyse açıktır .uv

uΣu+vΣv=Σλbenuben2+Σλbenvben2=Σλben(uben2+vben2).
λben12λ1+λ2

Sadece katsayıların geçemeyeceğini göstermek için bırakılmıştır . Uyarı bu , burada olan -inci baz vektörü. Bu miktar, ve tarafından yayılan düzleme projeksiyonunun kare uzunluğudur . Bu nedenle kare uzunluğundan , QED'e eşit olan daha küçük olmalıdır .1uk2+vk2=(uk)2+(vk)2kkkuvk|k|2=1

Ayrıca bkz. @ Cardinal'in PCA'nın nesnel işlevi nedir? (aynı mantığı izler).


1
(1) Ama nakit çeşitli miktarlarda (negatif olmayan özdeğerleri modelleme) ait cüzdan koleksiyonu verilmiş olması ve sabit bir sayı sezgisel açıktır seçerek o, sen seç ki en zengin cüzdan toplamınızı maksimize edecek nakit? Bu sezginin doğru olduğunun kanıtı neredeyse önemsizdir: en büyüğünü almadıysanız, aldığınız en küçük olanı daha büyük bir miktarla değiştirerek toplamınızı artırabilirsiniz. kkk
whuber

@ amoeba: eğer amaç toplamın varyanslarının toplamını en üst düzeye çıkarmak ve toplamın varyansını en üst düzeye çıkarmaksa, ikinci projeksiyonun birincisine dik olması için bir sebep yoktur.
Innuo

1
Özür dilerim - analizi, bir -boyutlu altuzaydaki toplam varyansın özdeğerlerin negatif olmayan lineer bir kombinasyonu olduğunu ve katsayıların hiçbirinin geçemeyeceğini fark edene kadar geliştirdiğinizi düşünmüştüm . katsayıların toplamı . (Bu basit bir matris çarpımı meselesidir - Lagrange çarpanlarına gerek yoktur.) Bu bizi cüzdan metaforuna getiriyor. Böyle bir analizin yapılması gerektiğine katılıyorum. k1k
whuber

1
@amoeba: Yani özvektörlerden oluşan tabanda problemi düşünüyoruz (diyagonal kovaryans matrisi ile çarparak varyanslarını hesaplarsak, bu u ve v'nin tabanıdır). u ve v sonunda onlar olacaklar, ama bu kanıt aşamasında bunu sanmamalıyız. Daha ziyade, herhangi bir noktada toplam 1'den büyük olsaydı, 2 vektörün artık ortogonal olmayacağı, tabanın dik olduğu ve vektörlerin her birinin en fazla 1 getirdiğini iddia etmeliyiz. Ama sonra tekrar, neden kendimizi dik u ve v vektörleriyle sınırlandırıyoruz?
michal

1
@Heisenberg: Ah, anlıyorum! Hayır, elbette öyle demek istemedim! Ama şimdi neden kafa karıştırıcı olduğunu görüyorum. Bu "temel seçimi" adımından kurtulmak için ispatın son kısmını yeniden yazdım. Lütfen düzenlememe bakın. Teşekkür ederim.
amoeba

2

Varyanslarının azalan sırasına göre sıralanan ilişkisiz rasgele değişkeniniz varsa ve toplamlarının varyansı en üst düzeye çıkacak şekilde seçmeniz istendiyse, ilk seçiminin açgözlü yaklaşımının bunu başaracağını kabul eder misiniz?Nkk

Kovaryans matrisinin özvektörlerine yansıtılan veriler esasen ilişkisiz veri sütunlarıdır ve varyansı ilgili özdeğerlere eşittir.N

Sezginin daha açık olması için, varyans maksimizasyonu ile kovaryans matrisinin özvektörünü en büyük özdeğerle hesaplamak ve ortogonal projeksiyonu korelasyonları kaldırmakla ilişkilendirmemiz gerekir.

İkinci ilişki benim için açıktır, çünkü iki (sıfır ortalama) vektör arasındaki korelasyon katsayısı iç çarpımları ile orantılıdır.

Varyansın maksimize edilmesi ile kovaryans matrisinin öz-ayrışması arasındaki ilişki aşağıdaki gibidir.

Varsayalım Dsütunları ortaladıktan sonra veri matrisidir. Maksimum varyansın yönünü bulmamız gerekiyor. Herhangi bir birim vektörü içinv, projeksiyon sonrası varyans v dır-dir

E[(Dv)tDv]=vtE[DtD]v=vtCov(D)v

ki bu maksimize edilirse v özvektörüdür Cov(D) en büyük öz değere karşılık gelir.


Orijinal soru daha doğrudur: k dik doğrusal kombinasyonları (aksine kvaryanslarının toplamı maksimize edilecek şekilde. İlk seçimde açgözlü yaklaşımın halakbunu başarıyor mu?
amip

bulgu N dikey doğrusal kombinasyonlar ve ardından ilk en varyantın seçilmesi kbunlardan biri sürecin tanımladığı şeydir (gevşekçe). Benim cevabım sadece açgözlü sürecin toplam varyansı en üst düzeye çıkarma hedefine ulaşmak için yeterli olan şey olduğunu iddia ediyor.
Innuo

Bu argümanı takip ettiğimden emin değilim. Diklik nasıl bir şey? Eğer varsaN- değişkenler ve seçmek zorunda k en yüksek toplam varyansla, ken yüksek varyansla (korelasyon olup olmadıklarından bağımsız olarak).
amip

Ah, karışıklığı anlıyorum. Cevabımda bir yazım hatası vardı. Şimdi düzeltildi.
Innuo

Sanırım burada bir şey üzerinde olabilirsiniz, ancak toplamın büyülü görünümünün açıklanması gerekiyor. Bunun PCA ve hatta spektral ayrışmalarla ne ilgisi var?
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.