PCA ile elde edilen düşük dereceli yaklaşım matrisi ile rekonstrüksiyon hatasının hangi normları minimize edilmiştir?


Yanıtlar:


30

Tek kelime cevabı: Her ikisi de.


Normları tanımlamakla başlayalım. matrisi için , operatör normali ve Frobenius normu \ | X \ | _F = \ sqrt {\ sum_ {ij} X_ {ij} ^ 2} = \ mathrm {tr} (X ^ \ top X) = \ sqrt {\ sum s_i ^ 2} , burada s_i tekil değerler X , köşegen elemanları yani S tekil değer ayrışımı olarak , X = USV ^ \ En .2 x 2 = s u s x v 2X2XF=

X2=supXv2v2=mbirx(sben)
sıXSX=USV
XF=ΣbenjXbenj2=tr(XX)=Σsben2,
sbenXSX=USV

PCA, veriler merkezlendiğinde aynı tekil değer ayrışımı ile verilir. US ana bileşenlerdir, V ana eksenlerdir, yani kovaryans matrisinin özvektörleridir ve X sadece k en büyük tekil değerlere karşılık gelen k ana bileşenlerle rekonstrüksiyonu X_k = U_k S_k V_k ^ \ top ile verilmiştir .kXk=UkSkVk

Teoremi Eckart-Young söylüyor rekonstrüksiyon hatasının normunu minimize matristirTüm matrisler arasında dereceli . Bu hem Frobenius normu hem de operatör normu için geçerlidir. Yorumlarda @ cardinal'in işaret ettiği gibi, ilk önce 1907'de Frobenius davası için Schmidt (Gram-Schmidt ününden) Schmidt tarafından ispatlandı. Daha sonra 1936'da Eckart ve Young tarafından yeniden keşfedildi ve şimdi çoğunlukla isimleriyle ilişkilendiriliyor. Mirsky, 1958'deki teoremi üniter dönüşümler altında değişmeyen tüm normlara yaydı ve bu, operatör 2 normunu da içeriyor.X - A A k 2XkX-birbirk2

Bu teoremi bazen Eckart-Young-Mirsky teoremi olarak adlandırır. Stewart (1993), Schmidt yaklaşım teoremi olarak adlandırıyor. Schmidt-Eckart-Young-Mirsky teoremi adını bile gördüm.


Operatör kanıt2

Let tam rütbe olması . As rank taşımaktadır , onun boş alanı vardır boyutları. En büyük tekil değerlere tekabül eden sağ tekil vektörlerinin kapsadığı alan boyutlarına sahiptir. Bu yüzden bu iki alan kesişmeli. Let kesiştiği bir birim vektör. Ardından anladık: QED.n A k n - k k + 1 X k + 1 w X - A 2 2( X - A ) w 2 2 = X w 2 2 = k + 1 i = 1 s 2 i ( v ı w ) 2s 2Xnbirkn-kk+1Xk+1w

X-bir22(X-bir)w22=Xw22=Σben=1k+1sben2(vbenw)2sk+12=X-Xk22,

Frobenius normunun kanıtı

en aza indiren dereceli matrisini bulmak istiyoruz . Biz çarpanlara edebilir nerede, sahiptir ortonormal sütunları. Sabit için simge durumuna çözümünde bir gerileme sorunudur . Taktığımızda, şimdi burada , kovaryans matrisidir , yanik X - A 2 F A = B W W k X - B W 2 W B = X W X - X W W 2 = X 2 - X W W 2 = c o n s t - t r (birkX-birF2bir=BWWkX-BW2WB=XW

X-XWW2=X2-XWW2=cOnst-tr(WWXXWW)=cOnst-cOnsttr(WΣW),
ΣXΣ=XX/(n-1). Bu , projeksiyonun toplam varyansını maksimize eden bazı ortonormal vektörlerin sütunları olarak alarak rekonstrüksiyon hatasının en aza indirildiği anlamına gelir .Wk

Bu ilk olduğu iyi bilinmektedir kovaryans matrisinin öz vektörleri. Gerçekten de, eğer , o zaman . Yazma da ortonormal sütun, bundan elde bulunur en fazla olduğunda elde . Teorem daha sonra hemen takip eder.kX=USVΣ=VS2V/(n-1)=VΛVR,=VW

tr(WΣW)=tr(R,ΛR,)=ΣbenλbenΣjR,benj2Σben=1kλk,
W=Vk

Aşağıdaki üç ilgili konuya bakın:


Frobenius normu için daha önce kanıtlanmış bir girişim

Bu kanıtı çevrimiçi bir yerde buldum ama yorumlarda @ cardinal tarafından açıklandığı gibi yanlış (bir boşluk içeriyor).

Frobenius normu üniter dönüşümler altında değişmez çünkü tekil değerleri değiştirmezler. Öyleyse anladık: burada . Devam: tüm köşegen dışı unsurları sıfır olduğunda ve tüm köşegen terimleri en büyük tekil değerlerini [burada boşluğu: açık değil] , yani ve dolayısıyla .

X-birF=USV-bir=S-UbirV=S-B,
B=UbirV
X-birF=Σbenj(Sbenj-Bbenj)2=Σben(sben-Bbenben)2+ΣbenjBbenj2.
Bkksben BOptbenmbirl=SkbirOptbenmbirl=UkSkVk

2
Frobeniius normunda ispat doğru değildir (ya da en azından tamamlanmıştır), çünkü buradaki argüman aynı değere sahip bir matrisin diğer küçük terimlerin bir kısmını "küçük" kapalıyken iptal edebilir diyagonallar. Boşluğu daha net görmek için, köşegenlerin sabit tutulması ve köşegenlerin dışı sıfırlanmasının "söz konusu matrisin rütbesini artırabileceğine dikkat edin!"
kardinal

1
Ayrıca SVD'nin Beltrami (en azından oldukça genel, özel bir vaka olsa da) ve Ürdün'ün 1874 gibi erken bir tarihte biliniyor olduğuna dikkat edin.
Kardinal

@ cardinal: Hmmmm, boşluğu gördüğümden emin değilim. Eğer bazı diğer diyagonal koşullar ortadan kaldıran yerine , en büyük ve sıfırdan farklı olan çapraz-dışı şartlar yerine, daha sonra her iki toplamları, ve , artacak. Bu yüzden sadece yeniden yapılanma hatası artacaktır. Yok hayır? Yine de, literatürde Frobenius normu için başka bir kanıt bulmaya çalıştım ve bir şekilde operatör norm durumundan kolayca takip etmesi gerektiğini okudum. Ama şimdiye kadar nasıl olması gerektiğini görmüyorum ...S k i ( s i - B i i ) 2 i j B 2 i jBSkΣben(sben-Bbenben)2ΣbenjBbenj2
amip diyor Reinstate Monica

3
Ben bunu tekil değer ayrışımı, erken tarihinin günü, GW Stewart (1993) gibi SIAM Review , vol. 35, hayır. 4, 551-566 ve tarihsel meselelere önceden gösterdiğiniz ilgiye bakıldığında, sizlerin de olacağını düşünüyorum. Ne yazık ki, Stewart’ın Schmidt'in 1907 kanıtının zarafetini istemeden aşırı reddettiğini düşünüyorum. İçinde saklı olan, Stewart'ın göz ardı ettiği ve gerçekten oldukça güzel olan bir regresyon yorumu. Aldığınız ilk köşegenleştirme yaklaşımını izleyen, ancak boşluğu doldurmak için fazladan çalışma gerektiren başka bir kanıt var. (devam)
kardinal

2
@ cardinal: Evet, haklısın, şimdi ben de farkı görüyorum. Stewart gazetesi için çok teşekkürler, bu çok ilginç bir okuma oldu. Stewart'ın Schmidt'in ve Weyl'in kanıtlarını sunduğunu görüyorum, ancak ikisi de burada kopyalamak istediğimden daha karmaşık görünüyor (ve şimdiye kadar onları dikkatle incelemek için zamanım olmadı). Şaşırdım: Bunun çok basit bir sonuç olmasını beklerdim, ancak düşündüğümden daha az önemsiz görünüyor. Özellikle, Frobenius davasının operatör normundan çok daha karmaşık olması beklenmezdi. Yayını şimdi düzenleyeceğim. Yeni Yılınız mutlu olsun!
amip diyor Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.