Hayır, PCA'nın genel formülasyonları dışbükey problem değildir . Ancak dışbükey bir optimizasyon problemine dönüştürülebilirler.
Bunun içgörü ve eğlencesi, sadece cevabı almaktan ziyade dönüşümlerin sırasını takip ediyor ve görselleştiriyor: hedefte değil, yolculukta yatıyor. Bu yolculuktaki başlıca adımlar
Objektif fonksiyon için basit bir ifade elde edin.
Konveks olmayan alan adını olan alan adına genişletin.
Dışbükey olmayan hedefi, optimal değerlerine ulaştığı noktaları açıkça değiştirmeyecek şekilde değiştirin.
Yakından izlemeye devam ederseniz, SVD ve Lagrange çarpanlarının gizlendiğini görebilirsiniz - ancak bunlar sadece doğal bir ilgi için bir taraf gösterisi, ve daha fazla yorum yapmayacağım.
PCA'nın standart varyans maksimize edici formülasyonu (veya en azından önemli adımı)
Maximize f(x)= x′Ax subject to x′x=1(*)
buradaki matrisi A , verilerden oluşturulan simetrik, pozitif-semidefinit bir matristir (genellikle kareler ve ürün matrisi toplamı, kovaryans matrisi veya korelasyon matrisi).n×nA
(Eşdeğer olarak, kısıtsız nesneyi en üst düzeye çıkarmaya çalışabiliriz . Bu sadece daha nazik bir ifade değil, artık ikinci dereceden bir işlev değil - özel durumların grafiğinin hızlı bir şekilde dışbükey bir işlev olmadığını gösterecektir. Genellikle bu işlev, x → λ x yeniden ölçeklendirmeler altında değişmez olduğunu gözlemler ve daha sonra kısıtlanmış formülasyona ( ∗ ) indirir .)x′Ax/x′xx→λx(∗)
Herhangi bir optimizasyon problemi soyut olarak şu şekilde formüle edilebilir:
F : X → R işlevini olabildiğince büyük yapan en az bir bulun .x∈Xf:X→R
Bir optimizasyon sorununun iki ayrı özelliğe sahip olması durumunda dışbükey olduğunu hatırlayın :
Alan dışbükeydir. X⊂Rn Bu birçok şekilde formüle edilebilir. Birincisi, ve y ∈ X ve 0 ≤ λ ≤ 1 , λ x + ( 1 - λ ) y ∈ X olduğunda . Geometrik olarak: Bir çizgi parçasının iki uç noktası X'te olduğunda, tüm parça X'de bulunur .x∈Xy∈X0≤λ≤1λx+(1−λ)y∈XXX
Fonksiyon dışbükeydir. f Bu aynı zamanda birçok şekilde formüle edilebilir. Birincisi, ve y ∈ X ve 0 ≤ λ ≤ 1 olduğunda , f ( λ x + ( 1 - λ ) y ) ≥ λ f ( x ) + ( 1 - λ ) f ( y ) . ( X'e ihtiyacımız vardıx∈Xy∈X0≤λ≤1
f( λ x + ( 1 - λ ) y) ≥ λ f( x ) + ( 1 - λ ) f( y) .
Xherhangi bir anlam için bu durum için sırayla konveks olmak üzere) Geometrik. zaman herhangi bir çizgi parçası olan X , bir grafik f bu segment ile sınırlı olarak () yukarıdaki bağlantı ya da bölümünün üzerinde yer alır ( x , f ( x ) ) ve ( y , f ( y ) ) içinde R , n + 1 .x y¯Xf( x , f( x ) )( y, f( y) )R,n + 1
Dışbükey fonksiyon prototip zaman lokal olarak pozitif olmayan gelen katsayısı ile her paraboliktir: herhangi bir hat kesimi üzerinde bu şekilde eksprese edilebilir ile bir ≤ 0.y→ a y2+ b y+ ca ≤ 0.
ile ilgili bir zorluk , X'in S n - 1 ⊂ R n birim küresi olmasıdır , ki bu kesinlikle dışbükey değildir. ( ∗ )XSn - 1⊂ Rn Ancak, daha küçük vektörler ekleyerek bu sorunu değiştirebiliriz. Ölçeklendirip zaman olmasıdır bir faktör tarafından  , f ile çarpılır  2 . Zaman 0 < x ' x < 1 , biz ölçeklendirilebilir x kadar birim uzunluğuna ile çarparak λ = 1 / √xλfλ20 < x'x < 1x, böylecefartarancak birim topu içerisinde kalırDn={x∈ R n∣x′x≤1}. Öyleyse kendimizi yeniden formüle edelim(*)olarakλ = 1 / x'x---√> 1f Dn= { x ∈ Rn∣ x'x ≤ 1 }( ∗ )
En üst düzeye çıkarın f( x ) = x 'Bir X tabi x 'x ≤ 1(**)
Etki alanı ve açıkça dışbükey, bu yüzden oradayız. F grafiğinin dışbükeyliğini dikkate almaya devam etmektedir .X= Dnf
Problemi düşünmek için iyi bir yol - karşılık gelen hesaplamaları yapmak istemiyorsanız bile - Spektral Teorem açısındandır. ( ∗ ∗ ) Bu, bir dikgen dönüştürme vasıtasıyla söylüyor , aşağıdakilerden en az bir adet temel bulabilirsiniz R n ki burada A , yani: diyagonaldirPR,nbir
A = P'ΣP
nerede tüm çapraz kapatma girişlerini sıfırdır. Böyle bir P seçimi, A hakkında hiçbir şeyi değiştirmeyecek , ancak onu nasıl tanımladığınızı değiştirecek şekilde düşünülebilir : bakış açınızı döndürdüğünüzde, x → x ′ A x ( fonksiyon hiper yüzeylerinin eksenleri her zaman elipsoiddiler) koordinat eksenleriyle hizalandı.ΣPAx→x′Ax
Yana pozitif yarı kesin olduğu, bütün diyagonal girişleri Σ olmayan negatif olmalıdır. Eksenlere (sadece başka bir dikey dönüşümdür ve bu nedenle P'ye emilebilir ) σ 1 ≥ σ 2 ≥ ⋯ ≥ σ n ≥ 0 olmasını sağlamak için izin verebiliriz .AΣP
σ1≥σ2≥⋯≥σn≥0.
Biz izin ise yeni koordinatlar olarak X (gerektiren Y = P x , fonksiyon) f olduğux=P′yxy=Pxf
f(y)=y′Ay=x′P′APx=x′Σx=σ1x21+σ2x22+⋯+σnx2n.
Bu işlev kesinlikle dışbükey değildir ! Grafiği hiperparaboloidin bir parçası gibi görünüyor: iç kısmındaki her noktada , tüm σ i'nin negatif olmaması, onu aşağıdan ziyade yukarı doğru kıvırmasını sağlar . Xσi
Ancak, biz açabilirsiniz bir çok yararlı tekniği ile bir dışbükey sorun haline. (∗∗) Burada en oluşacak bilerek , en sabit çıkarma izin σ 1 den f , en azından bir sınır noktaları için X . Bu, f'nin optimize edildiği sınırdaki herhangi bir noktanın konumunu değiştirmeyecektir , çünkü sınırdaki f'nin tüm değerlerini aynı σ 1 değerine düşürür . Bu, işlevin incelenmesini önerirx′x=1σ1fXffσ1
g(y)=f(y)−σ1y′y.
Bu gerçekten sabit çıkarır den f sınır noktalarında, ve iç noktalarda çıkarır küçük değerler. Bu, g'nin f'ye kıyasla X'in iç kısmında yeni bir küresel maksimaya sahip olmamasını sağlayacaktır .σ1fgfX
ile - σ 1 y ′ y yerine bu el çabukluğu ile neler olduğunu inceleyelim . Çünkü P dik olan, Y ' , Y = x ' x . (Bu pratik olarak dikey bir dönüşümün tanımıdır.) Bu nedenle, x koordinatları açısından g yazılabilir−σ1−σ1y′yPy′y=x′xxg
g(y)=σ1x21+⋯+σnx2n−σ1(x21+⋯+x2n)=(σ2−σ1)x22+⋯+(σn−σ1)x2n.
Çünkü tüm i ,katsayılarının her bir sıfır ya da negatiftir. Sonuç olarak, (a) g dışbükeydir ve x 2 = x 3 = ⋯ = x n = 0 olduğunda(b) g optimize edilir. ( x ′ x = 1 daha sonra x 1 = ± 1 anlamına gelirve y = P ( ± 1 , 0 ,σ1≥σiiggx2=x3=⋯=xn=0x′x=1x1=±1 , yani imzalamak için - P'nin ilk sütunu.)y=P(±1,0,…,0)′P
Hadi mantığı yeniden özetleyelim. Çünkü sınır optimize edilir ∂ D , n = S , n - 1 burada y ' y = 1 , çünkü ön değişmesidir g sadece sabiti ile σ 1 nolu sınır üzerinde, ve değerler, g bile olan yakın değerlerine f iç kısmında D , n , maksimumları f maksimumlarının ile aynı olmalıdır g .g∂Dn=Sn−1y′y=1fgσ1gfDnfg