İşte sorunun cevabı olarak Lineer Diskriminant Analizi (LDA) hakkında kısa bir hikaye .
Bir değişken ve onunla ayrımcılık yapacak gruplarımız (sınıflarımız) olduğunda, bu ANOVA'dır. Değişkenin ayrım gücü veya .S S gruplar arasında / S S B / W grupları içindekSSbetween groups/SSwithin groupsB/W
Elimizdeki zaman değişkenleri, bu MANOVA olduğunu. Değişkenler ne toplam örnekte ne de gruplar içinde ilişkisizse, yukarıdaki ayrım gücü, benzer şekilde hesaplanır ve ; toplanmış grup içi dağılım matrisidir (yani , ilgili grupların sentroidi etrafında ortalanmış değişkenlerin SSCP matrislerinin toplamı ); grup arası dağılım matrisidir ; buradaB / W t r bir c , e ( S b ) / t r bir C e ( S w ) S ağırlık k S b = S t - S w S tpB/Wtrace(Sb)/trace(Sw)Swk p x p
Sb=St−SwSt tüm veriler için dağılım matrisidir (grand centroid etrafında ortalanmış değişkenlerin SSCP matrisi. ("Dağılım matrisi" sadece sample_size-1'e bağlılığı olmayan bir kovaryans matrisidir.)
Değişkenler arasında bir korelasyon olduğunda - ve genellikle vardır - yukarıdaki artık bir skaler değil bir matris olan ile ifade edilir . Bunun nedeni, bu "genel" ayrımcılığın ardında gizlenmiş ve kısmen paylaşan ayrımcı değişkenlerin olmasıdır.S - 1 ağırlık S b pB/WS−1wSbp
Şimdi, MANOVA'da batığı istiyoruz ve ayrışabilir yeni ve karşılıklı ortogonal içine gizli (kendi sayıdır değişkenler denir) diskriminant fonksiyonları veya ayırıcılar 1 - En güçlü ayırımcı olmak, ikinci sırada olmak, vb. Tıpkı Pricipal bileşen analizinde yaptığımız gibi. Orijinal korelasyonlu değişkenleri, ayrımcı güç kaybı olmadan korelasyonsuz ayrımcılarla değiştiriyoruz. Bir sonraki her ayrımcı daha zayıf ve daha zayıf olduğu için, büyük bir ayrımcı güç kaybı olmadan (yine, PCA'yı nasıl kullandığımıza benzer) küçük bir ilk ayrımcılarının alt kümesini kabul edebiliriz . Boyutsal küçülme nedeniyle LDA'nın özü budur min(p,k-1)mS−1wSbmin(p,k−1)m tekniği (LDA aynı zamanda bir Bayes sınıflandırma tekniğidir, ancak bu tamamen ayrı bir konudur).
LDA böylece PCA'ya benzer. PCA "korelasyon" u ayrıştırır, LDA "ayrılık" ı ayrıştırır. LDA'da, "ayrılığı" ifade eden yukarıdaki matris simetrik olmadığından, özdeğerlerini ve özvektörlerini bulmak için bir by-pass cebirsel hilesi kullanılır . Her Diskriminant Özdeğer (gizli değişken) onun ayırt edici gücüdür ilk paragrafta hakkında diyordu. Ayrıca, ilişkisiz olsa da, ayrımcıların orijinal değişken alanda çizilen eksenler olarak geometrik olarak dik olmadığını belirtmek gerekir . S / B1B/W
Okumak isteyebileceğiniz potansiyel olarak alakalı bazı konular:
LDA Manova gizli yapısını analiz içine "derinleşen" ve Kanonik korelasyon analizi özel bir durumu olan (şekilde aralarında tam muadilidir gibi ).
LDA nesneleri nasıl sınıflandırır ve Fisher katsayıları nelerdir. (Şu anda yalnızca kendi cevaplarıma bağlarım, hatırladığım gibi, ancak bu sitedeki diğer insanlardan da çok iyi ve daha iyi cevaplar var).
1 LDA ekstraksiyon fazı hesaplamaları aşağıdaki gibidir. özdeğerleri ( ), simetrik matris , burada olan Cholesky kökü arasında : bir üst-üçgensel bir matris, burada . özvektörlerine gelince , , burada yukarıdaki matrisin . (Not: , üçgen şeklinde, ters çevrilebilirLS−1wSb(U−1)′SbU−1USwU′U=SwS−1wSbV=U−1EE(U−1)′SbU−1U- düşük düzeyli dil kullanmak - paketlerin standart genel "inv" işlevini kullanmaktan daha hızlıdır.)
Açıklanan geçici çözüm-öz-bileşimi-of- yöntemi bazı programlarda (örneğin SPSS'de) gerçekleştirilirken, diğer programlarda "yarı zca-beyazlatma" yöntemi, sadece biraz daha yavaş olmak, aynı sonuçları verir ve başka bir yerde tarif edilir . Burada özetlemek gerekirse: için simetrik kökü için ZCA beyazlatma matrisi elde edin yoluyla neler yapılır); Daha sonra eigendecomposition arasında (simetrik bir matristir olan) diskriminant özdeğerler verir ve özvektörler , bu sayede ayırıcı özvektörlerS−1wSbSwS−1/2wS−1/2wSbS−1/2wLAV=S−1/2wA. "Yarı zca-beyazlatma" yöntemi, ve dağılım matrisleri ile çalışmak yerine, kaşu veri kümesinin tekil değer ayrışması yoluyla yeniden yazılabilir ; hesaplama hassasiyetini arttırır (tekillik durumunda önemli olan), ancak hızı feda eder.SwSb
Tamam, genellikle LDA'da hesaplanan istatistiklere bakalım. Özdeğerlere karşılık gelen kanonik korelasyonlar . Bir diskriminantın özdeğeri o diskriminantın ANOVA'sının / B'si iken, kareli kanonik korelasyon ANOVA'nın (T = toplam kareler toplamı).Γ=L/(L+1)−−−−−−−−−√B/WB/T
Eğer özvektörlerin sütunlarını normalleştirirseniz (SS = 1'e) bu değerler, eksen değişkenlerinin eksen-diskriminantlara dönüşünün kosinüsleri olarak görülebilir; bu yüzden onların yardımı ile ayrımcıları orijinal değişkenler tarafından tanımlanan dağılım grafiğinde eksenler olarak çizebiliriz (özvektörler, bu değişkenlerin uzayındaki eksenler olarak dik değildir).V
Standart dışı ayırıcı katsayıları veya ağırlıkları, sadece ölçekli özvektörleri . Bunlar, merkezlenmiş orijinal değişkenler tarafından ayrımcıların doğrusal tahmin katsayılarıdır. Ayırımcı işlevlerin kendileri (ayırıcı puanlar) değerleri , burada ortalanmış orijinal değişkenlerdir (her sütun ortalanmış olarak çok değişkenli veriler girin). Ayrımcılar ilişkisizdir. Ve hemen yukarıdaki formülle hesaplandığında, sınıf içi havuzlanmış kovaryans matrisinin kimlik matrisi olma özelliğine de sahiptirler.XCXC=N−k−−−−−√ VXCX
Standartlaştırılmamış katsayılara eşlik eden ve girdi değişkenlerinin sıfır olmayan araçları varsa ayrımcıların merkezden izin veren isteğe bağlı sabit terimler , burada p değişkenlerinin ortalamalarının çapraz matrisidir ve değişkenler arasındaki toplamdır.diag( ˉ X ) ∑ pC0=−∑pdiag(X¯)Cdiag(X¯)∑p
In standardize diskriminant katsayıları , bir diskriminant içine değişkenlerin katkısı değişkenleri farklı varyansları sahip ve farklı birimlerde ölçülü olabileceği gerçeğine ayarlanır; (burada diag (Sw), diyagonaliyle diyagonal ). "Standartlaştırılmış" olmalarına rağmen, bu katsayılar zaman zaman 1'i aşabilir (bu nedenle karıştırılmamalıdır). Giriş değişkenleri her sınıfta ayrı ayrı z standardize edilmişse, standart katsayılar = standart olmayanlar. Ayrımcılar, ayrımcıları yorumlamak için kullanılabilir.SwK=diag(Sw)−−−−−−−−√VSw
Değişkenler ve ayrımcılar arasındaki grup içi toplanmış korelasyonlar (bazen yük olarak da adlandırılır) "yapı matrisi", . Korelasyonlar, eşdoğrusallık sorunlarına duyarsızdır ve değişkenlerin katkılarının değerlendirilmesinde ve ayrımcıların yorumlanmasında alternatif (katsayılara) bir rehber oluşturur.R=diag(Sw)−1SwV
İris verilerinin diskriminant analizinin ekstraksiyon aşamasının tam çıktısına buradan bakın .
Biraz daha resmi olarak açıklayan ve burada yaptığım şeylerin ayrıntılarını açıklayan bu güzel yanıtı okuyun .
Bu soru LDA yapmadan önce verilerin standartlaştırılması konusunu ele almaktadır.