LDA Cebiri. Bir değişkenin Fisher ayrım gücü ve Doğrusal Ayırım Analizi


13

Görünüşe göre,

Fisher analizi, sınıf içi dağılımı en aza indirirken aynı zamanda sınıflar arası ayrımı en üst düzeye çıkarmayı amaçlamaktadır. Bu nedenle, bir değişkenin ayrımcılık gücünün yararlı bir ölçüsü, diyagonal miktar ile verilir: .Bii/Wii

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

p x p( B ) ve Sınıf İçi ( W ) Arasındaki matrislerin boyutunun ( ) giriş değişkenlerinin sayısıyla verildiğini anlıyorum p. Bu göz önüne alındığında, tek bir değişkenin "ayrımcılık gücünün yararlı bir ölçüsü" nasıl olabilir ? B ve W matrislerini oluşturmak için en az iki değişken gereklidir, böylece ilgili izler birden fazla değişkeni temsil eder.Bii/Wii

Güncelleme: düşüncesinde Am Birazdan o değildir toplamı ima edilir bir iz üzerinde bir iz, ancak matris elemanı bölü ? Şu anda ifadeyi kavramla uzlaştırmanın tek yolu bu. B i i W i iBii/WiiBiiWii

Yanıtlar:


24

İşte sorunun cevabı olarak Lineer Diskriminant Analizi (LDA) hakkında kısa bir hikaye .

Bir değişken ve onunla ayrımcılık yapacak gruplarımız (sınıflarımız) olduğunda, bu ANOVA'dır. Değişkenin ayrım gücü veya .S S gruplar arasında / S S B / W grupları içindekSSbetween groups/SSwithin groupsB/W

Elimizdeki zaman değişkenleri, bu MANOVA olduğunu. Değişkenler ne toplam örnekte ne de gruplar içinde ilişkisizse, yukarıdaki ayrım gücü, benzer şekilde hesaplanır ve ; toplanmış grup içi dağılım matrisidir (yani , ilgili grupların sentroidi etrafında ortalanmış değişkenlerin SSCP matrislerinin toplamı ); grup arası dağılım matrisidir ; buradaB / W t r bir c , e ( S b ) / t r bir C e ( S w ) S ağırlık k S b = S t - S w S tpB/Wtrace(Sb)/trace(Sw)Swk p x p Sb=StSwSt tüm veriler için dağılım matrisidir (grand centroid etrafında ortalanmış değişkenlerin SSCP matrisi. ("Dağılım matrisi" sadece sample_size-1'e bağlılığı olmayan bir kovaryans matrisidir.)

Değişkenler arasında bir korelasyon olduğunda - ve genellikle vardır - yukarıdaki artık bir skaler değil bir matris olan ile ifade edilir . Bunun nedeni, bu "genel" ayrımcılığın ardında gizlenmiş ve kısmen paylaşan ayrımcı değişkenlerin olmasıdır.S - 1 ağırlık S b pB/WSw1Sbp

Şimdi, MANOVA'da batığı istiyoruz ve ayrışabilir yeni ve karşılıklı ortogonal içine gizli (kendi sayıdır değişkenler denir) diskriminant fonksiyonları veya ayırıcılar 1 - En güçlü ayırımcı olmak, ikinci sırada olmak, vb. Tıpkı Pricipal bileşen analizinde yaptığımız gibi. Orijinal korelasyonlu değişkenleri, ayrımcı güç kaybı olmadan korelasyonsuz ayrımcılarla değiştiriyoruz. Bir sonraki her ayrımcı daha zayıf ve daha zayıf olduğu için, büyük bir ayrımcı güç kaybı olmadan (yine, PCA'yı nasıl kullandığımıza benzer) küçük bir ilk ayrımcılarının alt kümesini kabul edebiliriz . Boyutsal küçülme nedeniyle LDA'nın özü budur min(p,k-1)mSw1Sbmin(p,k1)m tekniği (LDA aynı zamanda bir Bayes sınıflandırma tekniğidir, ancak bu tamamen ayrı bir konudur).

LDA böylece PCA'ya benzer. PCA "korelasyon" u ayrıştırır, LDA "ayrılık" ı ayrıştırır. LDA'da, "ayrılığı" ifade eden yukarıdaki matris simetrik olmadığından, özdeğerlerini ve özvektörlerini bulmak için bir by-pass cebirsel hilesi kullanılır . Her Diskriminant Özdeğer (gizli değişken) onun ayırt edici gücüdür ilk paragrafta hakkında diyordu. Ayrıca, ilişkisiz olsa da, ayrımcıların orijinal değişken alanda çizilen eksenler olarak geometrik olarak dik olmadığını belirtmek gerekir . S / B1B/W

Okumak isteyebileceğiniz potansiyel olarak alakalı bazı konular:

LDA Manova gizli yapısını analiz içine "derinleşen" ve Kanonik korelasyon analizi özel bir durumu olan (şekilde aralarında tam muadilidir gibi ). LDA nesneleri nasıl sınıflandırır ve Fisher katsayıları nelerdir. (Şu anda yalnızca kendi cevaplarıma bağlarım, hatırladığım gibi, ancak bu sitedeki diğer insanlardan da çok iyi ve daha iyi cevaplar var).


1 LDA ekstraksiyon fazı hesaplamaları aşağıdaki gibidir. özdeğerleri ( ), simetrik matris , burada olan Cholesky kökü arasında : bir üst-üçgensel bir matris, burada . özvektörlerine gelince , , burada yukarıdaki matrisin . (Not: , üçgen şeklinde, ters çevrilebilirLSw1Sb(U1)SbU1USwUU=SwSw1SbV=U1EE(U1)SbU1U- düşük düzeyli dil kullanmak - paketlerin standart genel "inv" işlevini kullanmaktan daha hızlıdır.)

Açıklanan geçici çözüm-öz-bileşimi-of- yöntemi bazı programlarda (örneğin SPSS'de) gerçekleştirilirken, diğer programlarda "yarı zca-beyazlatma" yöntemi, sadece biraz daha yavaş olmak, aynı sonuçları verir ve başka bir yerde tarif edilir . Burada özetlemek gerekirse: için simetrik kökü için ZCA beyazlatma matrisi elde edin yoluyla neler yapılır); Daha sonra eigendecomposition arasında (simetrik bir matristir olan) diskriminant özdeğerler verir ve özvektörler , bu sayede ayırıcı özvektörlerSw1SbSwSw1/2Sw1/2SbSw1/2LAV=Sw1/2A. "Yarı zca-beyazlatma" yöntemi, ve dağılım matrisleri ile çalışmak yerine, kaşu veri kümesinin tekil değer ayrışması yoluyla yeniden yazılabilir ; hesaplama hassasiyetini arttırır (tekillik durumunda önemli olan), ancak hızı feda eder.SwSb

Tamam, genellikle LDA'da hesaplanan istatistiklere bakalım. Özdeğerlere karşılık gelen kanonik korelasyonlar . Bir diskriminantın özdeğeri o diskriminantın ANOVA'sının / B'si iken, kareli kanonik korelasyon ANOVA'nın (T = toplam kareler toplamı).Γ=L/(L+1)B/WB/T

Eğer özvektörlerin sütunlarını normalleştirirseniz (SS = 1'e) bu değerler, eksen değişkenlerinin eksen-diskriminantlara dönüşünün kosinüsleri olarak görülebilir; bu yüzden onların yardımı ile ayrımcıları orijinal değişkenler tarafından tanımlanan dağılım grafiğinde eksenler olarak çizebiliriz (özvektörler, bu değişkenlerin uzayındaki eksenler olarak dik değildir).V

Standart dışı ayırıcı katsayıları veya ağırlıkları, sadece ölçekli özvektörleri . Bunlar, merkezlenmiş orijinal değişkenler tarafından ayrımcıların doğrusal tahmin katsayılarıdır. Ayırımcı işlevlerin kendileri (ayırıcı puanlar) değerleri , burada ortalanmış orijinal değişkenlerdir (her sütun ortalanmış olarak çok değişkenli veriler girin). Ayrımcılar ilişkisizdir. Ve hemen yukarıdaki formülle hesaplandığında, sınıf içi havuzlanmış kovaryans matrisinin kimlik matrisi olma özelliğine de sahiptirler.XCXC=Nk VXCX

Standartlaştırılmamış katsayılara eşlik eden ve girdi değişkenlerinin sıfır olmayan araçları varsa ayrımcıların merkezden izin veren isteğe bağlı sabit terimler , burada p değişkenlerinin ortalamalarının çapraz matrisidir ve değişkenler arasındaki toplamdır.diag( ˉ X )pC0=pdiag(X¯)Cdiag(X¯)p

In standardize diskriminant katsayıları , bir diskriminant içine değişkenlerin katkısı değişkenleri farklı varyansları sahip ve farklı birimlerde ölçülü olabileceği gerçeğine ayarlanır; (burada diag (Sw), diyagonaliyle diyagonal ). "Standartlaştırılmış" olmalarına rağmen, bu katsayılar zaman zaman 1'i aşabilir (bu nedenle karıştırılmamalıdır). Giriş değişkenleri her sınıfta ayrı ayrı z standardize edilmişse, standart katsayılar = standart olmayanlar. Ayrımcılar, ayrımcıları yorumlamak için kullanılabilir.SwK=diag(Sw)VSw

Değişkenler ve ayrımcılar arasındaki grup içi toplanmış korelasyonlar (bazen yük olarak da adlandırılır) "yapı matrisi", . Korelasyonlar, eşdoğrusallık sorunlarına duyarsızdır ve değişkenlerin katkılarının değerlendirilmesinde ve ayrımcıların yorumlanmasında alternatif (katsayılara) bir rehber oluşturur.R=diag(Sw)1SwV


İris verilerinin diskriminant analizinin ekstraksiyon aşamasının tam çıktısına buradan bakın .

Biraz daha resmi olarak açıklayan ve burada yaptığım şeylerin ayrıntılarını açıklayan bu güzel yanıtı okuyun .

Bu soru LDA yapmadan önce verilerin standartlaştırılması konusunu ele almaktadır.


Cevabınızda belirtildiği gibi, öncelikle LDA boyut küçültme yapmak için kullanılır, ancak amaç sadece sınıflandırma ise, Bayes yaklaşımını kullanabiliriz, değil mi? Ancak amaç boyut küçültme ise, orijinal girişini yönleri bulmak için Fisher'in yaklaşımını kullanmalıyız , değil mi? X
avokado

1
Evet. Ancak, "Balıkçının yaklaşımı" kelimesi belirsizdir. Tesiste 2 anlama gelebilir: 2 sınıfları için 1) LDA () kendisi ; 2) Balıkçının LDA'daki sınıflandırma fonksiyonları .
ttnphns
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.