Kaynakların doğrusal, karesel ve Fisher'ın ayrımcı analizi üzerindeki anlaşmazlığı


10

Ayrımcı analiz çalışıyorum, ancak birkaç farklı açıklamayı uzlaştırmakta zorlanıyorum. Bir şeyleri kaçırmam gerektiğine inanıyorum, çünkü daha önce bu (görünüşte) tutarsızlıkla karşılaşmadım. Bununla birlikte, bu web sitesinde ayrımcı analiz ile ilgili soruların sayısı, karmaşıklığının bir kanıtı gibi görünmektedir.

Çeşitli sınıflar için LDA ve QDA

Ana ders kitabım Johnson & Wichern Uygulamalı Çok Değişkenli İstatistiksel Analiz (AMSA) ve öğretmenimin notları buna dayanıyor. İki grup ayarını göz ardı edeceğim, çünkü bu ayardaki basitleştirilmiş formüllerin en azından bazı karışıklıklara neden olduğuna inanıyorum. Bu kaynağa göre LDA ve QDA, sınıflandırma kuralının beklenen yanlış sınıflandırma maliyetine (ECM) dayalı parametrik (çok değişkenli normallik varsayarak) bir uzantısı olarak tanımlanmaktadır. ECM, herhangi bir gruba yeni bir gözlemin x sınıflandırılması için şartlı beklenen maliyetin toplamını (yanlış sınıflandırma maliyetleri ve önceki olasılıkları içerir) ve bunu en aza indiren sınıflandırma bölgelerini seçeriz. burada

ECM=i=1groupspi[k=1; ikgroupsP(k|i)c(k|i)]
P(k|i)=P(classifying item as group k | item is group i)=Rkfi(x)dx , fi(x) popülasyon yoğunluğu, Rk grup k'deki gözlem kümesidir, c maliyettir ve pi önceki olasılıklardır. Yeni gözlemler olan iç terimi dışında kalan bölümü iç terimi en küçük ya da eşit olduğu bir grup tahsis edilebilir pkfk(x) en büyüğüdür

Sözde bu sınıflandırma kuralı, sadece Bayes'in bahsettiğim yaklaşım olduğunu varsayabileceğim "posterior olasılıkları en üst düzeye çıkaran" (sic AMSA) ile eşdeğerdir. Bu doğru mu? ECM daha eski bir yöntem, çünkü bunun başka hiçbir yerde gerçekleştiğini hiç görmedim.

Normal popülasyonlar için bu kural ikinci dereceden ayırımcı puanı basitleştirir: .

diQ(x)=12log(Σi)12(xμi)TΣi1(xμi)+log(pi)

Bu , bir puandan ziyade ikinci dereceden ayrımcı bir işlev olarak tanımlansa da, 110. sayfadaki İstatistiksel Öğrenmenin Unsurları (ESL) formül 4.12 ile eşdeğer görünmektedir . Dahası, buraya çok değişkenli yoğunlukların log-oranı yoluyla gelirler (4.9). Bu Bayes'in yaklaşımı için başka bir isim mi?

Eşit kovaryans varsaydığımızda, formül doğrusal ayırıcı puan için daha da basitleştirir .

di(x)=μiTΣ1x12μiTΣ1μi+log(pi)

Bu formül, ilk terimin tersine çevrildiği (4.10) farklıdır: . ESL sürümü aynı zamanda R'de İstatistiksel Öğrenme'de listelenen sürümdür . Ayrıca, AMSA'da sunulan SAS çıktısında , ve bir katsayıdan oluşan doğrusal bir diskriminant fonksiyonu tanımlanmıştır vektör , görünüşte ESL sürümü ile tutarlı.xTΣ1μk0.5X¯jTCOV1X¯j+ln priorjCOV1X¯j

Bu tutarsızlığın arkasındaki sebep ne olabilir?

Ayrımcılar ve Fisher yöntemi

Not: Bu soru çok büyük sayılırsa, bu bölümü kaldıracağım ve yeni bir soru açacağım, ancak önceki bölümde oluşturuldu. Ne olursa olsun, metin duvarı için özür dilerim, biraz yapılandırmak için elimden geleni yaptım, ama eminim bu yöntemle ilgili karışıklığım bazı garip mantık sıçramalarına yol açtı.

AMSA kitabı, birkaç grup için de balıkçının yöntemini anlatmaya devam ediyor. Ancak, ttnphns işaret ettiği çoklu kez FDA iki grup ile LDA basitçe olduğunu. O zaman bu çok sınıflı FDA nedir? Belki de FDA'nın birden fazla anlamı olabilir?

AMSA özvektörleri olarak Fisher ayırıcılar tarif oranı en üst düzeye çıkarmak . Doğrusal kombinasyonlar örnek ayırıcılardır ( ). Sınıflandırma için burada r, kullanmak istediğimiz ayrımcıların sayısıdır. Tüm ayrımcıları kullanırsak, bu kural doğrusal ayırma işlevine eşdeğer olacaktır.W1Ba^TBa^a^TWa^e^ixmin(g1,p)j=1r[e^jT(xx¯k)]2

LDA ile ilgili birçok açıklama AMSA kitabında FDA olarak adlandırılan metodolojiyi tanımlamaktadır; BW matrislerinin ayrışması değilse FDA ile kastedilen nedir?

Bu, ilk kez kitapta ayrımcı analizin boyut küçültme yönünden bahsederken, bu sitedeki bazı cevaplar bu tekniğin iki aşamalı doğasını vurgular, ancak bu iki grup ortamında net değildir, çünkü sadece 1 diskriminant. Çok formüllü LDA ve QDA için yukarıdaki formül göz önüne alındığında, ayrımcıların nerede göründüğü hala açık değildir.

Bu yorum özellikle beni şaşırttı, Bayes sınıflandırmasının esasen orijinal değişkenler üzerinde yapılabileceğini belirtti. Ancak FDA ve LDA, kitapta ve burada işaret edildiği gibi matematiksel olarak eşdeğerse , boyutsal azalma, fonksiyonlarının doğasında mı? Bu son bağlantının ele aldığı şey olduğuna inanıyorum, ama tam olarak emin değilim.di

Öğretmenimin ders notları, FDA'nın temelde bir kanonik korelasyon analizi formu olduğunu açıklamaya devam ediyor. Sadece bu yön hakkında konuşan başka bir kaynak buldum , ancak bir kez daha Fisher değişkenliği arasında ve değişkenliği ayrıştırma yaklaşımına bağlı görünüyor. SAS, LDA / QDA prosedüründe (DISCRIM) görünüşte Fisher'in yöntemiyle ilişkili bir sonuç sunuyor ( https://stats.stackexchange.com/a/105116/62518 ). Bununla birlikte, SAS'ın FDA opsiyonu (CANDISC), Fisher'ın sınıflandırma katsayıları olarak adlandırılmadan esasen kanonik bir korelasyon gerçekleştirir. Lda (MASS) tarafından elde edilen R'nin W-1B özvektörlerine eşdeğer olduğuna inandığım ham kanonik katsayıları sunar (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Sınıflandırma katsayıları LDA ve QDA bölümümde tarif ettiğim ayrımcı işlevden elde edilmiş gibi görünmektedir (çünkü popülasyon başına 1 işlev vardır ve en büyük olanı seçeriz).

Ormanı ağaçların arasından görmeme yardımcı olabilecek kaynaklara yapılan her türlü açıklama veya referans için minnettar olurum. Karışıklığımın ana nedeni, farklı ders kitaplarının diğer isimleri kabul etmeden farklı isimlerle yöntemleri çağırması veya matematiğin hafif bir varyasyonunu göstermesi gibi görünüyor, ancak sanırım bu AMSA kitabının yaşı göz önüne alındığında bir sürpriz olmamalı .


If we use all the discriminants this rule would be equivalent to the linear discriminant functionBelirsiz. "Diskriminant" ve "discriminant function" eş anlamlıdır. Tüm ayrımcıları veya sadece en güçlü / anlamlı olanlarını kullanabilirsiniz. AMSA kitabına bakmadım ama yazarlar için FDA = LDA olduğundan şüpheleniyorum. Aslında, kişisel olarak "Fisher LDA" nın fazla, gereksiz bir terim olacağını düşünüyorum.
ttnphns

LDA sınıflandırması hakkındaki bu cevaba "Ekleme" de, doğrudan değişkenlerden "Fisher lineer sınıflandırma fonksiyonları" hesaplamanın, sınıflandırmada Extract the discriminants -> classify by them all (using Bayes approach, as usual)genellikle varsayılan olarak, diskriminantların birleştirilmiş sınıf içi kovaryans matrisinin kullanıldığı zamana eşdeğer olduğunu fark ettim .
ttnphns

Aslında, "Fisher'ın lineer sınıflandırma fonksiyonları" öz-kompozisyon yapmadan W^-1Bve sonra "Bayes" yapmadan LDA yapmanın bir yoludur . Eşdeğerdir, ancak daha az esnektir (Ayrımcıların sadece birkaçını seçemezsiniz, sınıflandırmada kovaryans matrislerinde ayrı ayrı kullanamazsınız).
ttnphns

Hala cevabınızı ve bağlantılarınızı sindiriyorum (teşekkür ederim), ama: 1) İşte AMSA'dan "ayrımcıları" ve "ayrımcı puanları" açıklayan bir alıntı i.imgur.com/7W7vc8u.jpg?1 Şartları kullandım "skor" ve "fonksiyon" birbirinin yerine kullanılabilir. 3) Aynı alıntıda, AMSA kitabının Balıkçı ayrımcılarını elde etmenin bir yolu olarak öz-kompozisyonuna atıfta bulunduğunu görebilirsiniz. Burada sunulduğu yol Fisher yöntemi sadece bir sert ayırıcı işlev / skor ile sonuçlanan doğrusal / karesel yöntemden daha esnek gibi görünüyor ..W1B
Zenit

Zenit, benim için, ayrımcı puan (kanonik) bir ayrımcı fonksiyonun değeridir. Alıntı yaptığınız formülleri , SPSS'de kanonik ayrımcıların nasıl hesaplandığı hakkında bildiklerimle karşılaştıracak kadar ileri gidemem . Hesaplamalar yapmanızı, sonuçları karşılaştırmanızı ve sonuçlarınızı vermenizi öneririm. Ayrıca, farklı metinlerin "Balıkçılar" etiketini farklı uygulayabileceğinden şüpheleniyorum.
ttnphns

Yanıtlar:


8

Sorunun sadece bir yönüne değiniyorum ve bunu cebirsiz sezgisel olarak yapıyorum.

Eğer g sınıflar aynı varyans-kovaryans matrislerine sahiptir ve sadece sentroidlerinin pboyutlu uzay o zaman tamamen doğrusal olarak ayrılabilir q=min(g1,p)"Alt uzay". LDA bunu yapıyor. Değişken alanında üç özdeş elipsoidiniz olduğunu düşününV1,V2,V3. Sınıf üyeliğini hatasız olarak tahmin etmek için tüm değişkenlerden gelen bilgileri kullanmanız gerekir. Ancak, bunların aynı boyutta ve yönlendirilmiş bulutlar olması nedeniyle, bunları birim yarıçap toplarına ortak bir dönüşümle yeniden ölçeklendirmek mümkündür. Sonraq=g1=2bağımsız boyutlar, sınıf üyeliğini eskisi kadar kesin olarak tahmin etmek için yeterli olacaktır. Bu boyutlara ayrımcı işlevler denirD1,D2. Aynı boyutta 3 puan topuna sahip olmak için sadece 2 eksenel çizgiye ihtiyacınız vardır ve her noktayı doğru bir şekilde atamak için topların merkezlerini koordine etmek için onları koyabilirsiniz.

resim açıklamasını buraya girin

Diskriminantlar ilişkisiz değişkenlerdir, sınıf içi kovaryans matrisleri ideal olarak özdeş olanlardır (toplar). Diskriminantlar orijinal değişken uzayının bir alt uzayını oluştururlar - bunlar doğrusal kombinasyonlarıdır. Bununla birlikte, bunlar rotasyona benzer (PCA benzeri) eksenler değildir: orijinal değişken uzayında görülür, eksenler olarak ayrımcılar karşılıklı olarak dik değildir .

Bu nedenle, sınıf içi varyans-kovaryansların LDA'nın sınıflandırma için kullandığı homojenlik varsayımı altında, mevcut tüm ayrımcıların orijinal değişkenler tarafından hemen sınıflandırılmasından daha kötü değildir. Ancak tüm ayrımcıları kullanmak zorunda değilsiniz. Yalnızcam<qBunlardan ilki en güçlü / istatistiksel olarak anlamlı. Bu şekilde sınıflandırma için minimum bilgiyi kaybedersiniz ve yanlış sınıflandırma minimum olacaktır. Bu perspektiften bakıldığında, LDA, sadece denetlenen PCA'ya benzer bir veri indirgemesidir.

Not o baypas etmek mümkündür homojenlik (+ değişkenli normallik) ve kullanmayı planladığınız şartıyla ancak sınıflandırma tüm Diskriminatları varsayarak ekstraksiyon Diskriminatları kendilerinin - eigenproblem genelleştirilmiş içerir - ve sözde "Fisher'in sınıflandırma fonksiyonları" hesaplamak için direkt olarak değişken gelen sınıflandırmak ile bunların denk bir sonuç ile. Yani,g sınıflar aynı şekildedir. p giriş değişkenleri veya g Balıkçının işlevleri veya qeşdeğer tüm "sınıflandırıcılar" kümeleri olarak ayırıcı. Ancak ayrımcılar birçok açıdan daha uygundur.1

Genellikle sınıflar gerçekte "özdeş elipsler" olmadığından, q ayrımcıların Bayes sınıflandırmasını, porijinal değişkenler. Örneğin, bu çizimde iki elipsoid birbirine paralel değildir; ve var olan tek ayırımın noktaları iki değişkenin izin verdiği kadar doğru bir şekilde sınıflandırmak için yeterli olmadığını görsel olarak kavrayabilir. QDA (kuadratik diskriminant analizi) bu durumda LDA'dan daha iyi bir yaklaşım olacaktır. LDA ve QDA arasında pratik bir yaklaşım, LDA-ayrımcılarını kullanmaktır, ancak gözlemlenen ayrı sınıf kovaryans matrislerini, havuzlanmış matrisleri (kimlik) yerine sınıflandırmada ( bkz . Bkz. ) Kullanmaktır .

(Yakından MANOVA ve Kanonik korelasyon analizi veya İndirgenmiş rütbe değişkenli regresyon hatta belirli davayla ilgili olarak Ve evet, LDA görülebilir - bkz , bkz , bkz .)


1Önemli bir terminolojik not. Bazı metinlerdeg Fisher'in sınıflandırma fonksiyonları, "Fisher'in ayırt edici fonksiyonları" olarak adlandırılabilir. qkanonik ayırıcı fonksiyonlar olan diskriminatlar (yani,W1B). Anlaşılır olması için, "Fisher'ın sınıflandırma fonksiyonları" ile "kanonik ayrımcı fonksiyonlar" (= kısaca ayrımcılar) demenizi tavsiye ederim. Modern anlayışta, LDA kanonik doğrusal ayırıcı analizdir. "Fisher'ın ayrımcı analizi" en azından benim bilincime göre, ya 2 sınıflı LDA (tek kanonik ayrımcı kaçınılmaz olarak Fisher'in sınıflandırma işlevleriyle aynı şeydir) ya da geniş ölçüde, Fisher'in sınıflandırma işlevlerinin çok sınıflı ortamlarda hesaplanmasıdır.


Yeniden terminoloji: LDA hakkındaki Wikipedia makalesi ( en.wikipedia.org/wiki/Linear_discriminant_analysis ), "Fisher'ın lineer diskriminant ve LDA terimleri genellikle birbirinin yerine kullanılır, ancak Fisher'in orijinal makalesi [1] normal olarak dağıtılmış sınıflar veya eşit sınıf kovaryansları gibi LDA varsayımlarından bazılarını yapmaz. " Buna dayanarak, grup kovaryansları "aynı" ise, 2 sınıf LDA "FDA" özel bir durum gibi görünüyor. @ttnphns: bu doğru mu?
Laryx Decidua

@LaryxDecidua, bu örnekte terminoloji hakkında% 100 emin değilim ve farklı görüşler gördüm. "Fisher DA" terimini hiç kullanmıyorum. Ama insanlar sorduğunda, aklıma "FDA 2 sınıflı LDA" diye cevap veriyorum.
ttnphns

Teşekkürler, bana en ilginç yönü "FDA", Wikipedia göre, yapmasıdır değil "LDA" (ve QDA) yapmak oysa, normallik varsayalım. Belki de "FDA, normallik veya homoscedasticity varsaymayan 2 sınıflı LDA'dır".
Laryx Decidua
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.