Lojistik regresyona karşı diskriminant analizi


16

Bazı ayrımcı analiz uzmanları buldum ve onlar hakkında sorularım var. Yani:

Sınıflar iyi ayrıldığında, lojistik regresyon için parametre tahminleri şaşırtıcı bir şekilde kararsızdır. Katsayılar sonsuza gidebilir. LDA bu sorundan muzdarip değildir.

Özelliklerin sayısı azsa ve yordayıcılarının dağılımı Xsınıfların her birinde yaklaşık olarak normalse, doğrusal ayırıcı model yine lojistik regresyon modelinden daha kararlıdır.

  1. İstikrar nedir ve neden önemlidir? (Lojistik regresyon, işini yapan iyi bir uyum sağlıyorsa, neden istikrarı önemsemeliyim?)

LDA, ikiden fazla yanıt sınıfına sahip olduğumuzda popülerdir, çünkü verilerin düşük boyutlu görünümlerini de sağlar.

  1. Sadece anlamıyorum. LDA düşük boyutlu görünümler nasıl sağlar?
  2. Daha fazla artı veya eksilerini adlandırabilirsiniz, bu iyi olurdu.

3
Bu konuyla ilgili diğer soru / cevapları da okumak isteyebilirsiniz (lda'ya karşı lojistik). Lütfen bu sitede arama yapın.
ttnphns

Yanıtlar:


13

Sınıflar iyi ayrıldığında, lojistik regresyon için parametre tahminleri şaşırtıcı bir şekilde kararsızdır. Katsayılar sonsuza gidebilir. LDA bu sorundan muzdarip değildir.

İkili sonucu mükemmel bir şekilde tahmin edebilen değişken değişkenler varsa, lojistik regresyon algoritması, yani Fisher puanlaması bile birleşmez. R veya SAS kullanıyorsanız, sıfır ve bir olasılıkların hesaplandığını ve algoritmanın çöktüğünü belirten bir uyarı alırsınız. Bu, mükemmel bir ayrılma durumudur, ancak veriler sadece büyük ölçüde ayrılsa ve mükemmel bir şekilde ayrılmasa bile, maksimum olabilirlik tahmincisi mevcut olmayabilir ve mevcut olsa bile, tahminler güvenilir değildir. Ortaya çıkan uyum hiç iyi değil. Elbette bir göz atın bu sitede ayrılma sorunu ile ilgili birçok konu vardır.

Aksine, Fisher'in ayrımcılığı ile ilgili tahmin problemleriyle sık sık karşılaşılmaz. Kovaryans matrisi arasında veya içinde tekil olsa da yine de olabilir, ancak bu oldukça nadir bir örnektir. Aslında, tam veya yarı-tam bir ayrım varsa, o zaman daha iyi çünkü ayrımcı başarılı olma olasılığı daha yüksektir.

Popüler inancın aksine LDA'nın herhangi bir dağıtım varsayımına dayanmadığını da belirtmek gerekir. Sadece örtülü olarak popülasyon kovaryans matrislerinin eşitliğini talep ediyoruz, çünkü kovaryans içindeki matris için toplanmış bir tahminci kullanıldı. Ek normallik varsayımları, eşit önceki olasılıklar ve yanlış sınıflandırma maliyetleri altında, LDA, yanlış sınıflandırma olasılığını en aza indirgemesi açısından en uygunudur.

LDA düşük boyutlu görünümler nasıl sağlar?

İki popülasyon ve iki değişken için bunu görmek daha kolaydır. İşte bu durumda LDA'nın nasıl çalıştığının resimli bir temsili. Ayrılabilirliği en üst düzeye çıkaran değişkenlerin doğrusal kombinasyonlarını aradığımızı unutmayın . resim açıklamasını buraya girin

Dolayısıyla veriler, yönü bu ayrımı daha iyi başaran vektör üzerine yansıtılır. Bu vektörün ilginç bir lineer cebir problemi olduğunu nasıl bulduğumuz, temelde bir Rayleigh bölümünü en üst düzeye çıkarıyoruz, ancak şimdilik bir kenara bırakalım. Veriler bu vektör üzerine yansıtılırsa, boyut ikiden bire küçültülür.

İkiden fazla nüfus ve değişkenin genel durumu benzer şekilde ele alınır. Boyut büyükse, küçültmek için daha doğrusal kombinasyonlar kullanılırsa, veriler bu durumda düzlemlere veya hiper düzlemlere yansıtılır. Elbette kaç tane lineer kombinasyon bulabileceğine dair bir sınır vardır ve bu sınır verinin orijinal boyutundan kaynaklanır. Öngörücü değişkenlerin sayısını ve nüfus sayısını g ile belirtirsek, sayının en fazla min olduğu ortaya çıkar ( g - 1 , p ) .pg min(g1,p)

Daha fazla artı veya eksilerini adlandırabilirsiniz, bu iyi olurdu.

Bununla birlikte, düşük boyutlu temsil dezavantajsız gelmez, en önemlisi elbette bilgi kaybıdır. Veriler doğrusal olarak ayrılabilir olduğunda bu daha az problemdir, ancak eğer değilse, bilgi kaybı önemli olabilir ve sınıflandırıcı kötü performans gösterecektir.

Kovaryans matrislerinin eşitliğinin kabul edilebilir bir varsayım olmadığı durumlar da olabilir. Emin olmak için bir test uygulayabilirsiniz, ancak bu testler normallikten uzaklaşmaya karşı çok hassastır, bu nedenle bu ek varsayımı yapmanız ve test etmeniz gerekir. Eşit olmayan kovaryans matrisleri ile popülasyonların normal olduğu bulunursa, bunun yerine kuadratik bir sınıflandırma kuralı kullanılabilir (QDA), ancak bunun yüksek boyutlarda mantıksız değil, oldukça garip bir kural olduğunu düşünüyorum.

Genel olarak, LDA'nın ana avantajı, SVM veya sinir ağları gibi daha gelişmiş sınıflandırma teknikleri için geçerli olmayan açık bir çözümün varlığı ve hesaplama kolaylığıdır. Ödediğimiz fiyat, onunla birlikte gelen varsayımlar kümesidir, yani doğrusal ayrılabilirlik ve kovaryans matrislerinin eşitliği.

Bu yardımcı olur umarım.

EDIT : Bahsettiğim özel durumlarda LDA'nın kovaryans matrislerinin eşitliği dışında herhangi bir dağıtım varsayımı gerektirmediği iddiamdan şüpheliyim. Yine de bu daha az doğru değil, bu yüzden daha spesifik olalım.

izin verirsek , i = 1 , 2 birinci ve ikinci popülasyondan gelen araçları belirtir ve S toplanırx¯i, i=1,2Spooled sorun göstermektedirler havuzlanmış kovaryans matrisi, Fisher diskriminant çözer

maxa(aTx¯1aTx¯2)2aTSpooleda=maxa(aTd)2aTSpooleda

Bu sorunun çözümü (bir sabite kadar) olarak gösterilebilir

a=Spooled1d=Spooled1(x¯1x¯2)

Bu, normalite, eşit kovaryans matrisleri, yanlış sınıflandırma maliyetleri ve önceki olasılıklar varsayımı altında elde ettiğiniz LDA'ya eşittir, değil mi? Evet, şimdi biz hariç değil normalliği üstlendi.

Kovaryans matrisleri gerçekten eşit olmasa bile, tüm ortamlarda yukarıdaki ayrımcıyı kullanmanızı engelleyen hiçbir şey yoktur. Yanlış sınıflandırma maliyeti (ECM) anlamında en uygun olmayabilir, ancak bu denetimli öğrenmedir, böylece örneğin tutma prosedürünü kullanarak performansını her zaman değerlendirebilirsiniz.

Referanslar

Bishop, Christopher M. Örüntü tanıma için sinir ağları. Oxford Üniversitesi Yayınları, 1995.

Johnson, Richard Arnold ve Dean W. Wichern. Uygulamalı çok değişkenli istatistiksel analiz. Vol. 4. Englewood Cliffs, NJ: Prentice salonu, 1992.


1
(Ben indirilmiş kullanıcı değilim). Cevabınızı Frank Harell ile uzlaştırmaya çalışmak için, Bana göre hala tüm değişkenlerin sürekli olduğunu varsaymak gerekiyor (aksi takdirde, Rayleigh bölümünün maksimumunun benzersiz olmayacağını düşünüyorum).
user603

1
@ user603 Bu durumu hiçbir yerde görmedim. Çözelti yine de sadece bir sabite kadar belirlenir.
JohnK

John, özdeş, simetrik (elipsoidal) dağılımlara ve eşit olasılıklara sahip sadece 2 sınıf (ve böylece sadece bir ayrım çizgisi) olduğunu düşünün. O zaman aslında normal bir dağılım varsaymamız gerekmez, çünkü sınıfa bir dava atamak için herhangi bir pdf kullanmıyoruz. Daha karmaşık ayarlarda (3+ sınıf gibi) bazı pdf'ler kullanmak zorundayız ve genellikle normaldir.
ttnphns

1
W1BWB

1
John, son yorumun senin ve benim aynı fikirde olduğumuz.
ttnphns

10

LDA, lojistik regresyondan farklı olarak, ciddi dağılımsal varsayımlar yapar (tüm öngörücülerin çok değişkenli normalliği). Deneklerin cinsiyeti temelinde sınıf üyeliği posterior olasılıkları elde etmeye çalışın ve ne demek istediğimi göreceksiniz - olasılıklar doğru olmayacaktır.

Y=1β±±30 öngörülen olasılıklar vardır ki) esas olarak, 0 ya da 1 olması gerektiği zaman. Bunun neden olduğu tek problem Wald istatistiklerindeki Hauck-Donner etkisidir. Çözüm basit: bu durumda Wald testlerini kullanmayın; Sonsuz tahminlerde bile çok iyi davranan olabilirlik oranı testlerini kullanır. Güven aralıkları için, tam ayırma varsa profil olasılığı güven aralıkları kullanın.

Bkz bu fazla bilgi için.

Çok değişkenli normallik geçerliyse, Bayes teoremi ile lojistik regresyon varsayımlarının geçerli olduğunu unutmayın. Tersi doğru değil.

Normallik (ya da en azından simetride) neredeyse "işi yapmak" için varyans ve kovaryanslar için geçerli olmalıdır. Çok değişkenli olmayan normal olarak dağıtılmış öngörücüler, ayrımcı ekstraksiyon fazına bile zarar verecektir.


1
Bana göre normallik özellikle LDA'nın sınıflandırma (sınıf tahmini) aşamasında gereklidir. Bununla birlikte, yine de varyans-kovaryans homojenliğini varsaydığı ayrımcı ekstraksiyon (boyutsallık azalması) aşamasında gerekli değildir. (İlginçtir ki, ikinci varsayım sınıflandırmada bir şekilde serbest bırakılabilir: oradaki ayrımcılar için ayrı sınıf içi kovaryanslar kullanabilirsiniz .)
ttnphns

3
LDA'nın bir kısmının çalışması için sadece eşit bir kovaryans matris varsayımının gerekli olduğunu söylemek biraz yanıltıcıdır . Kovaryansların iyi veri özetleri olduğunu varsaymaya inanıyorsunuz. Özel LDA örneğini düşünün: 2 örnekli testi. ttt varyansı iyi bir dağılım özeti olduğunu varsayar testinde gösterilebilir. Varyansı yeterli bir istatistik ve aykırı değerlerle yok edilmeyen bir istatistik yapan normal dağılım varsayımıdır. LDA, tam olarak aşırı basitleştirilmiş yeterli istatistikler kullandığı için yakınsama sorunlarına / istikrarsızlığına sahip değildir.
Frank Harrell

2
Denetimsiz öğrenmeye atıfta bulunmak için 'veri azaltma' ve 'boyutsal azaltma' ayırıyorum. Evet, kendi içlerindeki karelerin toplamının iyi seçimler olması için normal bir dağılım gerektirebileceğini ima ediyorum. 2 örnekli t'yi tekrar düşününt testini (tüm bunların özel bir örneği) ve standart sapmanın bir dispersiyon ölçümü için kötü bir seçim olması durumunda ne kadar korkunç olduğunu . SD, iyi performans için simetri ve düşük dış gözlem olasılığı gerektirir.
Frank Harrell

2
Evet SD çeşitli varsayımlar yapar ve sağlam değildir. Ortalama bir dereceye kadar ortalama bazı varsayımların anlamlı olmasını sağlar. En küçük kareler, PCA ve LDA etkili birçok insanın düşündüğünden daha fazla dağıtım varsayımı yapar.
Frank Harrell

2
Bu akıl yürütme konusunda ikna olmadım ve hala düşüşün haksız olduğuna inanıyorum ama bu konuda otorite değilim. Ancak verdiğim referanslar size aynı şeyi söyleyecektir.
JohnK

0

Sınıflar iyi ayrıldığında, lojistik regresyon için parametre tahminleri şaşırtıcı bir şekilde kararsızdır. Katsayılar sonsuza gidebilir. LDA bu sorundan muzdarip değildir.

Feragatname: Burada takip edilenler matematiksel titizlikten tamamen yoksundur.

(Doğrusal olmayan) bir fonksiyona tam olarak uymak için, fonksiyonun "şeklinin değiştiği" tüm bölgelerde gözlemlere ihtiyacınız vardır. Lojistik regresyon, verilere sigmoid bir işleve uyar:

enter image description here

İyi ayrılmış sınıflar söz konusu olduğunda, tüm gözlemler sigmoidin asimptotlarına (0 ve 1) yaklaştığı iki “uca” düşecektir. Tabii ki, tüm sigmoidler bu bölgelerde "aynı gözüktüğü" için, zayıf montaj algoritmasının "doğru olanı" bulmakta zorluk çekeceğine şaşmamak gerekir.

R'nin glm()fonksiyonu ile hesaplanan iki (umarım öğretici) örneğe bakalım .

Durum 1: İki grup bir ölçüde örtüşüyor:

enter image description here

ve gözlemler, takılan sigmoid'in bükülme noktası etrafında güzel bir şekilde dağılır:

enter image description here

Bunlar güzel düşük standart hatalara sahip parametrelerdir:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

sapma da iyi görünüyor:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

Durum 2: İki grup birbirinden iyi ayrılmıştır:

enter image description here

ve gözlemlerin hepsi asimptotlarda pratik olarak yatmaktadır. glm()Onun enfleksiyon nokta etrafında "sigmoid hakkın şeklini almak" için kullanılabilir yalnızca gözlemler olduğundan fonksiyon, yaklaşık sayısal olarak 0 veya 1 olasılıklar şey sığdırmak için elinden geleni çalıştı, ama şikayetçi:

enter image description here

Tahmini parametrelerin standart hatalarının çatıdan geçtiğini belirterek sorunu teşhis edebilirsiniz:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

ve aynı zamanda sapma şüpheyle iyi görünüyor (çünkü gözlemler asimptotlara iyi uyuyor):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

En azından sezgisel olarak, "lojistik regresyon için parametre tahminlerinin şaşırtıcı derecede dengesiz olduğu" bu düşüncelerden açıkça anlaşılmalıdır.


Sizinle açıkça aynı fikirde olmayan @Frank Harrell'in cevabına bakın! Ve bağlantılarını ve referanslarını inceleyin ...
kjetil b halvorsen

@kjetilbhalvorsen Benim asıl amacım "şaşırtıcı derecede dengesiz" uyumun sezgisel bir örneğidir. LDA'ya atıfta bulunarak son cümleyi kaldırdım.
Laryx Decidua
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.