Lojistik regresyon ne zaman uygundur?


12

Şu anda kendime sınıflandırma yapmayı öğretiyorum ve özellikle üç yönteme bakıyorum: destek vektör makineleri, sinir ağları ve lojistik regresyon. Anlamaya çalıştığım, lojistik regresyonun neden diğer ikisinden daha iyi performans göstereceğidir.

Lojistik regresyon anlayışımdan buradaki fikir, lojistik fonksiyonun tüm verilere uymasıdır. Dolayısıyla verilerim ikiliyse, 0 etiketine sahip tüm verilerim 0 değerine (veya ona yakın) eşlenmeli ve 1 değerine sahip tüm verilerim 1 değerine (veya ona yakın) eşlenmelidir. Şimdi, lojistik fonksiyon sürekli ve pürüzsüz olduğundan, bu regresyonun gerçekleştirilmesi tüm verilerimin eğriye uymasını gerektirir ; karar sınırına yakın veri noktalarına daha fazla önem verilmez ve tüm veri noktaları kayıplara farklı miktarlarda katkıda bulunur.

Bununla birlikte, destek vektör makineleri ve sinir ağları ile sadece karar sınırına yakın olan veri noktaları önemlidir; bir veri noktası karar sınırının aynı tarafında kaldığı sürece, aynı zarara katkıda bulunacaktır.

Bu nedenle, lojistik regresyon neden sadece karar çevresindeki zor verilere odaklanmak yerine çok sayıda önemsiz (kolayca sınıflandırılabilir) verilere bir eğri uydurmaya çalışırken "kaynakları boşa harcaması" nedeniyle vektör makinelerini veya sinir ağlarını desteklemiyor? sınır?


5
LR size olasılık tahminleri verirken SVM ikili tahminler verir. Bu, sınıflar arasında ayırıcı bir hiper düzlem olmadığında LR'yi de kullanışlı hale getirir. Ayrıca, algoritmaların karmaşıklığını ve parametre sayısı ve hassasiyet gibi diğer özellikleri de dikkate almalısınız.
Bar

Yanıtlar:


28

(Y=1|X) olasılıklı akıl yürütme lehine zorlayıcı argümanlar için.

Lojistik regresyondaki bağımlı değişkeninin istediğiniz şekilde kodlanabileceğini unutmayın: 0/1, A / B, evet / hayır, vb.Y

Lojistik regresyonun birincil varsayımı, gerçekten ikili olduğudur; Sınıflandırma yöntemleri gibi, gerçekten ya hep ya hiç olayı içindir.Y

Bazı analistler, lojistik regresyonun log olasılık ölçeği üzerinde yordayıcı etkilerinin doğrusallığını üstlendiğini düşünmektedir. Bu sadece DR Cox, 1958'de hesaplama modelinin regresyon spline gibi araçları kullanarak genişletmek için mevcut olmadığı bir zamanda lojistik modeli icat ettiğinde doğruydu. Lojistik regresyondaki tek gerçek zayıflık, modelde hangi etkileşimlere izin vermek istediğinizi belirtmeniz gerektiğidir. Çoğu veri seti için bu bir güce dönüşür, çünkü ek ana etkiler genellikle etkileşimlerden çok daha güçlü öngörücülerdir ve etkileşimlere eşit öncelik veren makine öğrenme yöntemleri kararsız olabilir, yorumlanması zor olabilir ve tahmin etmek için lojistik regresyondan daha büyük örnek boyutları gerektirebilir iyi.


6
+1. Dürüst olmak gerekirse, SVM'leri asla yararlı bulamadım. Seksi ama eğitim ve puanları yavaş - benim tecrübelerime göre - ve kernel de dahil olmak üzere çok fazla seçeneğiniz var. Sinir ağları Yararlı buldum, aynı zamanda birçok seçenek ve ayarlamalar. Lojistik regresyon basittir ve kutudan makul şekilde iyi kalibre edilmiş sonuçlar verir. Kalibrasyon gerçek dünyada kullanım için önemlidir. Tabii ki, dezavantajı doğrusal olduğu için, küme ish, topaklı verilere ve Rastgele Orman gibi diğer yöntemlere uymuyor.
Wayne

1
Mükemmel cevap. Bu arada, son zamanlarda makine öğrenenlerinin fantezi yöntemlerini cezalandırılmış maksimum olasılık gibi geleneksel çerçevelere uydurmak için geldiklerini bilmek isteyebilirsiniz - ve bu yapıldığında fantezi yöntemlerin daha iyi çalıştığı ortaya çıkıyor . Var olan en etkili ağaç topluluğu artırma algoritması olan XGBoost'u düşünün. Matematik burada: xgboost.readthedocs.io/en/latest/model.html . Geleneksel bir istatistikçiye oldukça tanıdık gelmeli ve her zamanki kayıp fonksiyonları ile birçok ortak istatistiksel amaç için modellere sığabilirsiniz.
Paul

5

Haklısınız, çoğu zaman lojistik regresyon bir sınıflandırıcı olarak zayıf yapıyor (özellikle diğer algoritmalarla karşılaştırıldığında). Bununla birlikte, bu, lojistik regresyonun unutulması ve asla çalışılmaması gerektiği anlamına gelmez, çünkü iki büyük avantajı vardır:

  1. Olasılıksal sonuçlar. Frank Harrell (+1) cevabında bunu çok iyi açıkladı.

  2. Y=1X1=12X2,...Xp


5
Ve bir sınıflandırıcı olarak görünen düşük performans, lojistik regresyonun doğasında var olan bir sorun değil, yanlış bir doğruluk puanı kullanmanın sonucudur.
Frank Harrell

@FrankHarrell: Son zamanlarda bazı deneyler yapıyorum ve Lojistik Regresyonun verilere diğer yöntemlerden çok daha az özgürlükle uyduğunu söyleyebilirim. Rastgele Orman veya GAM'ın esnekliğini karşılamak için etkileşimler eklemeniz ve daha fazla özellik mühendisliği yapmanız gerekir. (Elbette esneklik, aşırı sığmanın uçurumunu geçen ipdir.)
Wayne

3
@wayne Bu daha az özgürlük, belirttiğiniz gibi, birçok durumda çok yararlıdır, çünkü istikrar sağlar
rapaio

3
Etkileşim terimlerinin sadece ek terimlerin esneklik katmaktan daha az önemli olduğunu varsaymakla kalmaz, aynı zamanda varsayımları birçok şekilde rahatlatabilirsiniz. Orijinal cevabımda buna daha fazlasını ekliyorum.
Frank Harrell

2
@ rapaio: Evet, hem aşırı sığdırma açısından hem de başka şekillerde esneklik tehlikelidir. Bu bir etki alanı / kullanım sorunudur: verileriniz gürültülü mü yoksa bu terimi kullanabiliyorsam gerçekten "topaklı / cluster-ish" mi?
Wayne
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.