Lojistik regresyonda sıralama özellikleri


10

Lojistik Regresyon kullandım. Altı özelliğim var, bu sınıflandırıcıdaki sonucu diğer özelliklerden daha fazla etkileyen önemli özellikleri bilmek istiyorum. Bilgi Kazancı kullandım ama kullanılan sınıflandırıcıya bağlı olmadığı anlaşılıyor. Özellikleri belirli sınıflandırıcıya (Lojistik Regresyon gibi) göre önemlerine göre sıralamak için herhangi bir yöntem var mı? herhangi bir yardım çok takdir edilecektir.


3
Lojistik regresyon bir sınıflandırıcı değildir . Lojistik regresyonun doğrudan olasılık tahmin modeli olduğunu yansıtmak için lütfen sorunuzu tekrar yazın.
Frank Harrell

1
FrankHarrell tarafından dile getirilen noktanın yanı sıra, tahmini katsayılarınızın -değerlerine baktınız mı? Kesinlikle özellikleri sıralamanın en iyi yolu değildir, ancak size bir başlangıç ​​noktası verebilir. p
usεr11852

9
Elbette, lojistik regresyon olasılıkları tahmin ediyor ve şeyleri açıkça sınıflandırmıyor, ama kimin umurunda? Amaç genellikle hangi sınıfın büyük olasılıkla olduğuna karar vermektir ve eğer onu kullanıyorsanız sınıflandırıcı olarak adlandırmanın yanlış bir yanı yoktur.
dsaxton

Yanıtlar:


5

Aradığınız cevabın Boruta algoritması olabileceğini düşünüyorum . Bu, doğrudan doğruya bir "tüm alaka" anlamında özelliklerin önemi ölçer ve bir uygulanan bir sarma yöntemi R paketin gibi güzel araziler üreten bu arsaherhangi bir özelliğinin önem y-ekseni üzerinde olduğu ve bir ile karşılaştırılır null burada mavi renkle çizilir. Bu blog yazısı yaklaşımı açıklıyor ve çok net bir giriş olarak okumanızı tavsiye ederim.


Güzel öneri (+1). Yine de bu uygulama için biraz overkill ama iyi bir ekleme olduğunu düşünüyorum. Kesinlikle iyi yapacak takdir durumlar. Diğer sınıflandırma algoritmaları ile karşılaştırıldığı herhangi bir karşılaştırmalı inceleme çalışması biliyor musunuz? p>>n
Şubat11852

@ usεr11852 Hayır, bilmiyorum. Sadece son bir hafta içinde kendime rastladım.
babelproofreader

Hmmm ... Tamam, Boruta çok ümit verici gözüküyor ama onları daha büyük bir çalışmanın parçası olarak görüp mükemmel olamadıkları durumları görene kadar her zaman harika yeni algoritmalar hakkında şüpheliyim ( ücretsiz öğle yemeği teoremi yok ).
usεr11852

İlginç bir fikir ama lojistik regresyon ile ilgili değil.
Frank Harrell

Bkz: "Boruta bir özellik seçme yöntemi değil, bir özellik sıralaması yöntemdir" SSS paket ana sayfasında
steadyfish

3

Regresyon modelleri için değişkenlerin önem derecesine göre nasıl sıralanacağını anlamaya başlamak için doğrusal regresyon ile başlayabilirsiniz. Rütbesine Popüler bir yaklaşım lineer regresyon modelinde bir değişkenin önemi ayrıştırmak için her değişken atfedilen katkılarına da. Ancak değişkenler arasındaki korelasyonlar nedeniyle lineer regresyonda değişken önem açık değildir. PMD yöntemini açıklayan belgeye bakın (Feldman, 2005) [ 3 ]. Bir diğer popüler yaklaşım, sıralamaların ortalamasının alınmasıdır (LMG, 1980) [ 2 ].R,2

R,2

Lojistik regresyon modellerinde özellik önemine ilişkin popüler yaklaşımların bir listesi:

  1. R,2
  2. Yeterlilik: Tam model günlüğü olasılığının, her bir belirteç tarafından ayrı ayrı açıklanabilecek oranı
  3. Uyumluluk: Bir modelin pozitif ve negatif tepki değişkenleri arasında ayrım yapabilme yeteneğini gösterir. Her bir öngörücü için ayrı bir model oluşturulur ve önem puanı, yalnızca bu öngörücüye dayanan gerçek pozitiflerin tahmini olasılığıdır.
  4. Bilgi değeri: Bilgi değerleri, bir yordayıcıdan elde edilen sonuç hakkında bilgi miktarını belirler. Diğer öngörücüler dikkate alınmaksızın her bir öngörücünün bir analizine dayanır.

Referanslar:

  1. Lojistik Regresyonda Açıklayıcı Değişkenlerin Göreli Öneminin Ölçülmesi Üzerine
  2. R'deki Lineer Regresörlerin Göreceli Önemi
  3. Göreceli Önem ve Değer, Barry Feldman (PMD yöntemi)

0

xiyiiwb f w , b ( x i )

minw,bΣben=1ngünlük(1+tecrübe(-ybenfw,b(xben)))+λw2
xbenybenbeneğitim setinizden. Bu işlev, sınıflandırma için kullansak da olasılıksal doğasını açıklayan tüm eğitim örnekleri üzerindeki ortak olasılıktan kaynaklanmaktadır. denkleminde ağırlık vektörünüz ve yanlılığınızdır. nın ne olduğunu bildiğinize . Minimizasyon problemindeki son terim, diğer şeylerin yanı sıra, modelin genelleştirilmesini kontrol eden düzenlenme terimidir.wbfw,b(xben)

Tüm öğenizin normalleştirildiğini varsayarsak , örneğin büyüklüğüne bağlı olarak , hangi değişkenlerin daha önemli olduğunu görmek oldukça kolaydır: diğerlerinden daha büyük olanlar veya (negatif tarafta) ) diğerlerine göre daha küçük. Kaybı en çok etkilerler.xxx

Gerçekten önemli olan değişkenleri bulmaya hevesliyseniz ve süreçte birkaç şeyi tekmelemeyi , kayıp işlevinizi düzenleyebilirsiniz: 1

minw,bΣben=1ngünlük(1+tecrübe(-ybenfw,b(xben)))+λ|w|

Türevler veya düzenleyici oldukça basittir, bu yüzden burada bahsetmeyeceğim. Bu düzenlenme biçimini ve uygun bir içindeki daha az önemli unsurların sıfır olmasını ve diğerlerinin olmamasını zorlayacaktır .λw

Umarım bu yardımcı olur. Başka sorunuz varsa sorun.


4
LR bir sınıflandırma şeması değildir . Herhangi bir sınıflandırma kullanımı, fayda / maliyet fonksiyonunu tanımladıktan sonra bir postestimasyon adımı olarak gelir. Ayrıca, OP cezalandırılmış maksimum olabilirlik tahmini hakkında soru sormamıştır. Regresyondaki değişkenlerin göreceli önemine dair kanıt sağlamak için, her bir yordayıcı tarafından sağlanan ilave tahmin bilgileri saflarına ilişkin güven sınırları elde etmek için bootstrap kullanmak çok kolaydır. Bir örnek 4. Bölümünde görünür Regresyon Modelleme Stratejileri online notları ve R kodu mevcuttur biostat.mc.vanderbilt.edu/RmS#Materials
Frank Harrell

4
Harrell, lütfen. Buna iki farklı açıdan yaklaştığımız açıktır. Siz istatistiksel olandansınız ve ben de makine öğrenmesindenim. Size, araştırmanıza ve kariyerinize saygı duyuyorum, ancak kendi cevabınızı formüle etmekte ve OP'ye hangisinin sorusu için daha iyi cevabı düşündüğüne karar vermesinde çok özgürsünüz. Öğrenmeye meraklıyım, bu yüzden lütfen bana yaklaşımınızı öğretin, ancak kitabınızı satın almama izin vermeyin.
pAt84

1
Lojistik regresyonun, makine öğreniminin var olmasından on yıllar önce, istatistikçi DR Cox tarafından 1958'de geliştirildiğini not edeceğim. Formüle ettiğiniz "kayıp fonksiyonu" nun (belki de daha iyi bir objektif fonksiyon olarak adlandırılır?) Sınıflandırma ile herhangi bir ilişkisi olmadığını belirtmek de önemlidir. Ayrıca, kapsamlı notlarımın ve ses dosyalarımın çevrimiçi olarak mevcut olduğunu, bahsettiğim tüm bilgilerle bir maliyeti olduğunu ima eden nedir?
Frank Harrell

2
Her iki ilk yorumu da iptal ettim, çünkü her ikisi de geçerli puanları artırıyor. Daha sonra bana
ufak tefek şeyler

4
PS Bunu söylemenin daha açık bir yolunu denemek, tahmin / tahminin optimize edilmesi, faydalı fonksiyonun ikinci bir adımda uygulandığı ve öngörücülerle ilgisiz olmasına izin verildiğinden optimum kararlara yol açar. Tahmin / tahminin optimize edilmesi, sınıflandırmayı optimize etmez veya tersi de geçerlidir. Sınıflandırmayı optimize etmek, eldeki veri kümesine göre uyarlanmış ve yeni veri kümeleri için geçerli olmayabilecek garip bir yardımcı program işlevi anlamına gelir. Sınıflandırmayı gerçekten optimize etmek isteyen kişiler (önerilmez), tahmini / tahmini tamamen atlayan bir yöntem kullanabilir.
Frank Harrell
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.