Lojistik regresyonda değişkenlerin önemi


11

Muhtemelen daha önce yüzlerce kez çözülmüş bir sorunla uğraşıyorum, ancak cevabı nerede bulacağımdan emin değilim.

Lojistik regresyon, verilen birçok özellik kullanılırken ve ikili kategorik değer tahmin etmeye çalışmak , ben tahmin özelliklerin bir alt kümesini seçerek ilgilenen am iyi. y yx1,...,xnyy

Kullanılabilecek kemente benzer bir prosedür var mı? (Ben sadece doğrusal regresyon için kullanılan kement gördüm.)

Takılan modelin katsayılarına bakmak farklı özelliklerin önemini gösteriyor mu?

Düzenle - Yanıtların Bazılarını Gördükten Sonra Açıklamalar:

  1. Takılan katsayıların büyüklüğüne atıfta bulunduğumda, normalleştirilmiş (ortalama 0 ve varyans 1) özelliklerine takılanları kastediyorum. Aksi takdirde, @ olasılıkla belirtildiği gibi, 1000x x'den daha az önemli görünecektir.

  2. (@Davide'nin sunduğu gibi) sadece en iyi k-alt kümesini bulmakla ilgilenmiyorum, aksine birbirine göre farklı özelliklerin önemini tartıyorum. Örneğin, bir özellik "yaş", diğer özellik "yaş> 30" olabilir. Artan önemleri az olabilir, ancak her ikisi de önemli olabilir.

Yanıtlar:


8

DWin'in yanıtı cevap ama çok az fikir veriyor, bu yüzden biraz açıklama yapmanın yararlı olabileceğini düşündüm.

İki sınıfınız varsa, temel olarak değerini tahmin etmeye çalışıyorsunuz . Tüm ihtiyacınız olan budur ve lojistik regresyon modeli:p=P(yi=1|X=xi)

logp1p=logP(yi=1|X=xi)P(yi=0|X=xi)=β0+β1Txi

özelliğinin öneminden bahsettiğinizi, nasıl etkilediği veya diğer bir deyişle .p pjppxij

Küçük bir dönüşümden sonra

p=eβ0+β1Txi1+eβ0+β1Txi .

Türevinizi hesapladığınızda,

pxij=βjeβ0+β1Txi

Bu açıkça diğer tüm değişkenlerin değerine bağlıdır. Bununla birlikte, katsayının SIGN işaretinin istediğiniz şekilde yorumlanabileceğini gözlemleyebilirsiniz: eğer negatifse bu özellik olasılığı azaltır p.

Şimdi tahmin prosedürünüzde , modelinizin doğru olduğunu varsayarak tahmin etmeye çalışıyorsunuz . Düzenleme ile bu tahminlere bazı önyargılar getiriyorsunuz. Bir sırt regresyonu ve bağımsız değişkenler için kapalı bir form çözümü elde edebilirsiniz:β

βr^=β^β^+λ .

Gördüğünüz gibi, bu katsayınızın işaretini değiştirebilir, böylece yorum bile parçalanır.


1
eq1 paydasında yazım hatası?
Fernando

7

Son sorunuzun cevabı düz NO. Katsayıların büyüklüğü hiçbir şekilde önemli bir ölçü değildir. Kement lojistik regresyon için kullanılabilir. Alanı daha güvenli bir şekilde incelemeniz gerekiyor. Çalışmanız gereken yöntemler "cezalandırılmış" yöntemleri içeren yöntemlerdir. Bir yerde tanımlanabilen, ancak genel kullanımda olmayan bir terim olan "gölgeli" öngörücüleri ortaya çıkaran algılama yöntemleri arıyorsanız, tahminci alanındaki etkileşimleri ve doğrusal olmayan yapıyı ve o bağlantıyla sonuç bağlantısı. Frank Harrell'in "Regresyon Modelleme Stratejileri" metninde bu konular ve yöntemler hakkında biraz tartışma var.

Geriye dönük seçim stratejisi geçerli sonuçlar veremez (sonuç vermesine rağmen). 100 olay için 20 rasgele öngörücüye baktığınızda, muhtemelen geriye doğru bir seçim işlemiyle seçilecek 2 veya 3 bulacaksınız. Gerçek dünyada geriye doğru seçimin yaygınlığı, dikkatli istatistiksel düşünceyi değil, SAS ve SPSS'deki kolay kullanılabilirliğini ve bu ürünlerin kullanıcı tabanındaki karmaşıklık eksikliğini yansıtmaktadır. R kullanıcı tabanının bu tür yöntemlere ve kullanıcılara posta listelerinde istek gönderen daha zor zamanları vardır ve SO genellikle geri (veya ileri) seçim yöntemleri ile ilgili sorunlar hakkında tavsiye alırlar.


1
Yapmam gerektiğini biliyorum - nereden başlayacağımı gösteren bazı göstergeleri çok takdir ediyorum.
Guy Adini

xn+1=1000x1xn+11000x1

Lütfen yukarıdaki yorumlarıma bakın (normalleştirilmiş özellikleri kullanarak). Teşekkürler.
Guy Adini

Teşekkür ederim. Buna bakacağım. Bu "yordayıcı alanı içindeki etkileşimlerin ve doğrusal olmayan yapının denetlenmesinde" kullanılan birkaç yaygın algoritmayı adlandırabilir misiniz, yoksa duruma göre bir durum mu?
Guy Adini

Doğrusal olmayanlığı aramak için regresyon spline'larını kullanabilirsiniz ve spline terimleri, 2B tahmin alanının bir bölgesi ile sınırlı olan efektlerin tanımlanmasını sağlayan "geçilebilir". Yerel regresyon yöntemlerini de kullanabilirsiniz. R'de en çok kullanılan yerel regresyon yöntemi muhtemelen 'mgcv' paketidir, ancak eski 'locfit' paketi hala mevcuttur.
DWin

-4

İngilizce benim ana dilim değil, bu yüzden sorunun ne olduğunu anlamamış olabilirim, ancak en iyi modeli bulmanız gerekiyorsa, tüm değişkenlerle bir modelden başlayarak geriye doğru bir prosedür (ve sonunda entegrasyonlar ekleme) kullanmayı deneyebilirsiniz. Daha sonra, modelin fenomeni iyi tanımlayıp tanımlayamadığını kontrol etmek için hem artık_s_ öngörülen değerlere hem de qq-plot grafiklerine bakabilirsiniz.


Teşekkürler! Sanırım önerdiğiniz şey, en ilişkili olan özelliği aşamalı olarak eklemek. Bu mantıklıdır, ancak A özelliğinin B özelliğinden "ne kadar" olduğunu anlamama yardımcı olmaz. Örneğin, bir x özelliğine ve x + <küçük gürültü> özelliğine sahip olduğumu varsayın. O zaman her ikisi de aslında kullanışlı özelliklerdir, ancak biri diğeri tarafından gölgelenir. Ben de x + <noise> önemli olduğunu gösteren bir yöntem istiyorum.
Guy Adini

Hayır, geriye dönük bir prosedür, tüm değişkenlere sahip bir modelle başlar ve daha sonra (genellikle sadece önemli katsayılara sahip bir modeliniz olana kadar) bir değişken (katsayısı önemli olmayan) kaldırır. Aynı hedefe ulaşmak için daha sofistike yollar var sanırım, ama ben sadece bir lisans öğrencisiyim!
Davide
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.