Lojistik Regresyonda Göreceli Değişken Önemi p cinsinden nasıl hesaplanır?


11

Çevrimiçi bir alışveriş yapan kişinin, bir dizi çevrimiçi reklamı (öngörücüler: Reklam1, Reklam2 ve Reklam3) tıkladıktan sonra bir ürün satın alıp almayacağını (sonuç: satın alma) tahmin etmek için kullanıldığını varsayalım.

Sonuç ikili bir değişkendir: 1 (satın alındı) veya 0 (satın alınmamış). Öngörücüler ayrıca ikili değişkenlerdir: 1 (tıklandı) veya 0 (tıklanmadı). Yani tüm değişkenler aynı ölçekte.

Ortaya çıkan Ad1, Ad2 ve Ad3 katsayıları 0.1, 0.2 ve 03 ise, Ad3'ün Ad2'den daha önemli olduğu ve Ad2'nin Ad1'den daha önemli olduğu sonucuna varabiliriz. Ayrıca, tüm değişkenler aynı ölçekte olduğundan, standartlaştırılmış ve standartlaştırılmamış katsayılar aynı olmalıdır ve ayrıca Ad2'nin logit (log-odds) seviyesi üzerindeki etkisi açısından Ad1'den iki kat daha önemli olduğu sonucuna varabiliriz.

Ancak uygulamada, değişkenlerin göreceli öneminin logit (log-odds) yerine p (satın alma olasılığı) seviyesi açısından nasıl karşılaştırılacağını ve yorumlanacağına daha fazla önem veriyoruz.

Dolayısıyla soru şudur: Bu değişkenlerin p açısından göreceli önemini ölçmek için herhangi bir yaklaşım var mı?


Bu makaleyi faydalı buldum . Lojistik regresyon modelinden yordayıcı önemini tanımlamak için kullanılabilecek altı farklı yöntemi ve her bir yöntemle ilişkili sahne ve eksileri açıklar.
gchaks

Yanıtlar:


5

Doğrusal modeller için, her model parametresi için t istatistiklerinin mutlak değerini kullanabilirsiniz.

Ayrıca, rastgele bir forrest gibi bir şey kullanabilir ve özellik ithalatlarının çok güzel bir listesini alabilirsiniz.

R kontrol kullanıyorsanız ( http://caret.r-forge.r-project.org/varimp.html ), python kontrol kullanıyorsanız ( http://scikit-learn.org/stable/auto_examples /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )

DÜZENLE:

Logit'in bunu yapmanın doğrudan bir yolu olmadığından, her bir öngörücü için bir ROC eğrisi kullanabilirsiniz.

Sınıflandırma için, her bir öngörücü üzerinde ROC eğrisi analizi yapılır. İki sınıf problemi için, sınıfı öngörmek üzere öngörücü verilere bir dizi kesim uygulanır. Hassasiyet ve özgüllük her bir kesme için hesaplanır ve ROC eğrisi hesaplanır. Yamuk kuralı, ROC eğrisinin altındaki alanı hesaplamak için kullanılır. Bu alan değişken önem ölçüsü olarak kullanılır

Bunun R'de nasıl çalıştığına bir örnek:

library(caret)
mydata <- data.frame(y = c(1,0,0,0,1,1),
                 x1 = c(1,1,0,1,0,0),
                 x2 = c(1,1,1,0,0,1),
                 x3 = c(1,0,1,1,0,0))

fit <- glm(y~x1+x2+x3,data=mydata,family=binomial())
summary(fit)

varImp(fit, scale = FALSE)

1
Cevabın için teşekkürler! evet doğrusal model ve rastgele orman için kolaydır, Lojistik Regresyon durumunda nasıl yapılacağı hakkında bir fikriniz var mı? Çok teşekkürler!
xyhzc

Yukarıdaki düzenlemeye bakın.
mike1886

Oran düzeyindeki karşılaştırmalar hakkındaki soru hala cevaplanmamıştır. AUC'nin diyelim ki, .6 sadece x1 ve .9'u sadece x2 kullanıyor olsa bile, x2'nin öneminin% 50 daha fazla olduğunu söyleyemeyiz. Bence, (% 1-10 /% 40) =% 75 daha fazla. Sadece duyarlılık ya da sadece özgüllük kullanarak benzer bir şey yapamayız. Wald istatistiğinin burada uygulanabilirliği hakkında da şüphelerim var. En yararlı olanı standart katsayıların açıklamaları olabilir (Scott Menard'ın çevrimiçi kitabına bakın).
rolando2

Teşekkürler rolando2! Bu sorudaki değişkenlerin tümü aynı metriklerdeki ölçülerdir, bu nedenle standartlaştırılmış ve standartlaştırılmamış katsayılar aynı olmalıdır. Ayrıca, logit (log-odds) düzeyindeki değişkenleri karşılaştırmak için standartlaştırılmış katsayıları kullanabilmemize rağmen, P'deki değişkenleri nasıl yorumlayabiliriz (bu durumda çevrimiçi alışveriş yapanların satın alma olasılığı)? çok teşekkürler!
xyhzc

1
Soruyu cevapladığını görmüyorum.
HelloWorld

4

Olasılık ölçeği üzerinde özellikle bir yorum istemiş olduğunuz için: Lojistik regresyonda, tahmini başarı olasılığı

π^(x)=exp(β0+βx)1+exp(β0+βx)

β0βx

exp(0.1)1+exp(0.1)=0.52

Yalnızca 3. reklamı tıklayan bir kişi:

exp(0.3)1+exp(0.3)=0.57

Bununla birlikte, kişi reklam 1 veya reklam 3'ü değil, aynı zamanda reklam 2'yi de tıkladıysa (bu bir plazubil senaryo ise) olasılıklar

exp(0.1+0.2)1+exp(0.1+0.2)=0.57

exp(0.3+0.2)1+exp(0.3+0.2)=0.62

Bu durumda, olasılıktaki değişiklik her ikisi de 0.05'tir, ancak genellikle bu değişiklik farklı düzey kombinasyonları için aynı değildir. (Örneğin, yukarıdakiyle aynı yaklaşımı ancak 0.1, 1.5, 0.3 katsayılarıyla kullanırsanız bunu kolayca görebilirsiniz.) Bu nedenle, bir değişkenin olasılık ölçeğindeki önemi, diğer değişkenlerin gözlenen düzeylerine bağlıdır. Bu, olasılık ölçeğinde mutlak, nicel bir değişken önem ölçüsü ortaya çıkarmayı zorlaştırabilir (imkansız?).


açıklaman için teşekkürler! Öyleyse, öngörücülerin göreceli önemini ölçmek için dolaylı bir yöntem var mı? mike1886, cevabında "ROC eğrisi analizinden" bahsetti, ancak rolando2 tarafından belirtildiği gibi bazı sorunları var. Çok teşekkürler!
xyhzc
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.