Lojistik regresyon için hangi özelliklerin en önemli olduğunu anlama


17

Verilerim üzerinde çok doğru olan bir lojistik regresyon sınıflandırıcısı oluşturdum. Şimdi neden bu kadar iyi çalıştığını daha iyi anlamak istiyorum. Özellikle, hangi özelliklerin en büyük katkıyı yaptığını (hangi özelliklerin en önemli olduğunu) sıralamak ve ideal olarak, her özelliğin genel modelin (veya bu damardaki bir şeyin) doğruluğuna ne kadar katkıda bulunduğunu ölçmek istiyorum. Bunu nasıl yaparım?

İlk düşüncem onları katsayılarına göre sıralamaktı, ama bunun doğru olamayacağını düşünüyorum. Eşit derecede kullanışlı iki özelliğim varsa, ancak ilkinin yayılması ikinciden on kat daha büyükse, ilkinin ikincisinden daha düşük bir katsayı almasını beklerdim. Özellik önemini değerlendirmenin daha makul bir yolu var mı?

Özellikte küçük bir değişikliğin sonucun olasılığını ne kadar etkilediğini anlamaya çalışmamaya dikkat edin. Aksine, sınıflandırıcının doğru olması açısından her özelliğin ne kadar değerli olduğunu anlamaya çalışıyorum. Ayrıca, amacım özellik seçimi yapmak veya daha az özelliğe sahip bir model oluşturmak değil, öğrenilen model için bazı "açıklanabilirlik" sağlamaya çalışmaktır, bu nedenle sınıflandırıcı sadece opak bir kara kutu değildir.


Rastgele ormanların da burada iyi bir teknik olduğunu söyleyebilirim. Hangi özelliklerin tahmine en çok katkıda bulunduğu sezgisini kazanmak için orman üzerindeki en yüksek bölünmeleri inceleyebilirsiniz.

Yanıtlar:


14

Dikkat edilmesi gereken ilk şey, lojistik regresyonu sınıflandırıcı olarak kullanmamanızdır. Aslında ikili aslında sınıfladıkları'nı gözlemlere bu maksimum olabilirlik yöntemi kullanarak ile hiçbir ilgisi yoktur. Bunu geçtikten sonra, maksimum olasılığın bir yan ürünü olan altın standart bilgi ölçüsüne odaklanın: olabilirlik oranı χ 2Yχ2 istatistiği. Her öngörücünün kısmi katkısı açısından kısmi katkısını gösteren bir grafik üretebilirsiniz χ2istatistiktir. Bu istatistikler maksimum bilgi / güce sahiptir. Önyükleme aracını, diğer öngörücüler hesaba katıldığında her bir öngörücünün sağladığı tahmin bilgilerinin saflarında güven aralıkları alarak "kazananlar" ve "kaybedenler" seçmenin ne kadar zor olduğunu göstermek için kullanabilirsiniz. Ders notlarımın 5.4 bölümünde bir örnek verilmiştir: Dinleyici notları ve ardından Dinleyici notları'nı tekrar tıklayınız.

Yüksek derecede ilişkili özelliklere sahipseniz, etkilerini birleştirmek için bir "yığın testi" yapabilirsiniz. Bunu yapan bir grafik Şekil 15.11'de verilmiştir.size 4 ayrı öngörücünün birleşik katkısını temsil eder.


6

Kısa cevap, bu soruyu cevaplamanın tek bir "doğru" yolu olmamasıdır.

Konuların en iyi şekilde gözden geçirilmesi için Ulrike Groemping'in makalelerine bakınız, örneğin, Varyans Ayrışmasına Dayalı Doğrusal Regresyondaki Göreceli Önem Tahminleri . Tartıştığı seçenekler basit sezgisel taramadan sofistike, CPU yoğun, çok değişkenli çözümlere kadar uzanıyor.

http://prof.beuth-hochschule.de/fileadmin/prof/groemp/downloads/amstat07mayp139.pdf

Groemping, okumaya değer RELAIMPO adlı bir R paketinde kendi yaklaşımını önerir.

https://cran.r-project.org/web/packages/relaimpo/relaimpo.pdf

Kullandığım hızlı ve kirli bir sezgisel tarama, her bir parametreyle ilişkili ki-kareleri (F değerleri, t-istatistikleri) toplamak ve bu değerleri ayrı ayrı değerleri yeniden toplamaktır. Sonuç, sıralanabilir göreli önem metriği olacaktır.

Bununla birlikte, "standart beta katsayıları" hayranı olmadım, ancak meslek tarafından sıkça tavsiye edildiler ve yaygın olarak kullanıldılar. İşte onlarla ilgili sorun: standartlaştırma tek değişkenli ve model çözümünün dışında. Başka bir deyişle, bu yaklaşım model sonuçlarının koşullu doğasını yansıtmaz.


Cevap ve bağlantılar için teşekkürler! "Model çözümünün dışında" ve "model sonuçlarının koşullu doğası" nın ne anlama geldiğini anlatabilir veya anlatabilir misiniz? (Ben istatistik konusunda uzman değilim, ne yazık ki.)
DW

1
Telaşa gerek yok. Modellerin bir modeldeki diğer faktörler için nasıl "kontrol" veya koşul olduğu fikri, birçok istatistikçinin üzerinde anlaşabileceği şeylerden biri olabilir. Aynı zamanda bu sitede çok fazla yorum gören bir konu. İşte böyle bir konuya bir link: stats.stackexchange.com/questions/17336/… İçindeki en iyi yorumlardan biri, @whuber tarafından 'Muhasebe "olarak kontrol etmeyi düşünebilirsiniz (en az kare anlamda) ) bir değişkenin diğer tüm değişkenlere katkısı / etkisi / etkisi / ilişkilendirmesi için. '
Mike Hunter

Teşekkürler! Bazı faktörleri "kontrol etmek" kavramına aşinayım. Bu, "model çözümünün dışında" veya "model sonuçlarının koşullu doğası" ile ne anlam ifade eder veya anlamını kazanmaya yardımcı olur?
DW

"Standartlaştırılmış bir beta" oluşturmak için öngörücülerin standartlaştırılması genellikle bir model oluşturulmadan önce yapılır, doğru mu? Bu nedenle, bu dönüşüm modelin çözümü için "harici" dir. Benimle şimdiye kadar mı?
Mike Hunter

TAMAM. Şimdi "harici" ile ne demek istediğini anlayabiliyorum - açıklama için teşekkürler. Bunun neden bir sorun olduğunu ve "koşullu doğa ..." ile ne kastedildiğini açıklayabilir misiniz? (Belki bu iki soru aynı cevapla aynı sorudur ...) Sizi sorularla özür dilerim! Ne yazdığını anlamaya can atıyorum.
DW

3

Bunu yapmanın oldukça sağlam bir yolu, N'nin özellik sayısı olduğu N modelini takmayı denemek olacaktır. Her seferinde özelliklerin N-1'ini kullanın ve bir özelliği dışarıda bırakın. Ardından, her bir özelliğin dahil edilmesinin veya hariç tutulmasının modelin performansını ne kadar etkilediğini ölçmek için favori doğrulama metriğinizi kullanabilirsiniz. Sahip olduğunuz özelliklerin sayısına bağlı olarak bu, hesaplama açısından pahalı olabilir.


4
Bu, ilişkili özellikleri iyi işlemez. İki özelliğin birbiriyle son derece ilişkili olduğu bir durumu tasarlamak kolaydır, böylece ikisinden birinin kaldırılması tahmin gücünü minimum düzeyde etkiler , ancak her iki etkinin de kaldırılması onu ciddi şekilde etkiler. Esasen, iki öngörücünün neredeyse aynı fakat önemli bilgiyi taşıdığı bir bilgi.
Matthew Drury

2
Katılıyorum. Bu, katsayıları incelerken de bir tehlikedir.
Daniel Johnson

1
Sessiz doğru. Sessiz doğru.
Matthew Drury

2

Gözleminizde, sadece tahmini katsayı büyüklüğüne bakarak haklısınız |βj^|belirtilen sebepten dolayı çok anlamlı değildir. Ancak basit bir ayar, katsayı tahmininin tahmin edicinin tahmini standart sapması ile çarpılmasıdır|βj^|σ^jve bunu bir önem ölçüsü olarak kullanmak. Buna bazen standartlaştırılmış beta katsayısı denir ve lojistik regresyonda, bir standart sapma değişikliğinin neden olduğu tahmini günlük başarı oranlarındaki değişikliği temsil eder.xj. Bununla ilgili bir sorun, artık sayısal öngörücülerle uğraşmadığınızda bozulmasıdır.

Son noktanıza gelince, elbette, bir değişkenin "gerçek" günlük olasılıklarını çok fazla etkilemese de tahmini günlük oranlarına çok katkıda bulunabilmesi mümkündür, ancak bunun, eğer biz tahminleri üreten prosedüre güvenir.


0

Katsayıları neden alaka ölçüsü olarak kullanmamanız konusunda haklısınız, ancak bunları standart hatalarına böldüğünüzde kesinlikle yapabilirsiniz! Modeli R ile tahmin ettiyseniz, o zaman zaten sizin için yapılır! Modelden en az önemli özellikleri bile kaldırabilir ve nasıl çalıştığını görebilirsiniz.

A more heuristic approach to study how different changes in the variables alter the outcome is doing exactly that: try different inputs and study their estimated probabilities. However, as your model is quite simple, I would usggest against that

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.