Kement lojistik regresyonunda katsayıların önemini test etme


10

[Benzer bir soru sorulmuştur burada cevapsız]

L1 regülasyonlu (Kement lojistik regresyonu) bir lojistik regresyon modeline uydum ve takılan katsayıları önem açısından test etmek ve p değerlerini almak istiyorum. Wald'ın testlerinin (örneğin), bireysel katsayıların önemini düzenli olarak tam regresyonda test etmek için bir seçenek olduğunu biliyorum, ancak Kement ile olağan Wald formüllerinin uygulanmasına izin vermeyen başka problemlerin ortaya çıktığını düşünüyorum. Örneğin, test için oluşturulan varyans tahminleri normal ifadelere uymaz. Orijinal Kement kağıdı

http://statweb.stanford.edu/~tibs/lasso/lasso.pdf

testler için gerekli olabilecek (yine sanırım) katsayı varyansını tahmin etmek için bootstrap tabanlı bir prosedür önermektedir (bölüm 2.5, sayfa 272'nın son paragrafı ve 273'ün başı):

Bir yaklaşım bootstrap üzerinden yapılır: ya düzeltilebilir ya da her bootstrap örneği için üzerinde optimizasyon yapabiliriz . Tespit iyi alt kümesi seçme (benzerdir özelliklerin bu alt kümesi için standart hatasını) ve daha sonra en küçük kareler kullanarakttt

Anladığım şey: Düzenleme parametresi için en uygun değeri bulana kadar bir Lasso regresyonunu art arda tüm veri kümesine sığdırın (bu önyüklemenin bir parçası değildir) ve sonra yalnızca Kement tarafından seçilen özellikleri alt örneklere OLS regresyonlarına uyacak şekilde kullanın ve bu regresyonların her birinden sapmaları hesaplamak için olağan formülleri uygulayın. (Ve sonra her katsayının son varyans tahminini elde etmek için her katsayının tüm bu varyanslarıyla ne yapmalıyım?)

Ayrıca, olağan anlamlılık testlerini (örneğin tahmini beta ve varyansları kullanan Wald testi) katsayıların Lasso tahminleri ve bootstrap tahmini varyansları ile kullanmak doğru mu? Emin değilim, ama herhangi bir yardım (farklı bir test kullanın, daha basit bir yaklaşım kullanın, whaterever ...) hoş geldiniz daha fazladır.

Buradaki cevaplara göre çıkarımdan şüpheleniyorum ve p-değerleri elde edilemiyor. Benim durumumda, p-değerleri harici bir gerekliliktir (L1 düzeninin kullanılması benim seçimim olmasına rağmen).

Çok teşekkürler

EDIT OLS lojistik regresyonunu yalnızca Lasso lojistik regresyonunun önceki bir çalışması tarafından seçilen değişkenleri kullanarak uyarsam ne olur? Görünüşe göre ( buraya bakın ),

Çapraz doğrulama yaptıktan sonra modeli tekrar çalıştırmanıza gerek yoktur (sadece katsayıları cv.glmnet çıktısından alırsınız) ve aslında yeni lojistik regresyon modelini cezalandırmadan takarsanız, kullanım amacını yenersiniz kement

Ama bunu sadece değişkenlerin sayısını düşük tutarken p-değerlerini hesaplamak amacıyla yaparsam? Çok kirli bir yaklaşım mı? :-)


Ayrıca CRAN paketi kontrol edebilirsiniz LASSO modelleri için çıkarım yapmak için HDI yüksek boyutlu modeller için çıkarım sağlar, bunun bir göz atmak isteyebilirsiniz ...
Tom Wenseleers

Tüm yöntemler bu makalede iyi tanımlanmıştır: projecteuclid.org/euclid.ss/1449670857
Tom Wenseleers

Ayrıca LASSO için çıkarım sağlamak için yararlı olabilecek cran.r-project.org/web/packages/selectiveInference/index.html paketi de var ...
Tom Wenseleers

Bu güzel ve önemli bir soru.
Jinhua Wang

Yanıtlar:


5

Her zamanki anlamlılık testlerini kullanmayla ilgili sorun, sonuç değişkenleriyle hiçbir ilişkisi olmayan rastgele değişkenlerin sıfır olduğunu varsaymalarıdır. Bununla birlikte, kement ile sahip olduğunuz şey, kement ile en iyi olanları seçtiğiniz rastgele değişkenler demetidir, ayrıca betalar daralır. Bu yüzden kullanamazsınız, sonuçlar taraflı olacaktır.

Bildiğim kadarıyla, bootstrap varyans tahminini elde etmek için değil, bir değişkenin seçilme olasılıklarını elde etmek için kullanılır. Ve bunlar sizin p değerleriniz. Hasie'nin ücretsiz kitabına bakın, Sparsity ile İstatistiksel Öğrenme, bölüm 6 aynı şeyden bahsediyor. http://web.stanford.edu/~hastie/StatLearnSparsity/

Ayrıca lasso'dan p değerleri almanın başka yolları için bu makaleyi kontrol edin https://arxiv.org/pdf/1408.4026.pdf Muhtemelen daha fazlası var


4

Model seçiminden sonra çıkarsama gerçekleştirmeyle ilgili sorun, en öngörücü değişkenleri seçmeniz ve ardından verilerden bağımsız olarak seçilmiş gibi çıkarım gerçekleştirmenizdir. Kement (veya başka herhangi bir model seçim yöntemi!) İle model seçimi yaptıktan sonra regresyon modelinin yeniden takılmasının -topatif tahminlere yol açabileceğini göstermek mümkündür (bu, basit bir gauss yaklaşımının sıklıkla başarısız olmasının bir nedenidir) güven aralıkları için)n

Neyse ki, son yıllarda seçim sonrası hesabı açıklayan çıkarım yöntemleri geliştirme konusunda çok ilerleme kaydedilmiştir. Vakanızla ilgili bazı referanslar: http://projecteuclid.org/euclid.aos/1460381681 ve https://arxiv.org/pdf/1602.07358.pdf . Bu referanslarda tartışılan teknikler selektifInference- https://cran.r-project.org/web/packages/selectiveInference/index.html adresindeki R paketinde uygulanır . SelectiveInference paketi, ihtiyacınız olan geçerli güven aralıklarını üretmelidir.


1
Coursera'daki Makine Öğrenimi Uzmanlığında Univ. Washington, elbette 2 (Regresyon) öğretmenleri bir hafta Lasso regresyonuna ayırdı. Slaytlardan birinde, tarif ettiğim prosedür (özellikleri seçmek için Kement kullanarak ve daha sonra sadece bu değişkenlerle bir LS regresyonu takmak) debianing olarak adlandırılır ve doğru olarak kabul edilir ve Mario Figueiredo tarafından bir kağıttan grafiklerle gösterilmiştir. 105 numaralı slaytı buradan kontrol edin: github.com/MaxPoon/coursera-Machine-Learning-specialization/…
Pablo

Kementin debiasını önermelerine rağmen, hipotez testlerini hiç tartışmıyorlar. Ayrıca, sapma önleme terimi yanıltıcıdır, çünkü modeli yeniden takmak, kementin neden olduğu aşağı yönlü yanlılıktan kurtulurken, kazananın lanetinin neden olduğu yukarı yönlü önyargıya yardımcı olmaz. Bildiğim kadarıyla, seçilen modelin regresyon katsayısı tahminlerini gerçekten saptırmanın tek yolu, koşullu maksimum olabilirlik tahminlerini hesaplamaktır. arxiv.org/abs/1705.09417
user3903581
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.