[Benzer bir soru sorulmuştur burada cevapsız]
L1 regülasyonlu (Kement lojistik regresyonu) bir lojistik regresyon modeline uydum ve takılan katsayıları önem açısından test etmek ve p değerlerini almak istiyorum. Wald'ın testlerinin (örneğin), bireysel katsayıların önemini düzenli olarak tam regresyonda test etmek için bir seçenek olduğunu biliyorum, ancak Kement ile olağan Wald formüllerinin uygulanmasına izin vermeyen başka problemlerin ortaya çıktığını düşünüyorum. Örneğin, test için oluşturulan varyans tahminleri normal ifadelere uymaz. Orijinal Kement kağıdı
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
testler için gerekli olabilecek (yine sanırım) katsayı varyansını tahmin etmek için bootstrap tabanlı bir prosedür önermektedir (bölüm 2.5, sayfa 272'nın son paragrafı ve 273'ün başı):
Bir yaklaşım bootstrap üzerinden yapılır: ya düzeltilebilir ya da her bootstrap örneği için üzerinde optimizasyon yapabiliriz . Tespit iyi alt kümesi seçme (benzerdir özelliklerin bu alt kümesi için standart hatasını) ve daha sonra en küçük kareler kullanarak
Anladığım şey: Düzenleme parametresi için en uygun değeri bulana kadar bir Lasso regresyonunu art arda tüm veri kümesine sığdırın (bu önyüklemenin bir parçası değildir) ve sonra yalnızca Kement tarafından seçilen özellikleri alt örneklere OLS regresyonlarına uyacak şekilde kullanın ve bu regresyonların her birinden sapmaları hesaplamak için olağan formülleri uygulayın. (Ve sonra her katsayının son varyans tahminini elde etmek için her katsayının tüm bu varyanslarıyla ne yapmalıyım?)
Ayrıca, olağan anlamlılık testlerini (örneğin tahmini beta ve varyansları kullanan Wald testi) katsayıların Lasso tahminleri ve bootstrap tahmini varyansları ile kullanmak doğru mu? Emin değilim, ama herhangi bir yardım (farklı bir test kullanın, daha basit bir yaklaşım kullanın, whaterever ...) hoş geldiniz daha fazladır.
Buradaki cevaplara göre çıkarımdan şüpheleniyorum ve p-değerleri elde edilemiyor. Benim durumumda, p-değerleri harici bir gerekliliktir (L1 düzeninin kullanılması benim seçimim olmasına rağmen).
Çok teşekkürler
EDIT OLS lojistik regresyonunu yalnızca Lasso lojistik regresyonunun önceki bir çalışması tarafından seçilen değişkenleri kullanarak uyarsam ne olur? Görünüşe göre ( buraya bakın ),
Çapraz doğrulama yaptıktan sonra modeli tekrar çalıştırmanıza gerek yoktur (sadece katsayıları cv.glmnet çıktısından alırsınız) ve aslında yeni lojistik regresyon modelini cezalandırmadan takarsanız, kullanım amacını yenersiniz kement
Ama bunu sadece değişkenlerin sayısını düşük tutarken p-değerlerini hesaplamak amacıyla yaparsam? Çok kirli bir yaklaşım mı? :-)