Birincil hedefin verileri anlamak olduğu bir analiz yapıyorum. Veri kümesi çapraz doğrulama için yeterince büyüktür (10k) ve öngörücüler hem sürekli hem de kukla değişkenleri içerir ve sonuç süreklidir. Ana hedef, modelin daha kolay yorumlanmasını sağlamak için bazı öngörücüler çıkarmanın mantıklı olup olmadığını görmekti.
Sorular:
Benim sorum “hangi değişkenler sonucu açıklar ve bu açıklamanın“ yeterince güçlü ”bir parçasıdır”. Ancak, kement için lambda parametresini seçmek için, çapraz doğrulama, yani kriter olarak öngörücü geçerlilik kullanırsınız. Çıkarım yaparken, tahmin geçerliliği sorduğum genel soru için yeterince iyi bir vekil midir?
Diyelim ki LASSO 8 öngörücünün sadece 3'ünü tuttu. Ve şimdi kendime şunu soruyorum: "bunların sonuç üzerinde ne etkisi var". Mesela bir cinsiyet farkı buldum. Kement büzülmesinden sonra, katsayı kadınların erkeklerden 1 puan daha yüksek olduğunu göstermektedir. Ancak büzülme olmadan (yani, gerçek veri kümesinde), 2.5 puan daha yüksek puan alırlar.
- Hangisini "gerçek" cinsiyet etkim olarak alacağım? Sadece öngörülü geçerlilikle gitmek, küçülen katsayı olacaktır.
- Ya da bir bağlamda, istatistiklerde iyi bilgili olmayan insanlar için bir rapor yazdığımı varsayalım. Onlara hangi katsayıyı bildirirdim?