Açıklayıcı modeller için LASSO: küçülen parametreler mi değil mi?


9

Birincil hedefin verileri anlamak olduğu bir analiz yapıyorum. Veri kümesi çapraz doğrulama için yeterince büyüktür (10k) ve öngörücüler hem sürekli hem de kukla değişkenleri içerir ve sonuç süreklidir. Ana hedef, modelin daha kolay yorumlanmasını sağlamak için bazı öngörücüler çıkarmanın mantıklı olup olmadığını görmekti.

Sorular:

  1. Benim sorum “hangi değişkenler sonucu açıklar ve bu açıklamanın“ yeterince güçlü ”bir parçasıdır”. Ancak, kement için lambda parametresini seçmek için, çapraz doğrulama, yani kriter olarak öngörücü geçerlilik kullanırsınız. Çıkarım yaparken, tahmin geçerliliği sorduğum genel soru için yeterince iyi bir vekil midir?

  2. Diyelim ki LASSO 8 öngörücünün sadece 3'ünü tuttu. Ve şimdi kendime şunu soruyorum: "bunların sonuç üzerinde ne etkisi var". Mesela bir cinsiyet farkı buldum. Kement büzülmesinden sonra, katsayı kadınların erkeklerden 1 puan daha yüksek olduğunu göstermektedir. Ancak büzülme olmadan (yani, gerçek veri kümesinde), 2.5 puan daha yüksek puan alırlar.

    • Hangisini "gerçek" cinsiyet etkim olarak alacağım? Sadece öngörülü geçerlilikle gitmek, küçülen katsayı olacaktır.
    • Ya da bir bağlamda, istatistiklerde iyi bilgili olmayan insanlar için bir rapor yazdığımı varsayalım. Onlara hangi katsayıyı bildirirdim?

1
Ne tür bir modele bakıyorsunuz? Doğrusal, lojistik, poisson, vs. modeli?
15'te TrynnaDoStat

1
Doğrusal bir model, ama bunun soru için bir fark yarattığını düşünmüyorum
mbokulic

Yanıtlar:


7

Amacınız modelinizdeki parametreleri doğru bir şekilde tahmin etmekse, o zaman gerçek modele ne kadar yakın olduğunuz, modelinizi nasıl seçmeniz gerektiğidir. Çapraz geçerlilik yoluyla öngörülebilir geçerlilik bunu yapmanın bir yoludur ve tercih edilir seçme yolu λ LASSO regresyonunda.

Şimdi, hangi parametre tahmininin "gerçek tahminde" olduğu sorusunu cevaplamak için, hangi parametrenin gerçek parametre değerine "en yakın" olduğuna bakılmalıdır. "En yakın", sapmayı en aza indiren parametre tahminleri anlamına mı geliyor? Eğer öyleyse, o zaman en küçük kare tahmincisi doğrusal regresyonda tarafsızdır. En yakın ortalama kare hatasını (MSE) en aza indiren parametre tahmini anlamına mı geliyor? Daha sonra, MSE'yi en aza indiren tahminler verecek bir sırt regresyon spesifikasyonu olduğu gösterilebilir (LASSO'ya benzer olarak, sırt regresyonu parametre tahminlerini sıfıra doğru çeker, ancak LASSO'dan farklı olarak, parametre tahminleri sıfıra ulaşmaz). Benzer şekilde, ayar parametresinin çeşitli özellikleri vardırλLASSO'da lineer regresyondan daha küçük MSE ile sonuçlanacaktır ( buraya bakınız ). İstatistikçi olarak, "en iyi" tahminin ne olduğunu belirlemeli ve bunu (tercihen tahminin güveninin bir göstergesiyle) istatistiklerde iyi bilgili olmayanlara rapor etmelisiniz. "En iyi" olanı yanlı bir tahmin olabilir veya olmayabilir.

glmnetR fonksiyonu iyi değerleri seçerek oldukça iyi bir iş yokλ ve özet olarak, λ çapraz onaylama ve parametre tahminlerinin raporlanması yoluyla parametrelerin "gerçek" değerini tahmin etmenin mükemmel makul bir yoludur.

Bir Bayes LASSO modeli λ marjinal olasılıkla bazıları tarafından tercih edilir, ancak belki de yanlış, sık sık bir LASSO modeli yaptığınızı varsayıyorum.


"Yanlılığı en aza indirgeyen parametre tahminlerindeki" yanlılık ile ne demek istediniz? Ve ben şöyle okursam geri kalanı doğru okudum: Ben örnek dışı tahmini MSE (yani, çapraz doğrulama) en düşük olan modeli seçmeliyim?
Nadir

@mbokulic Önyargı ile istatistiksel önyargı demek istiyorum. Bu, bir ölçüm işleminin bir popülasyon parametresinin değerini fazla / az tahmin etme eğilimini ifade eder. Cevabım bunun ne istediğine bağlı olduğunu söylüyor. Önyargı istemiyorsanız, doğrusal regresyona bağlı kalın. Önyargı konusunda sorun yaşıyorsanız ve MSE'yi en aza indirmeyi tercih ediyorsanız, LASSO ile gidin ve seçim yaparken gereken özeni gösterinλ.
TrynnaDoStat

ilginç, hiç böyle düşünmemiştim. Yine seni doğru anladım mı diye sormalıyım. Dolayısıyla lineer regresyon size nüfus katsayılarının en tarafsız tahminini verir (orijinal sorumdaki "2,5 puan daha yüksek" örneği). Oysa kement veya sırt regr. örnek dışı MSE'yi en aza indirin. Eğer öyleyse, sadece anlamak (tahmin etmek değil) istiyorsanız, doğrusal regresyon daha iyi görünür, ancak yine de modeli adım adım yöntemlerle basitleştirmek istersiniz.
mbokulic

cevaplar burada faydalıdır. OLS (lineer regresyon) örnek-içi performansa sahipken, kement örnek dışıdır. Ayrıca, OLS'un kement tarafından seçilen kısıtlı öngörücüler setinde kullanılabileceğini önermektedirler. OLS tahminleri biraz fazla olsa bile, yorumlama hedefim için tam anlamıyla budur.
mbokulic
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.