Cezalandırılmış regresyon modelinden R-kare ve istatistiksel anlamlılığın tahmin edilmesi


20

Cezalandırılan R paketini , çok sayıda tahmin ediciye ve hangilerinin önemli olduğuna dair çok az bilgiye sahip olduğum bir veri kümesi için küçültülmüş katsayı tahminleri elde etmek için kullanıyorum. L1 ve L2 ayarlama parametrelerini seçtikten ve katsayılarımdan memnun kaldıktan sonra, modelin R-kare gibi bir şeyle özetlenmesinin istatistiksel olarak sağlam bir yolu var mı?

Ayrıca, modelin genel önemini test etmekle ilgileniyorum (yani R² = 0 mı, yoksa tüm = 0'ı mı yapıyor).

Burada sorulan benzer bir sorunun cevabını okudum , ama soruma cevap vermedi. Orada kullanıyorum o R paketi üzerinde mükemmel bir öğretici var burada ve yazar Jelle Goeman cezalandırılmış regresyon modellerinden güven aralıkları ile ilgili öğretici sonuna aşağıdaki notu vardı:

Regresyon katsayılarında veya diğer tahmini miktarlarda standart hatalar istemek çok doğal bir sorudur. Prensip olarak, bu tür standart hatalar, örneğin bootstrap kullanılarak kolayca hesaplanabilir.

Yine de, bu paket kasıtlı olarak bunları sağlamaz. Bunun nedeni, standart hataların cezalandırılmış tahmin yöntemlerinden kaynaklanan kuvvetli önyargılı tahminler için çok anlamlı olmamasıdır. Cezalandırılmış tahmin, önemli önyargı getirerek tahmin edicilerin varyansını azaltan bir prosedürdür. Bu nedenle, her bir kestiricinin sapması, ortalama kare hatasının önemli bir bileşenidir, ancak varyansı sadece küçük bir kısma katkıda bulunabilir.

Ne yazık ki, cezalandırılmış regresyon uygulamalarının çoğunda önyargı hakkında yeterince kesin bir tahmin elde etmek imkansızdır. Herhangi bir önyükleme tabanlı hesaplama yalnızca tahminlerin varyansını değerlendirebilir. Önyargıya ilişkin güvenilir tahminler, ancak cezai tahminlerin kullanıldığı durumlarda genellikle geçerli olmayan güvenilir tarafsız tahminler varsa kullanılabilir.

Dolayısıyla cezalandırılmış bir tahminde standart bir hata bildirilmesi hikayenin sadece bir kısmını anlatır. Yanlılıktan kaynaklanan yanlışlığı tamamen göz ardı ederek, yanlış bir yanlış izlenim verebilir. Sadece bootstrap tabanlı güven aralıkları gibi tahminlerin varyansının değerlendirilmesine dayanan güven ifadeleri yapmak kesinlikle bir hatadır.


1
Tabii ki hızlı bir şekilde R-kare tahmini elde edebilmemin bir yolu, orijinal verilerden takılan değerleri tahmin eden ve R-kare şeklini alarak doğrusal bir model yerleştirmektir. Ancak bu, R-kare için devasa ve fazla önyargılı ve önyargılı bir tahmin gibi görünüyor.
Stephen Turner

Yakındaki bir gönderide "benzer" bir soru sorduğum için bunu bir yorum olarak ekliyorum (bu yüzden bir cevap vermek için uygun olup olmadığımı bilmiyorum ), ancak sorunuz için özellikle herhangi bir şeye ihtiyaç duymadan R kare hesaplayabilirsiniz dağılımsal varsayımlar (hipotez testleri için sıradan bir şekilde gereklidir). R kare değerini hesaplamak için bir tutma seti kullanamazsınız veya yeterli veriye sahip değilseniz k katlama doğrulaması kullanamazsınız (her katmanda tam cezalandırılan işleminizi gerçekleştirir ve katlamaların her birinden gelen r-karelerini ortalama değil kullanılan)?
B_Miner

1
@B_Miner, kat çapraz geçerlilik oldukça eğimli tahminleri elde eğilimi R 2kR2 genellikle ilgi konusu gerçek miktarı tahmin değil gibi. Birçok (en çok?) Benzer prosedür aynı soruna sahiptir.
kardinal

1
@Stephen, gerçekten ilgilendiğiniz miktar mı? Cezalandırmanın neden olduğu önyargı nedeniyle, önyargı hakkında çok iyi bir tahmininiz yoksa, yalnızca açıklanan varyansa bakmak muhtemelen arzu edilmez. Kullanmanın fikrine R 2 çıkarım için bir temel olarak tahminlerin sapmasızlık esas alınmaktadır. Regresyon hakkındaki büyük ders kitapları bile bunu "unutuyor" gibi görünüyor. (Bkz, örneğin, Seber ve Lee biraz hatalı tedavi yöntemidir R 2 çoklu regresyon durumda.)R2 R2R2
ana

1
R2

Yanıtlar:


4

Jelle'nin verdiği yorumlara ilk tepkim "önyargı-şmi". "Büyük miktarda yordayıcı" ile ne demek istediğiniz konusunda dikkatli olmalısınız. Bu, aşağıdakilerle ilgili olarak "büyük" olabilir:

  1. Veri noktası sayısı ("büyük p küçük n")
  2. Değişkenleri araştırmanız için gereken süre
  3. Dev bir matrisi ters çevirmenin hesaplama maliyeti

Tepkim 1. noktaya göre "büyük" e dayanıyordu. Bunun nedeni, bu durumda aldığınız varyansın azaltılması için genellikle önyargıda değiş tokuşa değer olmasıdır. Önyargı sadece "uzun vadede" önemlidir. Eğer küçük bir örneğiniz varsa, o zaman "uzun vadede" kimin umurunda?

R2R2

İdeal olarak bu "tahmin hatası" modelleme durumunuzun bağlamına dayanmalıdır. Temel olarak "Modelim verileri ne kadar iyi üretir?" Durumunuzun bağlamı, gerçek dünyada "ne kadar iyi" nin ne anlama geldiğini size söyleyebilmelidir. Daha sonra bunu bir çeşit matematik denklemine çevirmeniz gerekir.

Ancak, sorudan uzaklaşacak hiçbir bağlamım yok. Bir "varsayılan" Yani BASINDA gibi bir şey olurdu: -Y i , - i modeli parametreleri etkilemez). Toplamadaki terimler "silme kalıntıları" olarak da bilinir. Bu işlem yapmak için çok fazla pahalıysa N

PRESS=i=1N(YiY^i,i)2
Y^i,iYiYiNTMG=TMNg=N×MT
PRESS=g=1Gi=1Ng(YigY^ig,g)2
βLASSOβUNCONSTRAINED

3
kp>n>1

1

R paketi hdm ve Stata paketi lassopack , kement için ortak bir önem testini destekler. Teori, öngörücülerin sayısının gözlem sayısına göre büyük olmasına izin verir. Testin arkasındaki teori ve nasıl uygulanacağı hdm belgelerinde kısaca açıklanmıştır . Kısacası, teoriye dayalı cezalandırma çerçevesine dayanmaktadır (Belloni, Chernozhukov ve Hansen ve ark. Tarafından geliştirilmiştir). Altta yatan teori hakkında daha fazla bilgi edinmek istiyorsanız, bu makale iyi bir başlangıç ​​noktasıdır. Tek dezavantajı, testin sadece kement ve (kare köklü kement) için çalışmasıdır. Diğer cezalandırılmış regresyon yöntemleri için geçerli değildir.

Belloni, A., Chen, D., Chernozhukov, V. ve Hansen, C. (2012), Seçkin Alanlara Uygulanan Optimal Enstrümanlar için Seyrek Modeller ve Yöntemler. Econometrica, 80: 2369-2429.


lütfen makalenin tam referansını ekleyiniz (bir link ölebilir)
Antoine
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.