En küçük kareler katsayısını atarak azlık


14

Diyelim ki normalize edilmiş bir karşı gerilemek istiyorum , ancak seyrek bir çözüm istiyorum. Regresyondan sonra, neden en küçük büyüklükteki katsayıların atılmasına izin verilmiyor?XYX

Kayıt için, LARS ve LASSO yöntemlerini duydum ve sıklıkla kullanıyorum. Yukarıdaki yaklaşımın neden geçerli olmadığını merak ediyorum.


2
+1 Bu basit sorular zor olabilir - temel kavramlar hakkında çok düşünülmesini sağlarlar.
whuber

Yanıtlar:


14

ortonormal olsaydı sorun olmazdı . Ancak, açıklayıcı değişkenler arasında güçlü bir korelasyon olasılığı bize bir duraklama sağlamalıdır.X

En küçük kareler regresyonunun geometrik yorumunu düşündüğünüzde , karşı örneklerin gelmesi kolaydır. Al , var demek neredeyse normal dağılıma sahip katsayılar ve neredeyse buna paralel edilecek. ve tarafından oluşturulan düzleme dik olmasına izin verin . Biz tahayyül edebilirsiniz de esas olan yönünde, henüz kökenli nispeten küçük miktarda yer değiştirdiği düzlem. Çünkü ve paralel neredeyse edilir, yani düzlemde bileşenleri hem damla bizi neden büyük katsayıları olabilirX 2 X 3 X 1 X 2 Y X 3 X 1 , X 2 X 1 X 2 X 3X1X2X3X1X2YX3X1,X2X1X2X3 , bu çok büyük bir hata olurdu.

Geometri, aşağıdakiR hesaplamalarla gerçekleştirilen bir simülasyonla yeniden oluşturulabilir :

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

varyansları , uyum katsayılarını standart katsayıların vekilleri olarak inceleyebileceğimiz yakındır . Tam modelde katsayılar, tasarım ile ilişkili en küçük (uzak), , ve 0,1'dir (hepsi son derece önemlidir) . Kalan standart hata 0.00498'dir. İndirgenmiş ("seyrek") modelde, 0.09803'teki artık standart hata kat daha büyüktür: ile ilgili neredeyse tüm bilgilerin değişkenin en küçük standart katsayıyla düşürülmesinden kaynaklanan kaybını yansıtan büyük bir artış . düşmüştür 1 X 3 20 Y R 2 0,9975 0,38Xi1X320YR20.9975neredeyse sıfıra yakın. Her iki katsayı da seviyesinden daha iyi anlamlı değildir .0.38

Dağılım grafiği matrisi aşağıdakileri ortaya çıkarır:

X1, x2, x3 ve y'nin dağılım grafiği matrisi

ve arasındaki güçlü korelasyon , sağ alt taraftaki noktaların doğrusal hizalanmalarından anlaşılır. ile ve ve arasındaki zayıf korelasyon , diğer panellerdeki dairesel eşit derecede açıktır. Yine de, en küçük standartlaştırılmış katsayı aittir ziyade için veya . y x 1 y x 2 y x 3 x 1 x 2x3yx1yx2yx3x1x2


2

Bana öyle geliyor ki tahmini bir katsayı 0'a yakınsa ve veriler normalleştirilirse, değişkenin atılmasıyla tahmine zarar verilmez. Kesinlikle eğer katsayı istatistiksel olarak anlamlı olmasaydı sorun olmazdı. Ancak bu dikkatli bir şekilde yapılmalıdır. IV'ler ilişkilendirilebilir ve birinin çıkarılması diğerlerinin katsayılarını değiştirebilir. Bu şekilde birkaç değişkeni yeniden başlatmaya başlarsanız, bu daha tehlikeli hale gelir. Altküme seçim prosedürleri, bu tür problemlerden kaçınmak ve değişkenleri dahil etmek ve hariç tutmak için mantıklı kriterler kullanmak üzere tasarlanmıştır. Frank Harrell'a sorarsanız, adım adım prosedürlere karşı olacaktır. İki çok modern yöntem olan LARS ve LASSO'dan bahsediyorsunuz. Ancak çok fazla değişken var.

Bu konuda çok sayıda literatür ile dikkatle incelenen bir altküme seçim prosedürünü denerseniz, muhtemelen testin 0'dan istatistiksel olarak önemli ölçüde farklı olduğu için başarısız olduklarında küçük katsayılara sahip değişkenleri yeniden çözen bir çözüme yol açacağını göreceksiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.