Kement'ten önce standardizasyon gerçekten gerekli midir?


28

LassoRegresyon gibi bir şeyden önce değişkenleri standartlaştırmanın üç ana nedenini okudum :

1) Katsayıların yorumlanabilirliği.

2) Katsayı önemini büzülme sonrası katsayı tahminlerinin göreceli büyüklüğü ile sıralama yeteneği.

3) Kesişmeye gerek yok.

Ama en önemli noktayı merak ediyorum. Standardizasyonun modelin örnek genellemesinin dışına çıkacağını düşünmek için bir nedenimiz var mı? Ayrıca, modelimde bir kesişmeye ihtiyacım olmaması umrumda değil; bir tane eklemek bana zarar vermez.


1
Açıklama: “Standardizasyonun isteğe bağlı olması koşuluyla (sonuçların farklı büyüklüklerde çarpık olmadığı özel durumlardan biri olması koşuluyla), sonra standartlaştırma örnek dışı genellemeyi iyileştirecek mi?” Diye sormak isteyebilirsiniz. Bu doğru mu?
Drew75

@ Drew75 Vakaların dağılımını tercih ediyorum, örneğin sonuçların "farklı büyüklüklerde çarpıtılması durumunda" yardımcı oluyor mu, sonuçlar çarpık olmadığında yardımcı oluyor mu, et cetera, en iyi cevap farklı durumları kapsayacak.
Jase

1
O zaman sorunuz Lasso'yla ilgili değil (çünkü genel olarak Lasso'dan önce standardizasyon gerekiyor). Bu daha genel. Belki de sorunun başlığını ve ilk cümlesini değiştir.
Drew75

@Drew: Bu oldukça soru-yalvarma: Niçin gerekli (ne zaman değil?)? Sonuçları çarpıtmak ne anlama geliyor (neye göre?)? Bence soru olduğu gibi sorun değil.
Scortchi - Monica'yı yeniden kurun

@ Drew75 Sorum Lasso ile ilgili.
Jase

Yanıtlar:


21

Kement regresyonu, her değişkene bağlı katsayıların boyutuna kısıtlamalar koyar. Ancak, bu değer her değişkenin büyüklüğüne bağlı olacaktır. Bu nedenle değişkenlerin merkezlenmesi ve azaltılması veya standartlaştırılması gerekir.

Değişkenlerin merkezlenmesinin sonucu, artık bir engelin olmadığı anlamına gelir. Bu arada, regresyon regresyonuna eşit olarak uygulanır.

Bir başka iyi açıklama da bu yazı: Regresyondaki verileri merkezleme ve standartlaştırma ihtiyacı


Bu ya bir cevap değil ya da soruma aşırı dolaylı bir cevap. Lütfen cevabınız ile örnek genellemesinin dışında (soru buydu) arasındaki bağlantıyı açıklayın.
Jase

10
@Jase: Listenizden çıkardığınız standardizasyonun ana nedenini ele alıyor: Tahmincileri küçük katsayılara sahip bırakmak istiyorsanız (veya katsayıların büyüklüğüne bağlı olarak bir ceza terimi kullanmak istiyorsanız), "küçük ". Standardizasyon LASSO veya diğer cezai regresyon yöntemlerinden önce zorunlu olmamakla birlikte, nadiren tahmin edicilerin ölçüleceği orijinal ölçekler bu amaç için yararlıdır.
Scortchi - Eski Monica

3
Ve merkezleme ile ilgili mesele, genellikle kesmeyi bırakmak veya küçültmek istemediğinizdir.
Scortchi - Monica'yı yeniden kurun

2
λ

2
Çok geniş kitlelerin kullanımına küçültmek ne kadar genel rastgele Pivot numunelerine genelleme etkileyecek mi; Her bir tahminciyi diğerlerine göre ne kadar daraltacağı konusunda biraz keyfi karar , katsayıların biraz farklı olduğu, tahmincilerin dağılımının zorunlu olarak eğitim setinde olduğu gibi olmadığından benzer popülasyonlardan yeni örneklemelere genellemeyi etkileyecektir. , & c. (Tabii sorunuzu hak Of bir daha tam düşünülmüş cevap.)
Scortchi - Eski Monica

2

L1 ceza parametresi, mutlak beta terimlerinin bir toplamıdır. Değişkenlerin hepsi farklı boyutsallığa sahipse, matematiksel olarak herhangi bir hata olmasa da, bu terim gerçekten katkı maddesi değildir.

Ancak, bu sorundan muzdarip kukla / kategorik değişkenler görmüyorum ve standart hale getirilmeleri gerekmiyor. Bunları standart hale getirmek sadece değişkenlerin yorumlanabilirliğini azaltabilir

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.