LASSO için gösterge / binary / kukla tahmin edicilerin ölülüp kurtarılmayacağı


30

LASSO (ve diğer model seçim prosedürleri) için tahmincileri yeniden düzenlemek çok önemlidir. Genel öneri ı takip sürekli değişkenler için bir 0 ortalama, 1 standart sapma normalleşmesini kullanmak için basitçe. Ama aptallarla ne ilgisi var?

Örneğin , aynı (mükemmel) yaz okulundan bazı uygulamalı örnekler , muhtemelen aptallarla karşılaştırılabilir olması için sürekli değişkenleri 0 ile 1 arasında (aykırı değerler için iyi değil) olacak şekilde yeniden ölçeklendirir. Ancak bu bile, katsayıların aynı büyüklük sırasına sahip olması gerektiğini garanti etmiyor ve böylece benzer şekilde cezalandırılıyor, yeniden ölçeklendirmenin temel nedeni, değil mi?


2
Kısa cevap - hayır, aptalları kurtarmayın
Affine

4
İlgili bu
julieth

@julieth, çok teşekkürler, o zamandan beri bazı cevaplar bulursan haberim olsun.
László

Yanıtlar:


27

Kelimenin tam anlamıyla normalizasyon yöntemleri üzerine kitabı yazan Tibshirani ( COX MODELİNDE DEĞİŞKEN SEÇİMİ İÇİN LASSO YÖNTEMİ, Tıp İstatistikleri, VOL. 16, 385-395 (1997) ) göre, aptalları standartlaştırmalısınız. Ancak, daha sonra katsayılarınızın basit yorumlanabilirliğini kaybedersiniz. Aksi takdirde değişkenleriniz eşit bir oyun alanında değildir. Esas olarak, sürekli değişkenlerinizin lehine ölçekleri deviriyorsunuz (büyük olasılıkla). Öyleyse, birincil hedefiniz model seçimi ise, bu korkunç bir hatadır. Bununla birlikte, yorumlamaya daha fazla ilgi duyuyorsanız, belki de bu en iyi fikir değildir.

Tavsiye sayfa 394'te yer almaktadır:

Kement metodu, regresörlerin ilk standardizasyonunu gerektirir, böylece ceza planı tüm regresörler için adildir. Kategorik regresörler için, biri regresörü yapay değişkenler ile kodlar ve sonra manken değişkenleri standart hale getirir. Ancak bir hakem tarafından işaret edildiği gibi, bu şemada sürekli ve kategorik değişkenler arasındaki göreceli ölçeklendirme biraz keyfi olabilir.


3
Tibshirani'nin aptalları standartlaştırmayı önerdiği yere kesin bir referans verebilir misiniz?
seanv507

@ seanv507 "... biri regülatörleri kukla değişkenlerle kodlar ve sonra kukla değişkenleri standart hale getirir ". Bence rocrat açıklamasının doğru olduğunu düşünüyorum: Genel olarak , mankenler de dahil olmak üzere tüm tahmincilerin cezalandırmanın adil olması için aynı ölçek ve varyansa sahip olmasını istiyorsunuz.
Robert Kubrick

1
@RobertKubrick Ben katılmıyorum. Düzenlemenin temel nedeni, küçük değişikliklerin küçük etkilere sahip olması gerektiğidir. Bu yüzden ideal durum, tüm değişkenlerinizin bağımlı değişkeninize göre doğal bir fiziksel ölçeğe sahip olması ve normalleştirilmemesidir. Genelde doğru ölçeği bilmiyoruz, bu yüzden normalleşmeye başvuruyoruz. Bununla birlikte, kategorik değişkenler, böyle bir doğal skalaya sahip, yani 0 veya 1 olma olasılıkları: 0'ın çoğu zaman olan bir değişkenin, 0/1 arasında değişen bir değişkenden daha az önemli olduğunu savunacağım. Bunun yerine Jeff'in cevabı uygun görünüyor.
seanv507

8

Andrew Gelman'ın blog yazısı, Regresyon girdilerini ne zaman standart hale getirip ne zaman yalnız bırakacağınızı görmek de buna değer. Bu bölüm özellikle aşağıdakilerle ilgilidir:

Bir model içindeki farklı öngörücülerin katsayılarını karşılaştırmak için standardizasyon başını sallar. (İkili girişleri standartlaştırmamama rağmen. Onları 0/1 olarak kodluyorum ve sonra diğer tüm sayısal girişleri iki standart sapma ile bölerek standartlaştırıyorum, böylece onları yaklaşık 0/1 değişkenlerle aynı ölçekte yerleştiriyorum.)


1
Ve "ikili girdileri standartlaştırmayın" dediğinde , herhangi bir sıcak değişken grubu, yani kategorik değişkenler için herhangi bir aptal anlamına mı geliyor?
smci

2
p(1p)p=0.50.25

x -> x / 2σ


3

Bu daha çok yorum, ama çok uzun. Kement (ve arkadaşları) için en çok kullanılan yazılımlardan biri R's glmnet. Yardım sayfasından yazdırılan ?glmnet:

standardize: x sırasına uymadan önce x değişken standardizasyonu için mantıksal bayrak. Katsayılar her zaman orijinal ölçekte döndürülür. Varsayılan değer 'standardize = TRUE'. Değişkenler zaten aynı birimlerdeyse, standardize etmek istemeyebilirsiniz. 'Family = "gaussian" ile y standardizasyonu için aşağıdaki ayrıntılara bakın.

X

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.