Özellikler ilişkilendirildiğinde neden Kement veya Elastik Ağ Ridge'den daha iyi performans gösterir?


18

Bir dizi 150 özelliğim var ve bunların birçoğu birbiriyle yüksek derecede korelasyonlu. Amacım aralığı 1-8 olan ayrık bir değişkenin değerini tahmin etmektir . Örneklem boyutum 550 ve 10 kat çapraz doğrulama kullanıyorum.

AFAIK, düzenlileştirme yöntemleri (Kement, Elastik Ağ ve Sırt) arasında Ridge, özellikler arasındaki korelasyon için daha titizdir. Bu yüzden Ridge ile daha doğru bir tahmin almamı bekliyordum. Ancak, benim sonuçlar Lasso veya Elastic ortalama mutlak hata etrafında olduğunu göstermek 0,61 bu puan ise 0,97 sırt regresyon için. Bunun için ne bir açıklama olacağını merak ediyorum. Bu, birçok özelliğe sahip olduğum için ve Lasso daha iyi performans gösterdiğinden, bir tür özellik seçimi yaparak gereksiz özelliklerden kurtuluyor mu?


1
Sizce ridge neden daha iyi performans göstermeli? senin örnek boyutu nedir?
bdeonovic

1
"Regresyon için daha titiz" ne demektir?
bdeonovic

Yanıtlar:


22

Varsayalım ki, iki yüksek korelasyonlu yordayıcı değişkeni ve her ikisinin de ortalanmış ve ölçeklendirilmiş olduğunu varsayalım (sıfıra, varyans birine). Daha sonra, parametre vektörü üzerindeki sırt cezası β 2 1 + β 2 2 iken, kement ceza süresi β 1+ β 2 ∣ 'dir . Şimdi, modelin yüksek derecede lineer olduğu varsayıldığından, x ve z az ya da çok Y'yi tahmin etmede birbirinin yerine geçebilir , sadece kısmen ikame ettiğimiz x , z'nin birçok doğrusal kombinasyonux,zβ12+β22β1+β2xzYx,zz için x , öngörücülerle çok benzer şekilde çalışacaktır, örneğin 0,2 x + 0,8 x , 0,3 x + 0,7 z veya 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5ztahminciler kadar eşit derecede iyi olacaktır. Şimdi bu üç örneğe bakın, her üç durumda da kement cezası eşittir, 1'dir, sırt cezası farklılık gösterirken, sırasıyla 0.68, 0.58, 0.5'dir, bu nedenle sırt cezası, kement cezası sırasında lineer değişkenlerin eşit ağırlıklandırılmasını tercih edecektir. seçim yapamayacak. Bu, sırtın (veya daha genel olarak, kement ve sırt cezalarının lineer bir kombinasyonu olan elastik ağ) doğrusal çizgisel öngörücülerle daha iyi çalışmasının bir nedenidir: Veriler, doğrusal doğrusal öngörücülerin farklı doğrusal kombinasyonları arasında seçim yapmak için çok az neden verdiğinde, kement sırt eşit ağırlıklandırma eğiliminde iken "dolaş". Sonuncusu gelecekteki verilerle kullanmak için daha iyi bir tahmin olabilir! Ve eğer bu, mevcut verilerle böyleyse, çapraz doğrulamayla sırt ile daha iyi sonuçlar olarak ortaya çıkabilir.

Bunu bayesci bir şekilde görebiliriz: Sırt ve kement farklı önceki bilgileri ima eder ve sırt tarafından ima edilen önceki bilgiler bu gibi durumlarda daha makul olma eğilimindedir. (Bu açıklamayı az çok, kitabından öğrendim: Trevor Hastie, Robert Tibshirani ve Martin Wainwright'ın "Kıtlıkla İstatistiksel Öğrenme Kement ve Genellemeler", ama şu anda doğrudan bir alıntı bulamadım).


4
Sırtın gelecekteki veriler üzerinde daha iyi çalışması olasılığı hakkında iyi bir nokta. Mevcut verilerde çapraz doğrulamayla ilgili hata ile yeni verilerde yararlılık arasındaki fark çok sık gözden kaçmaktadır. İkincisi hakkında bazı tahminler için OP, verilerin çoklu önyükleme örneklerinde tüm LASSO, elastik ağ ve sırt modeli oluşturma süreçlerini tekrarlayabilir ve daha sonra tam veri setine uygulandığında hataları inceleyebilir. Bu en azından model oluşturma sürecini test ediyor.
EdM

Eş zamanlı veri için eşit ağırlıkların seçilmesinin neden avantajlı olduğu açık değil mi? Birisi bu noktayı ayrıntılandırabilir mi?
Ramon Martinez

1
@RamonMartinez Bence fikir, rastgele bir alt küme (kementin ne yapacağını) seçmek yerine tüm özellikleri eşit ağırlıkta tutmanın daha iyi olabileceğini düşünüyorum. Altküme rastgele olduğu için, bunun örnek dışında doğru altkümesi olduğuna dair bir garanti yoktur. Tüm özelliklerin ortalaması hala gerçek altkümeyi bilmek kadar iyi değildir, ancak şanssız rastgele bir altkümeden daha yakın olabilir. Bu özelliklerin hepsi gerçekten colinear ise onları colinear OOS kalmalarını beklerdim, bu durumda sadece tahminleri önemsiyorsanız çoğu rastgele altküme muhtemelen iyidir.
Joseph Garvin

3

Kement ve sırt arasındaki en önemli fark, kementin doğal olarak, özellikle ortak değişkenlerin çok ilişkili olduğu bir seçim yapmasıdır. yerleştirilmiş katsayıları görmeden gerçekten emin olmak imkansızdır, ancak bu ilişkili özellikler arasında birçoğunun sadece işe yaramaz olduğunu düşünmek kolaydır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.