«ridge-regression» etiketlenmiş sorular

Katsayıları sıfıra indiren regresyon modelleri için bir düzenleme yöntemi.

3
Kement vs sırtını ne zaman kullanmalıyım?
Diyelim ki çok sayıda parametre tahmin etmek istiyorum ve bazılarını cezalandırmak istiyorum çünkü diğerlerine kıyasla daha az etkili olmaları gerektiğine inanıyorum. Hangi ceza planının kullanılacağına nasıl karar verebilirim? Sırt regresyonu ne zaman daha uygun olur? Kement'i ne zaman kullanmalıyım?



2
Sırt regresyonuna neden “sırt” denir, neden ihtiyaç duyulur ve
Ridge regresyon katsayısı tahmin β R minimize değerlerdirβ^R,β^R,\hat{\beta}^R RSS + λ ∑j = 1pβ2j.RSS+λΣj=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Benim sorularım: Eğer λ = 0λ=0\lambda = 0 , o zaman ifade yukarıda zamanki RSS azalttığını görüyoruz. Ya λ → ∞λ→∞\lambda \to \infty ? Ders kitabındaki katsayıların davranışlarının açıklanmasını anlamıyorum. Belirli bir …

5
Büzülmeyle ilgili birleşik bakış: Stein'in paradoksu, ridge regresyonu ve karışık modellerde rastgele etkiler arasındaki ilişki nedir?
Aşağıdaki üç fenomeni düşünün. Stein'ın paradoksu: çok değişkenli normal dağılımdan bazı veriler verilen Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 , örnek ortalama, gerçek ortalamanın çok iyi bir tahmincisi değildir. Örnek ortalamanın tüm koordinatlarını sıfıra doğru [veya ortalamalarına doğru ya da doğru bir şekilde anlıyorsam, aslında herhangi bir değere doğru daraltırsa], daha …

5
Büzülme yöntemleri hangi sorunu çözer?
Tatil mevsimi bana İstatistiksel Öğrenme Elemanları ile ateşin yanında kıvrılma fırsatı verdi . (Sık) bir ekonometri perspektifinden gelince, sırt regresyonu, kement ve en düşük açılı regresyon (LAR) gibi büzülme yöntemlerinin kullanımını kavramakta güçlük çekiyorum. Tipik olarak, parametrenin kendilerini tahmin etmesini ve yansızlık veya en azından tutarlılığı elde etmekle ilgilenirim. Büzülme …

3
Sırtı tahmin neden köşegene sabit ekleyerek OLS'tan daha iyi hale geliyor?
Ridge regresyon tahmininin, kalan kare miktarını ve büyüklüğünde bir cezayı en aza indiren olduğunu anlıyorumββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Bununla birlikte, βridgeβridge\beta_\text{ridge} 'in \ beta_ \ text {OLS}' dan farklı olduğunu, X 'X'in köşegenineβOLSβOLS\beta_\text{OLS} sadece küçük bir sabit ekleyerek anlamını tam olarak …

2
Büzülme neden işe yarıyor?
Model seçimindeki problemleri çözmek için, bir dizi yöntem (LASSO, ridge regresyon, vb.) Yordayıcı değişkenlerinin katsayılarını sıfıra çekecektir. Bunun neden tahmin edilebilirliği geliştirdiğine dair sezgisel bir açıklama arıyorum. Değişkenin gerçek etkisi aslında çok büyükse, neden parametreyi küçültmek daha kötü bir tahminle sonuçlanmıyor?

6
Sırt regresyonu yüksek boyutlarda işe yaramaz mı (
İle iyi eski regresyon problemi düşünün belirleyicileri ve örnek büyüklüğü . Her zamanki bilgelik, OLS tahmincisinin fazladan donacağı ve genel olarak ridge regresyon tahmincisi tarafından daha iyi şekillendirileceğidir:Optimal düzenlileştirme parametresi bulmak için çapraz doğrulama kullanmak standarttır . Burada 10 kat CV kullanıyorum. Açıklama güncellemesi: olduğunda "OLS tahmincisi" tarafından tarafından verilen …



1
Yuvalanmış çapraz doğrulama ne zaman gereklidir ve pratik bir fark yaratabilir mi?
Model seçimi yapmak için (örneğin; hiperparametre ayarı gibi) ve en iyi modelin performansını değerlendirmek için çapraz doğrulama kullanılırken, iç içe çapraz doğrulama kullanılmalıdır . Dış döngü modelin performansını değerlendirmek içindir ve iç döngü en iyi modeli seçmektir; Model her bir dış eğitim setinde (iç CV halkası kullanılarak) seçilir ve performansı …

3
> 50K değişkenleriyle Kement veya sırt regresyonundaki büzülme parametresi nasıl tahmin edilir?
50.000'den fazla değişkenli bir modelde Kement veya ridge regresyon kullanmak istiyorum. Bunu R'deki yazılım paketini kullanarak yapmak istiyorum. Büzülme parametresini ( ) nasıl tahmin edebilirim ?λλ\lambda Düzenlemeler: İşte anladığım nokta: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, …

2
Eğer sadece tahminler ilgiliyse, neden sırt üstü kement kullanılmalı?
İstatistiksel Öğrenmeye Giriş bölümündeki 223. Sayfada yazarlar ridge regresyonu ile kement arasındaki farkları özetlemektedir. "Kementin önyargı, varyans ve MSE açısından sırt regresyonundan daha iyi performans gösterme eğiliminde olduğu" bir örnek (Şekil 6.9). Kementin neden arzu edildiğini anlıyorum: çok sayıda katsayıyı 0'a daralttığı için basit ve yorumlanabilen modeller ile sonuçlanan seyrek …


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.