İleri aşamalı regresyon algoritması nedir?


14

Belki de sadece yorgunum, ama İleri Stagewise Regresyon algoritmasını anlamaya çalışırken sorun yaşıyorum. Gönderen "İstatistiksel Öğrenme Elements" sayfa 60:

İleri-aşamalı regresyon (FS), ileri-aşamalı regresyondan daha da kısıtlıdır. Bu, [ortalama] y değerine eşit bir kesişme ve başlangıçta hepsi 0 olan, katsayıları olan ortalanmış tahmin edicilerle ileri-adım regresyon gibi başlar.

Her adımda algoritma, mevcut artık ile en ilişkili değişkeni tanımlar. Daha sonra, bu seçilen değişken üzerindeki artıkların basit doğrusal regresyon katsayısını hesaplar ve daha sonra bu değişken için akım katsayısına ekler. Bu, değişkenlerin hiçbirinin artıklarla korelasyonu bulunmayana kadar sürdürülür - yani N> p olduğunda en küçük kareler fi t.

Peki, bu algoritma mı ?:

b[1]=mean(y)
b[2..n]=0
r=(y-X*b)
index, maxCorr = max(transpose(r)*X)
while(abs(maxCorr) > someThreshold)
  b[index]=b[index]+regress(r,X[1..n][index])
  r=(y-X*b)
  index, maxCorr = max(transpose(r)*X)

B, katsayıların bir sütun-vektörü olduğunda, X, bir girdi matrisidir ve y, bir çıktıların sütun-vektörüdür. Yani y = X * b + hatası.

Çünkü bu algoritma bana test ettiğim veri kümesinde yalnızca birkaç sıfır olmayan katsayı verdiğinden (eşik = .0001 ile) ve tahmin doğruluğu hiç de iyi değil.

Yanıtlar:


5

Yazarlar kitaplarındaki algoritmayı açıklama konusunda zayıf bir iş çıkarıyorlar. Kağıtlarında 1.6 ve 1.7 denklemlerine bakarsanız, daha net olur. Kağıt biraz farklı bir formülasyona sahiptir (katsayı vektöründen ziyade kalıntıyı oluşturur), ancak kilit nokta, çok küçük adımlarla çok küçük karelere uyan en küçük karelere ulaşmasıdır (bu nedenle kitap algoritmanın "daha fazlasını alabilir" p adımlarından daha ". "Regress (...)" yerine küçük bir sayı koyabilir veya 0,05 gibi bir değerle çarpabilirsiniz. Onunla oynayın ve neyin işe yaradığını görün.

Ayrıca, eşik küçük görünüyor. r '* X, gerçek korelasyonlarla orantılı ancak çok daha büyük sayılar verecektir (örn. kağıttaki diyabet verileri için korelasyonlar ~ 70-900'dür).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.