Regresyonda önyargıyı (önleme) terimini küçültmeme nedeni

21

Doğrusal bir model için , büzülme terimi her zaman . $y=\beta_0+x\beta+\varepsilon$ $P(\beta)$

Önyargı (engelleme) terimini küçültmememizin nedeni nedir ? Yapay sinir ağ modellerinde yanlılık terimini küçültmeli miyiz? $\beta_0$

— yliueagle
kaynak

Scikit-learn'da kullanılan lojistik regresyon kütüphanesi önyargı terimini cezalandırıyor (bunun bir uygulama artefaktı olduğunu düşünüyorum, önyargı ilave girdi değişkeni olarak ele alınmaktadır)

— seanv507

33

İstatistiksel Öğrenmenin Elementleri Hastie ve ark. Çıkıntı regresyonunu aşağıdaki gibi tanımlayın (Bölüm 3.4.1, denklem 3.41): yani açıkça kesişme terimini sırt cezalarından hariç tut .

\hat{β}^{r i d g e} = \underset{β}{a r g m i n} {\sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2} + λ \sum_{j = 1}^{p} β_{j}^{2}},

$\hat \beta{}^\mathrm{ridge} = \underset{\beta}{\mathrm{argmin}}\left\{\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2\right\},$

β_{0}

$\beta_0$

Sonra yazıyorlar:

[...] ceza süresinin dışında kaldığına dikkat edin. Müdahalenin cezalandırılması işlemi prosedürü için seçilen kökene bağlı hale getirir ; yani, hedeflerinin her birine sabit bir eklemek , tahminlerin aynı miktarında değişmesine neden olmaz . $\beta_0$ $Y$ $c$ $y_i$ $c$

Gerçekten de, sabit terimi mevcudiyetinde ilave tüm sadece yol açacaktır artan de ve buna karşılık olarak tüm tahmin değerleri da artacak . Kesişme cezalandırılmış, bu doğru değildir: daha az artması gerekir . $c$ $y_i$ $\beta_0$ $c$ $\hat y_i$ $c$ $\beta_0$ $c$

Aslında, doğru (lisanssız) bir kesişim terimi olmasına bağlı olan lineer regresyonun hoş ve kullanışlı birkaç özelliği vardır. Örneğin, ortalama değeri ve ortalama değeri eşittir ve (sonuç olarak) karesi çoklu korelasyon katsayısı , tayin katsayısına eşittir : bakınız örneğin, bu konuya Bir açıklama: Çoklu korelasyon katsayısı ve belirleme katsayısının geometrik yorumu . $y_i$ $\hat y_i$ $R$ $R^2$

(R)^{2} = \cos^{2} (\hat{y}, y) = \frac{‖ \hat{y} ‖^{2}}{‖ y ‖^{2}} = R^{2},

$(R)^2 = \cos^2(\hat {\mathbf y}, \mathbf y) = \frac{\|\hat{\mathbf y}\|^2}{\|\mathbf y\|^2} = R^2,$

R

$R$

R^{2}

$R^2$

Müdahalenin cezalandırılması artık hepsinin doğru olmamasına yol açacaktır.

— amip Reinstate Monica diyor
kaynak

2

Büzülme veya düzenlenme amacını hatırlayın. Öğrenme algoritmasının eğitim verilerinin üzerine gelmesini veya eşdeğerde olmasını engellemek - keyfi olarak büyük parametre değerlerini seçmekten kaçınmaktır. Bu, gürültünün varlığında az sayıda eğitim örneği olan veri setleri için daha muhtemeldir (gürültü varlığı ve etkisi hakkında çok ilginç tartışmalar Yaser Abu-Mustafa tarafından "Veriden Öğrenme" de tartışılmıştır). Gürültülü verilerde, düzenli bir hale getirme olmadan öğrenilen bir model muhtemelen görünmeyen bazı veri noktalarında kötü performans gösterecektir.

Bunu akılda tutarak, iki sınıfta sınıflandırmak istediğiniz 2B veri noktalarına sahip olduğunuzu hayal edin. Önyargı parametrelerinin dışındaki her şeyin düzeltilmesi, önyargı terimini değiştirmek, sınırı yalnızca yukarı veya aşağı doğru hareket ettirir. Bunu daha yüksek boyutlu bir uzaya genelleyebilirsiniz.

Öğrenme algoritması, önyargı terim için keyfi olarak büyük değerler koyamaz, çünkü bu büyük olasılıkla brüt zarar değerine yol açar (model eğitim verilerine uymaz). Başka bir deyişle, bir eğitim seti verildiğinde, siz (veya bir öğrenme algoritması) uçağı keyfi olarak gerçek olandan uzağa taşıyamazsınız.

Bu nedenle, önyargı terimini küçültmek için hiçbir neden yoktur, öğrenme algoritması aşırı uyarma riski olmadan iyi olanı bulacaktır.

Son bir not: Bazı yazılarda, sınıflandırma için yüksek boyutlu alanlarda çalışırken, yanlılık terimini modellemenin kesin bir gerekliliği olmadığını gördüm. Bu, doğrusal olarak ayrılabilir veriler için işe yarayabilir çünkü daha fazla boyut eklendiğinde, iki sınıfı ayırmak için daha fazla olasılık vardır.

— Vladislavs Dovgalecs
kaynak

"Sınıflandırma için yüksek boyutlu alanlarda çalışırken, önyargı terimini modellemenin kesin bir gereği yok" diyen bazı yazılara referans verebilir misiniz?

— Şubat'ta chandresh

1

Kesişim terimi kesinlikle büzülmeye karşı bağışık değildir. Genel "büzülme" (yani normalleştirme) formülasyonu, normalleştirme terimini kayıp fonksiyonuna koyar, örneğin:

$RSS(\beta) = \|y_i - X_i \beta \|^2$

$RegularizedLoss(\beta) = RSS(\beta) - \lambda f(\beta)$

Nerede genellikle Lebesgue normuna ilgili edilir ve kontrolleri ne kadar kilo biz büzülme vadede koymak bir skalerdir. $f(\beta)$ $\lambda$

Büzülme terimini bu gibi kayıp fonksiyonuna koyarak , modeldeki tüm katsayıları etkiler . Sorunuzun, ( ) dahil tüm katsayıların bir vektörü olduğu gösterimi ile ilgili bir karışıklıktan kaynaklandığından şüpheleniyorum . Sizin lineer model muhtemelen daha iyi olarak yazılabilir olur hangi bunu bir sütun ile veri demek "tasarım matrisi" dir sol tarafta eklenen (yakalamayı almaya ). $\beta$ $P(\beta)$ $\beta_0$ $y = X \beta + \epsilon$ $X$ $1's$

Şimdi sinir ağlarının düzenlenmesi ile konuşamam. Yapay sinir ağları için önyargı teriminin küçülmesinden kaçınmak ya da yukarıda açıklanan formülasyondan farklı olarak düzenli kayıp işlevini tasarlamak isteyebilirsiniz. Sadece bilmiyorum Ancak, ağırlıkların ve önyargı şartlarının birlikte düzenlendiğinden şüpheleniyorum.

— David Marx
kaynak

2

Sözleşmeye dayanır, ancak örneğin Hastie ve ark. çıkıntıyı cezalandırmayacak şekilde sırt regresyonunu tanımlar (cevabımı görün) Bunun diğerlerinden daha standart olabileceğinden şüpheleniyorum.

— amip diyor Reinstate Monica

1

David Marx'ın yukarıdaki cevabının tam olarak doğru olduğundan emin değilim; Andrew Ng’e göre, konvansiyonel olarak önyargı / engelleme katsayısı, doğrusal bir regresyonda tipik olarak düzenli değildir ve herhangi bir durumda düzenli olup olmadığı önemli bir fark yaratmaz.

— xenocyon
kaynak

1

En basit açıklamayı vereceğim, sonra genişleyeceğim.

y_{t} = ε_{t}

$y_t=\varepsilon_t$

E [ε_{t}] = E [y_{t}] \neq 0

$E[\varepsilon_t]=E[y_t]\ne 0$

$\beta$

$\beta$ $\beta_0$

y_{t} = β_{0} + ε_{t}

$y_t=\beta_0+\varepsilon_t$

E [y_{t}] = β_{0} + E [ε_{t}]

$E[y_t]=\beta_0+E[\varepsilon_t]$

E [ε_{t}] = 0

$E[\varepsilon_t]=0$

β_{0} = μ = E [y_{t}]

$\beta_0=\mu=E[y_t]$

Bu model orijinal model kadar seksi değil, aslında aptalca. Ancak, yasal bir modeldir. Örneğin, ANOVA'yı çalıştırabilirsin.

$\beta_0=E[y_t]$

— Aksakal
kaynak