Sık görüş açısı 👀
Bir anlamda, her iki düzenlemeyi "ağırlıkları küçültmek" olarak düşünebiliriz ; L2, ağırlıkların Öklid normunu, L1 ise Manhattan normunu en aza indirir. Bu düşünce tarzını takiben, L1 ve L2'nin eş potansiyellerinin sırasıyla küresel ve elmas şeklindeki olmalarının nedeni olabilir, bu nedenle L1'in Piskopos Örüntü Tanıma ve Makine Öğrenmesi'nde gösterildiği gibi seyrek çözümlere yol açma olasılığı daha yüksektir :
Bayesian görünümü 👀
Bununla birlikte, önceliklerin doğrusal modelle nasıl ilişkili olduğunu anlamak için , sıradan doğrusal regresyonun Bayesian yorumunu anlamamız gerekir . Katherine Bailey'nin blog yayını bunun için mükemmel bir okuma. Özet olarak, lineer modelimizde normal olarak dağılmış iid hatalarını varsayıyoruz.
y = θ⊤X + ϵ
N-yben, i = 1 , 2 , … , Nεk∼ N( 0 , σ)
yp ( y | X , θ ; ϵ ) = N( θ⊤X , σ)
Görünüşe göre ... Maksimum olabilirlik tahmincisi, hatanın normalliği varsayımı altında tahmin edilen ve gerçek çıktı değerleri arasındaki kare hatasını en aza indirmekle aynıdır.
θ^MLE= argmaksimumθgünlükP( y| θ)= argminθΣi = 1n( yben- θ⊤xben)2
Ağırlıkları ön plana çıkarırken düzenli olma
Doğrusal regresyon ağırlıkları öncesinde bir düzensiz yerleştirirsek, en fazla posteriori olasılık (MAP) tahmini şöyle olur:
θ^MAP= argmaksimumθgünlükP( y| θ)+logP( θ )
P( θ )θ
P( θ )θ
Şimdi ağırlıkların önüne bir Laplace koymanın neden seyrekliğe neden olma ihtimalinin daha yüksek olduğuna dair başka bir görüşümüz var : Laplace dağılımı sıfıra daha fazla konsantre olduğu için ağırlıklarımızın sıfır olma olasılığı daha yüksektir.