Laplace neden daha seyrek çözümler üretiyor?


22

Düzenlemeyle ilgili literatürü inceliyordum ve çoğunlukla L2 düzenlemesini Gaussian'la bağlayan, L1'i de sıfır merkezli olan L1'i bağlayan paragrafları görüyordum.

Bu önceliklerin nasıl göründüğünü biliyorum, ama örneğin doğrusal modeldeki ağırlıklar ile nasıl ilişkili olduğunu anlamıyorum. L1'de, doğru anlarsam, seyrek çözümler bekleriz, yani bazı ağırlıklar tam olarak sıfıra itilir. Ve L2'de küçük ağırlıklar alıyoruz, ancak sıfır ağırlıklar değil.

Ama neden oldu?

Daha fazla bilgi vermem ya da düşünme yolumu netleştirmem gerekirse lütfen yorum yapın.



1
Gerçekten basit ve sezgisel bir açıklama, bir L2 normunu kullanırken değil, bir L1 normunu kullanırken cezanın azalmasıdır. Bu nedenle, kayıp fonksiyonunun model kısmını eşit tutarsanız ve bunu iki değişkenden birini azaltarak yapabilirsiniz, değişkeni L2 durumunda mutlak değeri yüksek bir L1 durumunda azaltmak daha iyidir.
testuser

Yanıtlar:


21

İle önceden Laplace dağılımı ilişkisi ortanca (veya L1 norm) bu tür öncesinde Normal dağılımına sahip olarak medyan yerine ortalama tahmin kullanarak (Stingler, 1986 veya gördükleri ortaya kondu Laplace kendisi tarafından bulundu Wikipedia ). Bu, Laplace hata dağılımı ile yapılan regresyonun medyanı (örn. Kuantil regresyon gibi) tahmin ettiği, Normal hataların ise OLS tahminini ifade ettiği anlamına gelir.

İstediğiniz sağlam öncelikler, Bayesian ayarlarındaki güçlü Kement regresyonunun Laplace kullanımına eşdeğer olduğunu fark eden Tibshirani (1996) tarafından da açıklanmıştır. Daha önce bu tür katsayılar sıfır merkezlidir (ortalanmış değişkenlerle) ve geniş kuyruklara sahiptir - bu nedenle çoğu regresyon katsayısı kullanılarak tahmin edilen sonuç tamamen sıfır olur. Aşağıdaki resme yakından bakarsanız, bu açıktır, Laplace dağılımı sıfıra yakın bir tepe noktasına sahiptir (daha büyük bir dağıtım kütlesi vardır), Normal dağılım sıfır civarında daha dağınıktır, dolayısıyla sıfır olmayan değerler daha büyük olasılık kütlesine sahiptir. Sağlam öncelikler için diğer olasılıklar Cauchy veya - dağılımlarıdır.t

Bu tür öncelikleri kullanarak, bazı sıfır değer katsayıları, bazı orta boy ve bazı büyük boyları (uzun kuyruk) sona erdirmeye daha yatkınsınız, önceki Normal ise tamamen sıfır olmayan daha orta boy katsayıları elde edersiniz, fakat Ayrıca sıfırdan da uzak değil.

görüntü tanımını buraya girin

(görüntü kaynağı Tibshirani, 1996)


Stigler, SM (1986). İstatistiklerin Tarihçesi: 1900'den Önce Belirsizlik Ölçümü. Cambridge, MA: Belknap Harvard Üniversitesi Yayınları Basını.

Tibshirani, R. (1996). Regresyonda büzülme ve kement ile seçim. Kraliyet İstatistik Derneği Dergisi. B Serisi (Metodolojik), 267-288.

Gelman, A., Jakulin, A., Pittau, GM ve Su, Y.-S. (2008). Lojistik ve diğer regresyon modelleri için zayıf bilgilendirici varsayılan dağıtım. Uygulamalı İstatistiklerin Annals, 2 (4), 1360-1383.

Norton, RM (1984). Çifte Üstel Dağılım: Maksimum Olabilirlik Tahmincisi Bulmak için Analizin Kullanılması. Amerikan İstatistiği, 38 (2): 135-136.


Vay canına, bu çok iyi bir açıklama ve aynı zamanda düzenlileştirme normlarının mod, meadian ve ortalama ile sezgisel olarak bağlantılı olduğu bağlantılı bir soru için özel teşekkürler, bu gerçekten benim için çok açık!
Dmitry Smirnov

1
@Tim, Cauchy Dağılımının Ağır Kuyruğu var, ancak Sıfır olasılığı Normal Dağılımdan daha az. Öyleyse nasıl seyrek bir çözüm üretti?
Royi

4

Sık görüş açısı 👀

Bir anlamda, her iki düzenlemeyi "ağırlıkları küçültmek" olarak düşünebiliriz ; L2, ağırlıkların Öklid normunu, L1 ise Manhattan normunu en aza indirir. Bu düşünce tarzını takiben, L1 ve L2'nin eş potansiyellerinin sırasıyla küresel ve elmas şeklindeki olmalarının nedeni olabilir, bu nedenle L1'in Piskopos Örüntü Tanıma ve Makine Öğrenmesi'nde gösterildiği gibi seyrek çözümlere yol açma olasılığı daha yüksektir :

Piskopos'un * Örüntü Tanıma ve Makine Öğrenmesi *

Bayesian görünümü 👀

Bununla birlikte, önceliklerin doğrusal modelle nasıl ilişkili olduğunu anlamak için , sıradan doğrusal regresyonun Bayesian yorumunu anlamamız gerekir . Katherine Bailey'nin blog yayını bunun için mükemmel bir okuma. Özet olarak, lineer modelimizde normal olarak dağılmış iid hatalarını varsayıyoruz.

y=θX+ε

N-yben,ben=1,2,...,N-εk~N-(0,σ)

y

p(y|X,θ;ε)=N-(θX,σ)

Görünüşe göre ... Maksimum olabilirlik tahmincisi, hatanın normalliği varsayımı altında tahmin edilen ve gerçek çıktı değerleri arasındaki kare hatasını en aza indirmekle aynıdır.

θ^MLE=argmaksimumθgünlükP(y|θ)=argminθΣben=1n(yben-θxben)2

Ağırlıkları ön plana çıkarırken düzenli olma

Doğrusal regresyon ağırlıkları öncesinde bir düzensiz yerleştirirsek, en fazla posteriori olasılık (MAP) tahmini şöyle olur:

θ^MAP=argmaksimumθgünlükP(y|θ)+günlükP(θ)

P(θ)θ

P(θ)θ

Laplace vs Gaussian

Şimdi ağırlıkların önüne bir Laplace koymanın neden seyrekliğe neden olma ihtimalinin daha yüksek olduğuna dair başka bir görüşümüz var : Laplace dağılımı sıfıra daha fazla konsantre olduğu için ağırlıklarımızın sıfır olma olasılığı daha yüksektir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.