Ridge ve LASSO normları


12

Bu yazı bunu takip ediyor: Çapraz tahmin, diyagonal bir sabit ekleyerek neden OLS'den daha iyi hale geliyor?

İşte sorum:

Bildiğim kadarıyla, sırt düzenlenmesi normu (öklid mesafesi) kullanır. Ama neden bu normun karesini kullanıyoruz? ( doğrudan uygulanması , beta kare toplamının kare kökü ile sonuçlanır).222

Bir karşılaştırma olarak, bunu düzenlemek için normu kullanan yapmıyoruz. Ama burada "gerçek" normu (sadece beta mutlak değerlerin karesinin toplamı ve bu toplamın karesi değil).111

Birisi netleştirmeme yardımcı olabilir mi?


2
Sırt regresyonundaki ceza süresi, kare L2 normudur. Tibshirani tarafından örnek olarak yazılan bu slaytlara bakın (slayt 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Ayrıca buraya bakın en.wikipedia.org/wiki/Tikhonov_regularization
boscovich

Küçük bir açıklama noktası, bunlar Rob değil Ryan Tibshirani'nin slaytları .
Ellis Valentiner

tamam, açıklama için çok teşekkürler. Ama neden L2 için kare ve L1 için kare değil anlamıyorum. Herhangi bir düzenleme için genel formülümüz yok mu?
PLOTZ

@ user12202013: bunu işaret ettiğiniz için teşekkür ederiz. Fark etmedim.
boscovich

Yanıtlar:


9

Sırt ve kement , düzenli hale getirmenin ve regresyonun iki yoludur. Kement regresyonu, mutlak katsayıların toplamı üzerinde bir kısıtlama getirir:

iβi2=||β||1

Ridge regresyonu, kare farkların toplamının bir kısıtlamasını getirir:

iβi2=iβi22=||βi||22

Katsayıların öklid uzunluğu olan başka bir norm bile getirmeyi önerdiniz:

iβi2=||βi||2

Ridge regresyonu ile öklid uzunluğu arasındaki fark karedir. Bu, düzenlemenin yorumunu değiştirir. Hem sırt hem de öklid uzunluğu sıfıra doğru düzenlenirken, sırt regresyonu da düzenlenme miktarından farklıdır. Sıfırdan daha fazla olan katsayılar sıfıra doğru daha güçlü bir şekilde çekilir. Bu, sıfır civarında daha kararlı hale getirir çünkü düzenlileştirme sıfıra yakın bir şekilde değişir. Öklid uzunluğu veya gerçekte kement regresyonu için durum böyle değildir.


7

Şu anda her türlü farklı ceza fonksiyonuna sahip olan birçok cezalandırılmış yaklaşım vardır (sırt, kement, MCP, SCAD). Neden belirli bir formdan biri olduğu sorusu temelde “böyle bir ceza hangi avantajları / dezavantajları sağlar?”.

İlgilenilen özellikler şunlar olabilir:

1) Neredeyse tarafsız tahmin ediciler (cezalandırılan tüm tahmin edicilerin taraflı olacağını unutmayın)

2) Seyreklik (sırt çıkıntısının seyrekleşmesi seyrek sonuçlar üretmez, yani katsayıları sıfıra indirmez)

3) Süreklilik (model tahmininde kararsızlığı önlemek için)

Bunlar, bir ceza fonksiyonuyla ilgilenebilecek birkaç özelliktir.

Türev ve teorik çalışmalarda bir toplamla çalışmak çok daha kolaydır: örneğin ve. Imagine biz olsaydı veya . Türevleri almak (tutarlılık, asimtotik normallik vb.| | β | | 1 = | β i | ||β||22=|βi|2||β||1=|βi| (|βi|)2(|βi|2)(|βi|)2


tamam teşekkürler. Ama neden L2 için kare ve L1 için kare değil? Herhangi bir düzenleme için genel formülümüz yok mu? Bu beni
şaşırttı

@PLOTZ Cevabıma biraz ekledim.
bdeonovic

Çok teşekkürler Benjamin! Kesinlikle şimdi daha net! Bu teorik amacı cevabınızdan önce alamadım. Cevabınız için çok teşekkürler.
PLOTZ

@Benjamin: nokta # 1 "(size aslında demek istedi değil tüm cezalandırılmış tahminleyicileri tarafsız olacaktır)"? Ridge regresyonu - sadece ismiyle - önyargılıdır.
boscovich

whoops evet bunu yakaladığınız için teşekkürler! Aslında cezalandırılan tüm tahmin ediciler önyargılı olacak.
bdeonovic

5

Aslında karesi ve karesi aynı sınıfından gelir: olduğunda .21βppp>0

Ridge regresyonu daha sonra ve Kement kullanmaktadır, ancak diğer değerleri kullanabilir .p=2p=1p

Örneğin, tüm değerleri için seyrek bir çözümünüz vardır ve çözümün daha az değeri vardır .p1p

değerleri için hedefiniz daha pürüzsüz değildir, bu nedenle optimizasyon zorlaşır; için nesnel olmayan dışbükey ve optimizasyon da zor böyledir ...p1p<1


2

Bir teknik geliştirildiğinde "neden" sorularının cevaplanması her zaman zor olsa da, burada daha da basit bir cevap olduğuna inanıyorum. Kare -norm düzenlilestirme terim kolayca ayırt edilebilirdir, böylece kullanılır. Ridge regresyonu en aza indirir:l2

yXβ22+λβ22

Hangisi de yazılabilir:

yXβ22+λβTβ

Artık kapalı form çözümünü almak için wrt kolayca ayırt edilebilir :β

β^ridge=(XTX+λI)1XTy

her türlü çıkarımdan türetilebilir.


1

Karesini kullanarak arasında bir başka önemli bir fark göz önünde normuna (yani sırt regresyon) ve modifiye edilmemiş norm: türevi norm , en ile verilir ve bu nedenle sıfır vektöründe ayırt edilemez. Yani, normu kement gibi bireysel değişken seçimi da , teorik olarak maksimum cezalandırılmış olasılığa çözüm olarak verebilir . Karesi alınarak222x||x||2xx||x||22β=02 cezada norm, sırt tipi ceza her yerde ayırt edilebilir ve asla böyle bir çözüm getiremez.

Bu davranış tam olarak (benim anlayışımla) grup kementinin (Yuan ve Lin) ve seyrek grup kementinin (Simon ve diğerleri) vb. kare yerine normu (katsayıların önceden belirlenmiş alt kümelerinde) kullanmasıdır. arasında norm.22

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.