Köprü cezası - Elastik Net düzenlenmesi


22

LASSO ( L1 ) ve Ridge ( L2 ) gibi bazı ceza fonksiyonları ve yaklaşımları iyi incelenmiştir ve bunların regresyonda nasıl karşılaştırıldığı.

Σβjγγ=1γ=2

Wenjiang [ 1 ], olduğunda Bridge cezasını karşılaştırdı , ancak olarak verilen LASSO ve Ridge cezalarının bir birleşimi olan Elastik Net Düzenlemesi ile bir karşılaştırma bulamadım. .γ1Σλ2β2+λ1β1

Bu ilginç bir soru çünkü Elastik Ağ ve bu özel Köprü benzer kısıtlama biçimlerine sahip. Bu birim çevreleri farklı ölçümleri kullanarak karşılaştırın ( , Minkowski mesafesinin gücüdür ):p

Minkowski mesafesinin farklı güçleri için birim daireler

p=1 , LASSO'ya, , Ridge'e ve , bir olası Köprüye karşılık gelir. Elastik Net, ve cezalarında eşit . Bu rakamlar, örneğin (Elastic Net LASSO'dan korurken Bridge'in açıkça sahip olmadığı) sparitiliği tanımlamak için kullanışlıdır.p=2p=1.4L1L2

Öyleyse, olan Köprü, Elastic Net ile düzenlileşme (seyreklik dışında) ile nasıl karşılaştırılır? Denetimli öğrenmeye özel ilgi duyuyorum, bu yüzden belki de özellik seçimi / ağırlıklandırma ile ilgili bir tartışma uygundur. Geometrik argümantasyon da açığız.1<γ<2

Belki de, daha önemlisi, bu durumda Elastik Ağ her zaman daha çok istenen bir şey midir?


[1] Fu, WJ (1998). Cezalandırılmış gerilemeler: Kementle köprü. Hesaplamalı ve grafiksel istatistik dergisi, 7 (3), 397-416.


EDIT: Bu soru var Hangi ceza ölçüsünün kullanılacağına nasıl karar verilir? yüzeysel olarak LASSO, Ridge, Bridge ve Elastic Net'ten bahseden herhangi bir genel kural ya da kural dışı kural , ancak bunları karşılaştırma girişimi yoktur.


4
Teğet ilgili, ancak eğer sadece norm ceza katsayıları bağımsız Laplace olaya karışan bir Bayes regresyon MAP tahmindir ve L 2 Gauss priors aynıdır Köprü ceza öncesinde Subbotin eşdeğer olup olmadığını merak ediyorum. .. stats.stackexchange.com/questions/201038/…L1L2
Sycorax,

@RichardHardy, tüm başkentlerde kement yazma görmek gerek yoktur burada yorumumu .
amip Reinstate Monica diyor

2
Köprü regresyonunun dışbükey olmayan bir regresyon sağlayan değerine izin verdiğini unutmayın . Bunlar, özellikle seyrek verilerden, ortak değişken grupları seçmeye çalışırken özellikle iyidir. Ya da genel olarak sen olur değişkenlerin grupları, önceden tanımlanmış olabilir L 2 , böylece özel bir grubu, büyük düzene ve L 1 kıtlık elde etmek için düzene tek grup katsayıları. Yani sen yazarsanız β = ( a 1 , , bir k ) , burada bir i = ( β i 1 , Pγ<1L2L1β=(bir1,,birk)daha sonra yapabileceğiλ1β γ i +λ2Σibiri ν i . ai=(βi1,βi2,,,βir)λ1βγi+λ2iaiνi
Alex R.,

@AlexR. Aslında şunu açıkça belirtmeliyim: . Bilmiyordum γ < 1 de Köprü deniyordu. γ1γ<1
Firebug

1
@ amoeba, tamam, tamam. Normalde büyük harflerin kullanımın yazı boyunca tutarlı olup olmadığını düzenlemem ama bu sefer hem "LASSO" hem de "kement" vardı. Ben her zaman kısaltmayı düşünüyorum, bu yüzden tüm başkentleri kullandım; ama dediğiniz gibi, basit "kement" daha iyi olabilir.
Richard Hardy,

Yanıtlar:


20

Köprü regresyonu ve elastik ağın ne kadar farklı olduğu, benzer cezaları verildiğinde büyüleyici bir sorudur. İşte olası bir yaklaşım. Köprü regresyon problemini çözdüğümüzü varsayalım. Daha sonra elastik net çözümün nasıl farklı olacağını sorabiliriz. İki kayıp fonksiyonunun gradyanlarına bakmak bize bu konuda bir şeyler söyleyebilir.

Köprü regresyonu

Ki bağımsız değişkenin değerlerini içeren bir matris ( n noktaları x d , boyutları) y bağımlı değişken değerlerini içeren bir vektördür ve ağırlık Ağırlık vektörüdür.Xndyw

Kayıp fonksiyonu , λ b büyüklüğü ile ağırlıkların normunu cezalandırır :qλb

Lb(w)=y-Xw22+λbwqq

Kayıp fonksiyonunun gradyanı:

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

O anlamına gelir, bir vektör sağlar Hadamard (yani öğeye) güç, i inci elemandır v c i . sgn ( w ) , işaret işlevidir ( w'nin her bir öğesine uygulanır). Degrade, q'nun bazı değerleri için sıfırda tanımsız olabilir.vcivicsgn(w)wq

Elastik net

Kayıp fonksiyonu:

Le(w)=yXw22+λ1w1+λ2w22

Bu cezalandıran büyüklükle ağırlıkların norm λ 1 ve 2 büyüklüğü ile norm λ 2 . Elastik ağ kağıdı, bu kaybı en aza indirgemeyi gerektirir 'saf elastik ağ' çünkü ağırlıkları iki kat küçültür. İkili büzülmeyi telafi etmek için ağırlıkların daha sonra yeniden ölçeklendirildiği gelişmiş bir prosedür açıklar, ancak ben sadece naif versiyonunu analiz edeceğim. Akılda tutulması gereken bir uyarı.1λ12λ2

Kayıp fonksiyonunun gradyanı:

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

Degrade olduğunda sıfırda tanımsızdır, çünkü al 1 cezadaki mutlak değer orada ayırt edilemez.λ1>01

yaklaşım

Biz ağırlıkları seçmek Say köprü regresyon sorunu çözmek. Bu, köprü regresyon gradyanının bu noktada sıfır olduğu anlamına gelir:w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

Bu nedenle:

2XT(yXw)=λbq|w|(q1)sgn(w)

Biz elastik ağ gradyan için bir ifade için, elastik ağ gradyanı içine bu yerini alabilir . Neyse ki, artık doğrudan verilere bağlı değil:w

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

Elastik net gradyan baktığımızda söyler: Köprü regresyon ağırlıklarına birleşip göz önüne alındığında w * , elastik net Talep bu ağırlıkları değiştirmek nasıl?ww

Bize istenen değişimin lokal yönünü ve büyüklüğünü verir, çünkü gradyan en dik çıkış yönündeki noktaları ve kayıp fonksiyonu degradenin karşısındaki yönde hareket ettikçe azalır. Degrade doğrudan elastik net çözeltisine işaret etmeyebilir. Ancak, elastik ağ kaybı fonksiyonu dışbükey olduğundan, yerel yön / büyüklük elastik ağ çözümünün köprü regresyon çözümünden nasıl farklı olacağı hakkında bazı bilgiler verir .

Durum 1: Sağlık kontrolü

( ). Bu durumda köprü regresyonu normal en küçük karelere (OLS) eşdeğerdir, çünkü ceza büyüklüğü sıfırdır. Çünkü sadece elastik net eşdeğer sırt gerileme 2 normu cezalandırılır. Aşağıdaki grafikler farklı köprü regresyon çözümleri ve elastik ağ gradyanının her biri için nasıl davrandığını göstermektedir.λb=0,λ1=0,λ2=12

görüntü tanımını buraya girin

Sol arsa: Her boyut boyunca elastik net gradyan vs. köprü regresyon ağırlığı

X ekseni bulunan bir dizi ağırlıktan bir bileşenini temsil köprü regresyon ile seçildi. Y ekseni değerlendirildi elastik ağ gradyanı karşılık gelen bir bileşenidir w * . Ağırlıkların çok boyutlu olduğunu unutmayın, ancak yalnızca tek bir boyut boyunca ağırlıklara / degradelere bakıyoruz.ww

Sağ komplo: Köprü gerileme ağırlıklarında elastik net değişiklikler (2d)

Her nokta 2d ağırlıkları grubunu temsil eder köprü regresyon ile seçildi. Her bir seçimi için ağırlık * , bir vektör gradyanı ile orantılı büyüklüğü ile, elastik ağ gradyanı ters yöne bakan çizilir. Yani, çizilen vektörler elastik ağın köprü regresyon çözümünü nasıl değiştirmek istediğini göstermektedir.ww

Bu grafikler, köprü gerilemesiyle (bu durumda OLS) karşılaştırıldığında elastik ağın (bu durumda sırt gerilimi) ağırlıkları sıfıra çekmek istediğini göstermektedir. İstenilen büzülme miktarı, ağırlıkların büyüklüğü ile artar. Ağırlıklar sıfırsa, çözümler aynıdır. Yorum, kayıp fonksiyonunu azaltmak için degradenin karşısındaki yönde hareket etmek istediğimizdir. Örneğin, köprü gerilemesinin ağırlıklardan biri için pozitif bir değere yaklaştığını varsayalım. Bu noktada elastik ağ gradyanı pozitiftir, bu nedenle elastik ağ bu ağırlığı azaltmak ister. Degrade iniş kullanıyorsanız, degradeyle orantılı olarak adımlar atarız (tabii ki, sıfıra farklılaşamadığından elastik ağı çözmek için teknik olarak degrade iniş kullanamayız.

Durum 2: Eşleşen köprü ve elastik ağ

( ). Sorudan örnekle uyuşması için köprü ceza parametrelerini seçtim. En iyi eşleşen elastik net ceza vermek için elastik net parametreleri seçtim. Burada, ağırlıkların belirli bir dağılımı göz önüne alındığında, en iyi eşleşen araçlar, köprü ve elastik net cezalar arasında beklenen kare farkını en aza indiren elastik net ceza parametrelerini buluyoruz:q=1.4,λb=1,λ1=0.629,λ2=0.355

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

Burada, 'deki düzgün dağılımdan atılan tüm girişlerin ağırlıklarını düşündüm (yani orijin merkezindeki bir hiperküp içinde). En iyi eşleşen elastik net parametreleri 2 ila 1000 boyut için benzerdi. Boyutlara duyarlı gibi görünmese de, en iyi eşleşen parametreler dağılımın ölçeğine bağlıdır.[2,2]

Ceza yüzeyi

q=1.4,λb=100λ1=0.629,λ2=0.355

görüntü tanımını buraya girin

Gradyan davranışı

görüntü tanımını buraya girin

Aşağıdakileri görebiliriz:

  • wjj
  • |wj|<0.25
  • |wj|0.25
  • 0.25<|wj|<1.31
  • |wj|1.31
  • |wj|>1.31

qλbλ1,λ2

Durum 3: Uyumsuz köprü ve elastik ağ

(q=1.8,λb=1,λ1=0.765,λ2=0.225)λ1,λ212

görüntü tanımını buraya girin

Köprü regresyonuna kıyasla, elastik ağ küçük ağırlıkları sıfıra çekmek ve daha büyük ağırlıkları artırmak istiyor. Köprü regresyonu ve elastik ağ çözümlerinin çakıştığı her kadranda tek bir ağırlık takımı vardır, ancak elastik ağlar bu ağırlıktan biraz farklı olsalar da bu noktadan uzaklaşmak ister.

(q=1.2,λb=1,λ1=173,λ2=0.816)1q>1λ1,λ22 daha büyük ceza 1 ceza).

görüntü tanımını buraya girin

Köprü regresyonuna kıyasla, elastik ağ küçük ağırlıklar büyütmek ve daha büyük ağırlıkları küçültmek istiyor. Her kadranda, köprü regresyonunun ve elastik ağ çözümlerinin çakıştığı ve elastik ağın komşu noktalardan bu ağırlıklara doğru hareket etmek istediği bir nokta var.


3
(+1) Harika cevap, çaba için teşekkürler! Son bir şeye değinir misiniz: "Elastik Ağ her zaman daha çok arzu edilir mi?". Uzun olmaya gerek yok;
Firebug

6
Köprü regresyonu ve elastik ağ, ağırlıklarda farklı öncelikleri olan MAP tahminine eşdeğerdir. Bu açıdan bakıldığında, veri üretme süreciyle daha iyi eşleşen önceliğin daha iyi olacağı ve her iki yöntemin de her durumda daha iyi olamayacağı görülüyor.
user20160

2
+6, çok güzel cevap. Yukarıdaki yorumunuzla ilgili olarak: Hangi köprü köprüsünde gerileme yaşanır? Gaussian'ın kementten önce sırt ve Laplace'ye tekabül ettiğini biliyorum. Biri elastik ağa karşılık gelen bir şey elde etmek için bu önceleri birleştirebilir mi?
amip diyor Reinstate Monica

2
@ amoeba Soru bana yöneltilmedi, biliyorum, ancak GeneralAbrial'in sorduğu gibi, köprü muhtemelen daha önce bir Subbotin'e karşılık geliyor. Elastik ağ, beklendiği gibi, Gaussian ve Laplacian önceleri arasındadır. Bakınız Li, Q., ve Lin, N. (2010). Bayesian esnek ağı. Bayesian Analizi, 5 (1), 151-170. ve Zou, H. ve Hastie, T. (2005). Düzenlileştirme ve elastik ağ üzerinden değişken seçimi. Kraliyet İstatistik Kurumu Dergisi: B Serisi (İstatistiksel Metodoloji), 67 (2), 301-320. elastik ağ ve köprü regresyon arasındaki kısa bir karşılaştırma için.
Firebug

2
@ amoeba, bu yazıya verilen ödül ve dikkat için teşekkür eder, aynı şekilde PCA ve doğrusal olmayan boyutsallığı azaltma hakkındaki diğer yazı için. Temsilcinizi başkalarının sorularını / cevaplarını tanıtmak için kullanmanız hayranlık uyandırıcıdır ve bu yazının insanlar için en azından küçük bir değere sahip olması beni mutlu ediyor. Diğerleri, kibar sözler için de teşekkürler.
user20160
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.