Sırt regresyonunun eşdeğer formüllerinin kanıtı


15

İstatistiksel öğrenmede en popüler kitapları okudum

1- İstatistiksel öğrenmenin öğeleri.

2- İstatistiksel öğrenmeye giriş .

Her ikisi de sırt regresyonunun eşdeğer iki formüle sahip olduğunu belirtiyor. Bu sonucun anlaşılabilir bir matematiksel kanıtı var mı?

Ben de Cross Validated geçtim, ama orada kesin bir kanıt bulamıyorum.

Dahası, LASSO da aynı kanıt türünden faydalanacak mı?

resim açıklamasını buraya girin



1
Kement bir sırt sırt gerilemesi değildir.
Xi'an

@jeza, Cevabımda neyin eksik olduğunu açıklayabilir misin? Gerçekten bağlantı hakkında türetilebilir tüm türetmektedir.
Royi

@jeza, Açık olabilir misiniz? Kısıtlı sorun için Lagrangian kavramını bilmiyorsanız, kısa bir cevap vermek zor.
Royi

1
@jeza, kısıtlı bir optimizasyon problemi Lagrangian fonksiyonunun / KKT koşullarının optimizasyonuna dönüştürülebilir (mevcut cevaplarda açıklandığı gibi). Bu ilkenin internet üzerinde zaten birçok farklı basit açıklaması vardır. Hangi yönde ispatın daha fazla açıklaması gerekli? Lagrange çarpanının / fonksiyonunun açıklaması / kanıtı, bu sorunun nasıl Lagrange, fark KKT / Lagrange yöntemi, optimizasyon ilkesinin açıklaması, vb.
Sextus Empiricus

Yanıtlar:


19

Klasik Ridge Regresyonu ( Tikhonov Düzenlemesi ):

argminx12xy22+λx22

Yukarıdaki iddia aşağıdaki sorunun eşdeğer olmasıdır:

argminx12xy22subject tox22t

birinci sorunun en uygun çözümü ve ikinci sorunun en uygun çözümü olarak tanımlayalım .x^x~

Eşdeğerlik iddiası . Yani her zaman bir çift ve , böylece sorunun çözümü aynıdır.t,λ0:x^=x~
tλ0

Nasıl bir çift bulabiliriz?
Sorunları çözerek ve çözümün özelliklerine bakarak.
Her iki sorun da Konveks ve pürüzsüzdür, bu yüzden işleri daha basit hale getirmelidir.

İlk problemin çözümü, gradyanın ortadan kalktığı noktada verilir, yani:

x^y+2λx^=0

KKT Koşullar ikinci sorunu durumlarının:

x~y+2μx~=0

ve

μ(x~22t)=0

Son denklem, veya .μ=0x~22=t

2 temel denklemin eşdeğer olduğuna dikkat edin.
Yani ve her iki denklem de geçerlidir. x^=x~μ=λ

Yani biri olmalıdır , bu da her ikisinin eşdeğer olması için yeterince büyük olması için ayarlanması gerektiği anlamına gelir .y22tμ=0tλ=0

Diğer durumda bulmak gerekir nerede:μ

yt(I+2μI)1(I+2μI)1y=t

Bu temeldex~22=t

Bir kere sen bulmak çözümler çarpışacak.μ

İlgili (LASSO) durumda, iyi, aynı fikri ile birlikte çalışır. Tek fark, çözüm için kapatmadık ve dolayısıyla bağlantıyı daha karmaşık hale getiriyoruz.L1

Benim cevap göz at Stack Exchange Çapraz Doğrulanmış Q291962 ve Önemi - Stack Exchange Sinyal İşleme Q21730 Temeli Peşindeλ .

Açıklama
Aslında ne oluyor?
Her iki problemde de , mümkün olduğunca yakın olmaya çalışır . İlk durumda, ilk terimi ( mesafe) yok edecek ve ikinci durumda objektif işlevi ortadan kaldıracaktır. Fark, ilk durumda kişinin Normunu dengelemesi gerektiğidir . As yüksek denge aracı alır sen yapmalıdır küçük. İkinci durumda bir duvar var, yaklaştırıyorsunuzxy
x=yL2
L2xλx
xyNormundaki kısıt olan duvara çarpana kadar (By ). Duvar yeterince yüksekse ( yüksek değeri ) ve yeterince normuna bağlıysa , hiçbir anlamı yoktur, tıpkı sadece değerinin normuyla çarpımı ile ilgili olduğu gibi anlamlı olmaya başlar. Tam bağlantı yukarıda belirtilen Lagrangian'dır.t
tyλy

kaynaklar

Bu makaleyi bugün buldum (03/04/2019):


eşdeğeri \ lambda ve \ t'nin aynı olması gerektiği anlamına gelir. Çünkü bunu kanıtta göremiyorum. teşekkürler
jeza

@jeza, Yukarıda yazdığım gibi, herhangi bir için (mutlaka eşit değil , ve veri fonksiyonu ) vardır, böylece iki formun çözümleri aynı olur. tλ0tty
Royi

3
@jeza, her ikisi de & aslında burada ücretsiz parametrelerdir. Bir kez belirtin ki, , bu belirli bir optimum çözüm sağlar. Ancak , serbest bir parametre olarak kalır. Dolayısıyla bu noktada iddia, aynı optimal çözümü sağlayacak bir değeri olabileceğidir. Aslında ne olması gerektiği konusunda hiçbir kısıtlama yoktur ; o bazı sabit fonksiyon olmak zorunda gibi değil gibi, gibi bir şey. λtλtttλt=λ/2
gung - Monica'yı eski

@Royi, 1- formülünüzün neden (1/2) olduğunu bilmek isterim, söz konusu formüller değil mi? 2- İki formülün denkliğini göstermek için KKT kullanıyor musunuz? 3- evet ise, hala bu denkliği göremiyorum. Emin değilim ama görmeyi beklediğim şey, bu formülün bir = formül iki olduğunu gösteren kanıt.
jeza

1. LS terimini farklılaştırdığınızda daha kolay. OP iki faktörle hareket edebilirsiniz . 2. KKT'yi 2. vaka için kullandım. İlk durumda herhangi bir kısıtlama yoktur, bu yüzden çözebilirsiniz. 3. Aralarında kapalı bir form denklemi yoktur. Mantığı ve bunları birbirine bağlayan bir grafiği nasıl oluşturabileceğinizi gösterdim. Ama yazdığım gibi her için değişecektir (verilere bağlıdır). λλy
Royi

9

Neler olup bittiğini anlamaya yönelik daha az matematiksel olarak titiz ama muhtemelen daha sezgisel bir yaklaşım, kısıtlama sürümü (söz konusu 3.42 denklemi) ile başlamak ve "Lagrange Multiplier" ( https: //en.wikipedia) yöntemlerini kullanarak çözmek. .org / wiki / Lagrange_multiplier veya favori çok değişkenli analiz metniniz). Sadece hesabında değişkenlerin vektörü olduğunu unutmayın , ama bizim durumumuzda sabittir ve değişken vektördür. Lagrange çarpan tekniğini uyguladıktan sonra ilk denklem (3.41) ile sonuçlanırsınız (minimizasyona göre sabit olan ve göz ardı edilebilecek ekstra atıldıktan sonra ).xxβλt

Bu, bunun kement ve diğer kısıtlamalar için de işe yaradığını gösterir.


8

Belki de Lagrange dualitesi ve aşağıdakiler arasında daha geniş bir ilişki (bazen eşdeğerlik) hakkında okumaya değer:

  • optimizasyon zor (dokunulmaz) kısıtlamalara tabidir
  • kısıtlamaları ihlal eden cezalarla optimizasyon.

Zayıf ikilik ve güçlü ikilik için hızlı giriş

İki değişkenli fonksiyonumuz olduğunu varsayalım . Herhangi bir ve için:f(x,y)x^y^

minxf(x,y^)f(x^,y^)maxyf(x^,y)

Bu herhangi bir ve için geçerli olduğu için:x^y^

maxyminxf(x,y)minxmaxyf(x,y)

Bu zayıf dualite olarak bilinir . Belirli durumlarda, ayrıca güçlü bir dualiteye sahipsiniz ( eyer noktası özelliği olarak da bilinir ):

maxyminxf(x,y)=minxmaxyf(x,y)

Güçlü dualite devam ettiğinde, ikili problemi çözmek de temel problemi çözer. Bir anlamda aynı problemler!

Kısıtlı Ridge Regresyonu için Lagrangian

işlevini şu şekilde tanımlayayım :L

L(b,λ)=i=1n(yxib)2+λ(j=1pbj2t)

Lagrangian'ın min-max yorumu

Zorlu kısıtlamalara maruz kalan Ridge regresyon problemi:

minbmaxλ0L(b,λ)

Sen almak bundan sonra objektif, vakıf aza indirmek için çekilir, rakibin ayarlayacaktır seçtiyseniz sonsuza böyle .bbλbj=1pbj2>t

Güçlü ikilik tutarsa ​​(burada Slater'in durumu için karşılandığı için geçerlidir ), daha sonra siparişi tersine çevirerek aynı sonucu elde edersiniz:t>0

maxλ0minbL(b,λ)

Burada rakibiniz ilk önce seçiyor ! Daha sonra , seçimlerini zaten bilerek hedefi en aza indirmek için i seçersiniz . parça (alınmış verilen gibi) Ridge Regresyon sorun 2. formuna eşdeğerdir.λ bλminbL(b,λ)λ

Gördüğünüz gibi, bu Ridge regresyonuna özgü bir sonuç değil. Daha geniş bir kavramdır.

Referanslar

(Bu göreve Rockafellar'dan okuduğum bir serginin ardından başladım.)

Rockafellar, RT, Konveks Analizi

Stephen Boyd'un dışbükey optimizasyon dersinden ders 7 ve ders 8'i de inceleyebilirsiniz .


cevabınızın herhangi bir dışbükey fonksiyona genişletilebileceğini unutmayın.
81235

6

Eşdeğer değiller .

Kısıtlı bir küçültme sorunu için

(1)minbi=1n(yxib)2s.t.j=1pbj2t,b=(b1,...,bp)

karşılık gelen Lagrangean üzerinde en aza indirerek çözüyoruzb

(2)Λ=i=1n(yxib)2+λ(j=1pbj2t)

Burada, , bir ekzojen olarak verilen bağlı olduğu bir Karush-KuhnTucker negatif olmayan bir çoğaltıcı, ve hem de p vektörü ve azaltma işlemi vasıtasıyla en iyi şekilde belirlenecek verilen . tλ0 λ t

OP'nin gönderisindeki ve eq karşılaştırıldığında , Ridge tahmincisinin (2)(3.41)

(3)minb{Λ+λt}

İçinde bu yana fonksiyonu kısıtlı minimizasyon problemi artı içermeyen bir terimin Lagrangean göründüğünden minimize edilecek , o aslında iki yaklaşım eşdeğerdir görünür ...(3)b

Ancak bu doğru değildir çünkü Ridge regresyonunda verilen . Ancak, kısıtlanmış minimizasyon probleminin merceğinde, varsayıldığında , kısıtlamanın bağlayıcı olduğu koşulu , yanib λ>0λ>0

j=1p(bj,ridge)2=t

Genel kısıtlı minimizasyon problemi da izin verir ve temel olarak özel durumlar olarak temel en küçük kareler tahmincisini ( ) ve Ridge tahmincisini ( ) içeren bir formülasyondur. .λ=0λ=0λ>0

Dolayısıyla iki formülasyon eşdeğer değildir. Bununla birlikte, Matthew Gunn'un gönderisi, ikisinin çok yakından nasıl bağlantılı olduğunu başka ve çok sezgisel bir şekilde gösteriyor. Ancak dualite denklik değildir.


@MartijnWeterings Yorum için teşekkürler, cevabımı elden geçirdim.
Alecos Papadopoulos

@MartijnWeterings Yorumunuzda yazılan ifade tam olarak elden geçirilmiş yazıma yazdığım ifade olduğu için kafa karıştırıcı olanı görmüyorum.
Alecos Papadopoulos

1
Eşitlik bana çok sezgisel olarak açıklanmış olsaydı aklımdaki yinelenen soru buydu math.stackexchange.com/a/336618/466748 İkisine eşdeğer olmama iddiası sadece bana ikincil görünüyor ve tanımı (OP yerine kullanır ve durumlarını hariç tutmak için kısıtlamasını da ekleyebiliriz ). λ0λ>0t<βOLS22λ=0
Sextus Empiricus

@MartijnWeterings A, B'nin özel bir durumu olduğunda, A, B'ye eşdeğer olamaz. Ve sırt regresyonu, genel kısıtlı minimizasyon probleminin özel bir durumudur, yani genel sorunu daha da kısıtlarsak ulaştığımız bir durumdur (sizin gibi) son yorumunuzda).
Alecos Papadopoulos

Kesinlikle sırt regresyonundan sonra daha genel olan bazı kısıtlanmış minimizasyon problemini tanımlayabilirsiniz (örneğin, sırt regresyonundan daha genel olan bazı regülasyon problemini de tanımlayabileceğiniz gibi, örneğin negatif sırt regresyonu), ancak o zaman denklik, kısıtlı gösterimden Lagrangian gösterimine dönüşüm nedeniyle değil, sorunu tanımlarsınız. İki form, sırt regresyonu için yararlı olan kısıtlanmış formülasyon / tanım (genel olmayan) içinde eşdeğer olarak görülebilir.
Sextus Empiricus
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.