KKT Kullanarak Norm Düzenli Regresyon ve Norm Kısıtlı Regresyon Arasındaki Eşdeğerliği Gösterme


12

Referanslarına göre Kitap 1 , Kitap 2 ve kağıt .

Düzenli regresyon (Ridge, LASSO ve Elastik Ağ) ile bunların kısıtlayıcı formülleri arasında bir denklik olduğu belirtilmiştir.

Ayrıca Çapraz Doğrulanmış 1 ve Çapraz Doğrulanmış 2'ye de baktım , ancak denklik veya mantığı gösteren net bir cevap göremiyorum.

Sorum şu

Karush – Kuhn – Tucker (KKT) kullanarak bu denklik nasıl gösterilir?

Aşağıdaki formüller Ridge regresyonu içindir.

çıkıntı

NOT

Bu soru ödev değil. Sadece bu konudaki anlayışımı arttırmak.

GÜNCELLEME

Henüz bir fikrim yok.


Neden 1'den fazla cevaba ihtiyacınız var? Mevcut cevap soruyu kapsamlı bir şekilde ele almaktadır. Optimizasyon yöntemleri hakkında daha fazla bilgi edinmek istiyorsanız, Convex Optimization Lieven Vandenberghe ve Stephen P. Boyd, başlamak için iyi bir yerdir.
Sycorax, Reinstate Monica

@Sycorax, yorumlarınız ve bana sağladığınız kitap için teşekkürler. Cevap benim için çok açık değil ve daha fazla açıklama isteyemem. Böylece, birden fazla cevap farklı bir bakış açısı ve açıklama şekli görmeme izin verebilir.
jeza

@jeza, Cevabımda eksik olan ne?
Royi

1
Lütfen sorunuzu metin olarak yazın, sadece bir fotoğraf göndermeyin ( buraya bakın ).
gung - Monica'yı eski

Yanıtlar:


10

Daha teknik cevap, kısıtlı optimizasyon probleminin Lagrange çarpanları açısından yazılabilmesidir. Özellikle, kısıtlı optimizasyon problemiyle ilişkilendirilmiş Lagrange burada , sorunun kısıtlamalarını karşılamak için seçilen bir . Bu optimizasyon problemi için birinci dereceden koşullar (güzel uygun dışbükey fonksiyonlarla çalıştığınız için yeterlidir), Lagrangian'ı beta'ya göre ayırt ederek elde edilebilir.

L(β)=argminβ{i=1N(yij=1pxijβj)2}+μ{(1α)j=1p|βj|+αj=1pβj2}
μβve türevleri 0'a eşitlemek (LASSO kısmı farklılaştırılamaz noktalara sahip olduğundan biraz daha inceliklidir, ancak birinci dereceden koşulu hala işler hale getirmek için türevi genelleştirmek için dışbükey analizinden yöntemler vardır ). Bu birinci dereceden koşulların, yazdığınız sınırlandırılmamış sorunun birinci dereceden koşulları ile aynı olduğu açıktır.

Bununla birlikte, genel olarak, bu optimizasyon problemleri ile neden kısıtlı bir optimizasyon probleminin merceğinden veya kısıtsız bir problemin merceğinden problem hakkında düşünmenin genellikle mümkün olduğunu düşünüyorum. Daha somut olarak, aşağıdaki formda bir optimizasyon sorunumuz olduğunu varsayalım: Bu optimizasyonu her zaman doğrudan çözmeyi deneyebiliriz, ancak bazen bu sorunu çözmek mantıklı olabilir alt bileşenler. Özellikle, görmek zor Yani sabit bir değeri için

maxxf(x)+λg(x)
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
λ(ve optimize edilecek fonksiyonların aslında optimalarına ulaştığını varsayarsak), bununla dış optimizasyon problemini çözen bir değeri ilişkilendirebiliriz . Bu bize kısıtlamasız optimizasyon problemlerinden kısıtlı problemlere bir çeşit haritalama sağlar. Özel ayarınızda, her şey elastik ağ regresyonu için iyi bir şekilde davrandığından, bu eşleme aslında bire bir olmalıdır, bu nedenle belirli bir uygulama için hangisinin daha yararlı olduğuna bağlı olarak bu iki bağlam arasında geçiş yapabilmeniz yararlı olacaktır. Genel olarak, kısıtlanmış ve kısıtlanmamış sorunlar arasındaki bu ilişki daha az iyi davranabilir, ancak kısıtlı ve kısıtlanmamış sorun arasında ne ölçüde hareket edebileceğinizi düşünmek yine de yararlı olabilir.t

Düzenleme: İstendiği gibi, LASSO cezasının ayırt edilemezliği ile ilgili tekniklerle uğraşmaktan kaçınırken ana fikirleri yakaladığı için sırt regresyonu için daha somut bir analiz içereceğim. Hatırlayın, optimizasyon problemini çözüyoruz (matris notasyonunda):

argminβ{i=1NyixiTβ}s.t.||β||2M

Let En Küçük Kareler çözüm olabilir (yani, herhangi bir kısıtlama olmadığı zaman). Sonra(bunun olması şartıyla) aksi halde, bağlanmadığı için kısıtlama ilginç değildir. Bu problem için Lagrange yazılabilir Sonra farklılaşırsak , ilk sipariş koşullarını alırız: bu sadece doğrusal denklemler sistemi ve dolayısıyla çözülebilir: βOLSM<||βOLS||

L(β)=argminβ{i=1NyixiTβ}μ||β||2M
0=2(i=1Nyixi+(i=1NxixiT+μI)β)
β^=(i=1NxixiT+μI)1(i=1Nyixi)
bazı çarpan seçimi için . Daha sonra çarpan basitçe kısıtlamayı doğru yapmak için seçilir, yaniμ

((i=1NxixiT+μI)1(i=1Nyixi))T((i=1NxixiT+μI)1(i=1Nyixi))=M
LHS'deki monoton beri var olan . Bu denklem çarpanlarından kısıtlamalara, için açık bir eşleme sağlar ile RHS mevcut olduğunda ve Bu eşleme aslında oldukça sezgisel bir şeye karşılık gelir. Zarf teoremi bize söylerμμ(0,)M(0,||βOLS||)
limμ0M(μ)=||βOLS||
limμM(μ)=0
μ(M) kısıtlamasının küçük bir gevşemesinden elde ettiğimiz hatadaki marjinal azalmaya karşılık gelir . Bu açıklar, neden zaman üzere karşılık gelir. Kısıt bağlayıcı olmadığında, artık rahatlamanın bir değeri yoktur, bu yüzden çarpan ortadan kaybolur.Mμ0M||βOLS||


mümkünse pratik bir örnekle adım adım ayrıntılı bir cevap verebilir misiniz?
jeza

çok teşekkürler, neden KKT'den bahsetmiyorsun? Bu bölgeye aşina değilim, bu yüzden bana lise öğrencisi olarak davran.
jeza

Bu durumda KKT koşulları, Lagrange'yi farklılaştırarak ve türevi 0'a eşitleyerek bahsettiğim “birinci dereceden koşulların” genelleştirilmesidir. Bu örnekte, kısıtlamalar eşitlik taşıdığından, KKT koşullarına ihtiyacımız yoktur. genellikle dolu. Daha karmaşık durumlarda, olan tek şey yukarıdaki eşitliklerin bir kısmının eşitsizlik haline gelmesi ve çarpanların bağlayıcı olmaması için çarpanın 0 olmasıdır. Örneğin,yukarıda. M>||βOLS||
stats_model

3

Tarafından büyük bir analizi vardır stats_model içinde onun cevabını .

Benzer soruyu Ridge Regresyonunun Eşdeğer Formüllerinin İspatı'nda yanıtlamaya çalıştım .

Bu dava için daha fazla Hand On yaklaşımı alacağım. İki modelde ve arasındaki
eşlemeyi görmeye çalışalım .tλ

Olarak yazdım ve görülebilir stats_model içinde yaptığı analize haritalama verilere bağlıdır. Bu nedenle, sorunun özel bir gerçekleştirilmesini seçeceğiz. Yine de kod ve çözüm çizimi, olanlara sezgi ekleyecektir.

Aşağıdaki 2 modeli karşılaştıracağız:

The Regularized Model: argminx12Axy22+λx22

The Constrained Model: argminx12Axy22subject tox22t

ın düzenli modelin çözümü olduğunu ve nin kısıtlı modelin çözümü olduğunu varsayalım .x^x~

Biz gelen haritalama bakıyoruz etmek öyle ki . Baktığımızda benim çözümü için Norm Kısıtlama En Küçük Kareler için Çözücü Kısıtlı Model çözme Regülarize- Modeli çözme ve bulgu içerdiğini biri görebiliyordu maçları (gerçek kod sunulmuştur Öklid (ile En Küçük Kareler ) Norm Kısıtlaması ).tλx^=x~
λtL2

Bu yüzden aynı çözücüyü çalıştıracağız ve her için en uygun göstereceğiz .tλ

Çözücü temel olarak çözer:

argλλsubject to(ATA+2λI)1ATb22t=0

İşte Matrix'imiz:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

Ve işte bizim vektörümüz:

vB =

    0.7087
   -1.2776
    0.0753
    1.1536
    1.2268
    1.5418

Bu haritalama:

resim açıklamasını buraya girin

Yukarıda görülebileceği gibi, yeterince yüksek değeri için parametresi beklendiği gibi.tλ=0

[0, 10] aralığını yakınlaştırma:

resim açıklamasını buraya girin

Kodun tamamı StackExchange Çapraz Onaylı Q401212 GitHub Depomda mevcuttur .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.