Kement formülasyonları arasındaki bağlantı


9

Bu soru aptal olabilir, ancak Kement regresyonunun iki farklı formülasyonu olduğunu fark ettim . Kement sorununun, kare kaybı artı -1 ceza teriminden oluşan ve aşağıdaki gibi ifade edilen hedefi en aza indirmek olduğunu biliyoruz:L

minβyXβ22+λβ1

Ancak sık sık Lasso tahmincisinin \ hat {\ beta} _n (\ lambda) = \ displaystyle \ arg \ min _ {\ beta} \ {\ frac {1} {2n} \ | y - X \ olarak yazılabileceğini gördüm

β^n(λ)=argminβ{12nyXβ22+λβ1}

Sorum şu, eşdeğer midir? \ Frac {1} {2n} terimi nereden geliyor? 12nİki formülasyon arasındaki bağlantılar benim için açık değil.

[Güncelleme] Ben sormalısınız Anter soru şu

Neden ikinci formülasyon var? Sorunu bu şekilde formüle etmenin teorik veya hesaplamalı olarak avantajı nedir?


2
Set ise ikinci formülasyonda için eşit kat daha sonra ikinci bir formülasyonda amaç fonksiyonu, ilk formülasyon içinde birinci formülasyonda kez amaç fonksiyonu. Aslında, sadece kaybın ölçüm birimlerini değiştirdiniz. Bunun optimal değerlerini değiştireceğini nasıl düşünüyorsunuz ? λ1/(2n)λ1/(2n)β
whuber

Teşekkürler @ Whuber. Bu bana mantıklı geliyor. Öyleyse neden ikinci formülasyon var? Sorunu bu şekilde formüle etmenin teorik veya hesaplamalı olarak avantajı nedir?
Aaron Zeng

Yanıtlar:


10

Onlar her zaman yeniden ölçeklendirebilirsiniz çünkü gerçekten eşdeğerdir (ayrıca @ whuber'ın yorumuna bakın). Teorik bir bakış açısından, bu bir kolaylık meselesidir, ancak bildiğim kadarıyla gerekli değildir. Hesaplamalı bir bakış açısıyla, aslında oldukça sinir bozucu buluyorum , bu yüzden düzenlileştirme kullanan bir algoritma tasarlıyorsam genellikle ilk formülasyonu kullanıyorum.λ1/(2n)

Biraz arka plan: Cezalandırılmış yöntemleri öğrenmeye ilk başladığımda, 'yi işimin her yerinde taşımaktan rahatsız oldum, bu yüzden görmezden gelmeyi tercih ettim - hatta bazı hesaplamalarımı basitleştirdi. O zaman işim esas olarak hesaplamaya dayalıydı. Son zamanlarda teorik çalışmalar yapıyorum ve vazgeçilmez buldum (hatta , ).1/(2n)1/(2n)1/n

Diğer ayrıntılar: Örnek hacminin fonksiyonu olarak Lasso davranışını analiz çalıştığınızda , sık Rasgele değişkenlerin toplamları ile uğraşmak zorunda ve pratikte bunun tarafından normalleştirme sonra bu tür meblağlar analiz etmek daha uygundur - - büyük sayılar / merkezi limit teoreminin (ya da fantezi, ölçü konsantrasyonu ve ampirik süreç teorisi almak istiyorsanız) düşünün. Eğer yoksa kaybının önüne terimini o orada başlamak zorunda genellikle daha güzel öyleyse, sonuçta analizin sonunda birşeyler rescaling sonunda. o bazı can sıkıcı faktörlerini ortadan kaldıran, çünkü uygundurnn1/n1/22 analizde (örneğin, kare kaybı teriminin türevini aldığınızda).

Bunu düşünmenin bir başka yolu, teori yaparken, genellikle arttıkça çözümlerin davranışıyla ilgilenmemizdir - yani sabit bir miktar değildir. Pratikte, Kement'i sabit bir veri kümesinde çalıştırdığımızda, gerçekten algoritma / hesaplamaların perspektifinden sabitlenir. Bu yüzden ekstra normalleştirici faktörün ön tarafta olması o kadar da yararlı değil.nnn

Bunlar can sıkıcı kolaylık meseleleri gibi görünebilir, ancak bu tür eşitsizlikleri manipüle etmek için yeterli zaman harcadıktan sonra, sevmeyi öğrendim .1/(2n)


3
Bu normalleştirici sabitlerin ne için olduğunu anladıktan sonra, onları her yerde görmeye başlarsınız .
Matthew Drury

Bu açıklama için teşekkürler. Bu alandaki harika deneyimlerinizi okumaktan gurur duyuyoruz. Tekrar teşekkürler
Christina
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.