olduğunda "birim varyans" ridge regresyon tahmincisi sınırı


21

Çıkıntı regresyonunu, nin birim kareler toplamına sahip olmasını gerektiren ek bir kısıtlama ile düşünün (eşdeğerde birim sapma); Gerekirse, kişi birim toplamı da olduğu varsayılabilir :y^y

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1.

β^λ ne zaman \ lambda \ to \ infty sınırı nedir λ?


İşte doğru olduğuna inandığım bazı ifadeler:

  1. Tüm λ=0 , düzgün bir açık çözüm vardır: OLS tahmin almak β^0=(XX)1Xy ve kısıtlamayı karşılamak için normalleştirin (bunu bir Lagrange çarpanı ekleyerek ve farklılaştırarak görebilirsiniz):

    β^0=β^0/Xβ^0.
  2. Genel olarak çözüm \ hat {\ boldsymbol \ beta} _ \ lambda ^ * = \ big ((1+ \ mu) \ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I \ big) ^ {- 1} \ mathbf X ^ \ top \ mathbf y \: \: \ text {ile kısıtlamayı yerine getirmek için $ \ mu $ gerekliydi}. \ Lambda> 0

    β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.
    olduğunda kapalı bir form çözümü göremiyorum . Çözümün, kısıtlamayı karşılamak için normalize edilmiş bazı \ lambda ^ * ile normal RR tahmincisine eşdeğer olduğu görülüyor , ancak \ lambda ^ * için kapalı bir formül göremiyorum .λ>0 λλ
  3. Tüm λ normalden RR tahmin

    β^λ=(XX+λI)1Xy
    açıkça sıfıra yakınsayar, ancak yönü \ hat {\ boldsymbol \ beta} _ \ lambda \ big / \ | \ hat {\ boldsymbol \ beta} _ \ lambda \ | \ mathbf X ^ \ top \ mathbf y , aka ilk kısmi en küçük kareler (PLS) bileşeninin β^λ/β^λyönüne yaklaşır .Xy

(2) ve (3) ifadeleri birlikte, belki de β^λ nın uygun şekilde normalize edilmiş \ mathbf X ^ \ top \ mathbf y' ye yakınlaştığını da düşündürmektedir Xy, ancak bundan emin değilim. doğrudur ve kendimi ikna etmeyi de başaramadım.

Yanıtlar:


17

Geometrik bir yorum

Soruda tanımlanan tahmin edici, aşağıdaki optimizasyon probleminin eşdeğeri olan Lagrange çarpanıdır:

minimize f(β) subject to g(β)t and h(β)=1 

f(β)=yXβ2g(β)=β2h(β)=Xβ2

bu, ve elipsoid kesişimine dokunan en küçük elipsoidi bulmak olarak görülebilir.f(β)=RSS g(β)=th(β)=1


Standart sırt regresyon görünümünün karşılaştırılması

Geometrik görünüm açısından bu, bir sferoidin (hataların) ve kürenin ( ) temas ettiği noktanın eski görünümünü (standart sırt regresyonu için) değiştirir . Biz noktası aramaya yeni görünümüne sfero (hataları) bir eğri (tarafından kısıtlanmış beta normunu dokunur ) . Bir küre (soldaki resimde mavi), sınırlamasıyla kesiştiği için daha düşük bir boyut şekline dönüşür .β2=tXβ2=1Xβ=1

İki boyutlu durumda bu görüntülemek kolaydır.

geometrik görünüm

parametresini ayarladığımızda mavi / kırmızı kürelerin göreceli uzunluğunu veya ve göreceli boyutlarını değiştiririz (Lagrangian çarpanları teorisinde muhtemelen resmen doğru ve düzgün bir yol vardır. tam olarak her biri için o demek olduğunu açıklamak fonksiyonu olarak veya ters bir monoton fonksiyonudur. Ama biz azalttıklarını kare artıkların toplamı yalnızca arttığını sezgisel görebilirsiniz hayal .)tf(β)g(β) tλ||β||

için çözümü , 0 ile arasındaki bir satırda iddia ettiğiniz gibiβλλ=0βLS

için çözümü (aslında sizin belirttiğiniz gibi) ilk ana bileşenin yüklerindedir. Bu burada nokta için en küçük . elips dairesine tek bir noktayla temas ediyor .βλλβ2βX2=1β2=t|Xβ|=1

Bu 2-b görünümünde, ve spheroid küresinin kesişme kenarları puandır. Birden fazla boyutta bunlar eğriler olacaktırβ2=tβX2=1

(Bunları eğriler elips olurdu ama onlar daha karmaşıktır ilk hayal etti. Sen elipsoid düşünebiliriz top kesişen ediliyor gibi bazı bir tür elipsoid frustum (basit elips olmayan kenarlara sahip)Xβ2=1β2t


limitiyle ilgili olarakλ

İlk başta (önceki düzenlemeler) Yukarıda tüm çözümlerin aynı olduğu bazı sınırlayıcı olacağını yazdım (ve bunlar noktasında bulunurlar ). Ama bu değil durumλlimβ

Optimizasyonu LARS algoritması veya degrade iniş olarak kabul edin. Herhangi bir puan için , değiştirebileceğimiz bir yön varsa, ceza terimini SSR terimi azalacak şekilde düşürürse, o zaman minimumda olmazsınız .ββ|β|2|yXβ|2

  • Gelen Normal sırt regresyon için (her yöne) sıfır eğime sahip noktasında . Bu nedenle, tüm sonlu için çözüm olamaz (çünkü cezayı artırmadan kare artıklarının toplamını azaltmak için sonsuz bir adım yapılabilir).|β|2β=0λβ=0
  • LASSO için bu aynı değildir : ceza (yani sıfır eğimle ikinci dereceden değildir). LASSO bazı sınırlayıcı bir değere sahip olduğunu yüzünden (çarpı ceza terimi, çünkü bunların her şeyden önce çözeltiler sıfır ) kareler kalıntı toplamı azalır daha artar.|β|1λlimλ
  • Kısıtlı sırt için, normal sırt regresyonuyla aynı olur. Eğer değiştirirseniz başlayarak sonra bu değişim olacak dik için ( elips yüzeyine diktir ) ve , ceza süresini değiştirmeden ancak kare artıklarının toplamını azaltmadan sonsuz bir adımla değiştirilebilir. Böylece herhangi bir sonlu için noktası çözüm olamaz.ββββ|Xβ|=1βλβ

sınırı ile ilgili diğer notlarλ

sonsuza kadar olan normal sırt regresyon limiti , sınırlanmış sırt regresyonundaki farklı bir noktaya karşılık gelir. Bu 'eski' sınır, -1'e eşit olduğu noktaya karşılık gelir . Sonra normalleştirilmiş problemde Lagrange fonksiyonunun türeviλμ

2(1+μ)XTXβ+2XTy+2λβ
, standart problemde Lagrange işlevinin türevi için bir çözüme karşılık gelir

2XTXβ+2XTy+2λ(1+μ)βwith β=(1+μ)β


StackExchangeStrike tarafından yazıldı.


+1. Çok teşekkürler, bu süper yararlı! Bunu düşünmek için biraz zamana ihtiyacım olacak.
amip diyor Reinstate Monica,

Kırmızı ve siyah elipsoidlerin aynı şekle sahip olduğuna dikkat etmek önemlidir: bu yüzden dokundukları nokta merkezlerini birbirine bağlayan çizgide uzanır. Sorumu # 1 noktası güzel grafik kanıtı.
amip diyor Reinstate Monica

Çiziminizde siyah elips üzerinde uzanacak şekilde normalize edilmiş, sonsuz lambdalı sırt tahminleyicisine tekabül eden betanın nerede olduğunu anlamaya çalışıyorum. Sanırım ve (gösterimimi kullanarak) - çiziminizde siyah açık daireler ile işaretlenmiş iki nokta arasında bir yerde . Eğer sırt regresyonu yapar ve çözümü normalleştirirsek ve lambda'yı 0'dan sonsuza kadar artırırsak, muhtemelen bizi aynı yay boyunca alır, ama PC1'e kadar tüm yol boyunca değil . Bunun yerine, kısıtını açıkça belirtmek, çözümleri PC1'e kadar tamamen ilerletir. β0βXβ=1
amip diyor Reinstate Monica

+5 (Cevabınıza mutlulukla ödeyeceğim bir ödül kazandım). Ben de kendi cevabımı gönderdim çünkü bazı cebirsel türevler yaptım ve soruya eklemek için çok fazla oldu. Sonlu ın var olacağına ve sonrasında çözümün artık değişmeyeceğine ve PC1 tarafından verileceğine karar vermenize ikna olmadım . Cebirsel olarak görmüyorum ve neden olması gerektiği konusundaki argümanınızı tam olarak anlamadım. Çözmeye çalışalım. λlim
amip diyor Reinstate Monica

@ amoeba, sonlu olmadığı konusunda haklıydınız . Çok fazla sezgisel bir şekilde tartıştım ve düzenli sırt regresyonu için belirli bir koşuldan kısıtlı sırt regresyonuna hızla sıçradım. Normal RR, noktasındaki için sıfır eğime (her yönden) sahiptir . ( beri ) bunu sınırlı regresyon ile elde edemediğinizi düşündüm . Ancak, elipsoid ile sınırlı olduğundan ' ' işlemini her yöne taşıyamazsınız . λlim|β|2β=0β0β|Xβ|=1β
Sextus Empiricus

10

Bu, @ Martijn'in güzel geometrik cevabının cebirsel bir karşılığıdır.

Öncelikle, olduğunda ise çok elde edilmesi basit: limitte, kayıp fonksiyonundaki ilk terim ihmal edilebilir hale gelir ve bu nedenle göz ardı edilebilir. Optimizasyon sorunu ilk ana bileşenidir

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1
λ
limλβ^λ=β^=argminXβ2=1β2argmaxβ2=1Xβ2,
X(uygun şekilde ölçeklendirilmiş). Bu soruya cevap verir.

Şimdi , sorumun 2 numaralı noktasında bahsettiğim herhangi bir değerinin çözümünü düşünelim . Kayıp fonksiyonuna Lagrange çarpanı ekleyerek ve farklılaştırarakλμ(Xβ21)

β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.

sıfırdan sonsuza büyüdüğünde bu çözüm nasıl davranır ?λ

  • Tüm , OLS çözelti bir ölçekli bir sürümünü elde:λ=0

    β^0β^0.
  • pozitif ama küçük değerleri için , çözüm bazı çıkıntı tahmincisinin ölçekli bir sürümüdür:λ

    β^λβ^λ.
  • Ne zaman, Değeri kısıtlamasını karşılamak üzere gerekli olan . Bu, çözümün ilk PLS bileşeninin ölçekli bir sürümü olduğu anlamına gelir (bu , karşılık gelen çıkıntı tahmincisinin değeri ):λ=XXy(1+μ)0λ

    β^XXyXy.
  • Tüm daha büyük olduğu, gerekli terimi negatif olur. Bundan böyle, çözüm negatif regülasyon parametresi ( negatif çıkıntı ) ile sahte sırt tahmin edicisinin ölçekli bir versiyonudur . Yönleri açısından, şimdi sonsuz lambda ile sırt regresyon geçmişte kaldı .λ(1+μ)

  • Tüm terimi sıfır (ya da farklılaşmaya gider sonsuz) sürece burada en tekil değer . Bu, sonlu hale getirecek ve ilk ana eksen ile orantılı olacaktır . sağlamak için gerekir. Böylece,λ((1+μ)XX+λI)1μ=λ/smax2+αsmaxX=USVβ^λV1μ=λ/smax2+U1y1

    β^V1.

Genel olarak, bu kısıtlı simge durumuna küçültme probleminin, aşağıdaki spektrumdaki OLS, RR, PLS ve PCA'nın birim varyans versiyonlarını kapsadığını görüyoruz:

OLSRRPLSnegative RRPCA

Bu, "süreklilik regresyonu" olarak adlandırılan gizli (?) Bir kemometri çerçevesine eşdeğer gibi görünüyor ( özellikle https://scholar.google.de/scholar?q="continuum+regression , bkz. Stone & Brooks 1990, Sundberg 1993, maksimize aynı birleşmesini sağlar Björkström ve Sundberg 1999, vs.), bir geçici bir kriterBu tabii ki ölçekli verimleri En Küçük Kareler zaman , PLS zaman , PCA zaman ve için ölçekli RR vermek üzere gösterilebilir

T=corr2(y,Xβ)Varγ(Xβ)s.t.β=1.
γ=0γ=1γ0<γ<11<γ< , Sundberg 1993'e bakınız.

RR / PLS / PCA / etc ile ilgili biraz tecrübe olmasına rağmen, daha önce "süreklilik regresyonu" hakkında hiç bir şey duymadığımı itiraf etmeliyim. Ayrıca bu terimi sevmediğimi de söylemeliyim.


@ Martijn'inkilere dayanarak yaptığım şematik:

Birim-varyans regresyon regresyonu

Güncelleme: Şekil, negatif sırt yolu ile güncellendi, @Martijn'e nasıl görünmesi gerektiğini önerdiği için teşekkür ederiz. Daha fazla ayrıntı için Negatif sırt regresyonunu anlama bölümündeki cevabımı görün .


"Süreklilik regresyonu", PLS ve PCA'yı ortak bir çerçevede birleştirmeyi amaçlayan şaşırtıcı derecede geniş bir teknik kategorisinden biri gibi görünmektedir. Olumsuz bir sırt araştırmasına kadar (bu arada, bağlantı kurduğunuz olumsuz sırt sorusunun ilk yorumunda Bjorkstron ve Sundberg, 1999’a bir link verdim), bu arada, hiç duymamıştım. kemometrik literatür. Diğer istatistik alanlarından izole edilmiş görünüşte gelişmesinin tarihsel bir nedeni olmalı. (1/3)
Ryan Simmons

Okumak isteyebileceğiniz bir makale de Jong ve ark. (2001) . Onların "kanonik PLS" formülasyonları, sizinkine eşdeğer olacak hızlı bir bakışta gözükse de, matematiği henüz sıkı bir şekilde karşılaştırmadığımı itiraf ettim (aynı damardaki diğer bazı PLS-PCA genellemelerinin bir incelemesini de sağlarlar). Ancak, sorunu nasıl açıkladıklarını görmek anlayışlı olabilir. (2/3)
Ryan Simmons

Bağlantının ölmesi durumunda, tam alıntı: Sijmen de Jong, Barry M. Wise, N. Lawrence Ricker. "Kanonik kısmi en küçük kareler ve sürekli güç regresyon." Chemometrics Dergisi, 2001; 15: 85-100. doi.org/10.1002/… (3/3)
Ryan Simmons

1
ah, tamam, sonra ve sonsuzluğa gider ancak oranları kalır . Her durumda, negatif çıkıntı regresyon yolu, PLS ve PCA vektörleri arasındaki (negatif) sektörde olmalıdır; öyle ki elips üzerine çıkıntılarıPLS ve PCA noktaları arasındadır. (Sonsuzluğa giden norm da sonsuzluğa gittiği için anlamlıdır , bu yüzden yol sağ altta devam eder, başlangıçta teğet, negatif, PLS ve sonunda PCA'ya teğet olur)λ1+μ±smax2|Xβ=1|μ
Sextus Empiricus

1
Görselleştirmeye eklerdi. Geçerli üç RR yol noktasının (dairenin ve elipsoid dokunuşunun) sağa doğru devam ettiğini ve sonunda sonsuzda, daire ve ellipsoid gerektiği de 'dokunma' yönünde bir noktaya nerede daire dokunuyor elipsoid|β|2=t|X(ββ^)|2=RSS|β|2=tpca|Xβ|2=1
Sekstus Empirikus
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.