“Azaltılmış regresyon” nedir?


22

İstatistiksel Öğrenmenin Öğelerini okuyordum ve 3.7. Bölümün "Çoklu sonuç küçültmesi ve seçimi" nin ne anlama geldiğini anlayamadım. RRR (azaltılmış dereceli regresyon) hakkında konuşuyor ve ben sadece öncülün katsayıların bilinmediği (ve tahmin edileceği) fakat tam dereceye sahip olmadığı bilinen bir genel değişkenli doğrusal model hakkında olduğunu anlayabiliyorum. Anladığım tek şey bu.

Matematiğin geri kalanı benden öte. Yazarların “birileri gösterebilir” demesine ve bir şeyi egzersiz olarak bırakmasına bile yardımcı olmaz.

Birisi lütfen burada neler olduğunu sezgisel olarak açıklamaya yardımcı olabilir mi? Bu bölüm sözde yeni yöntemler tartışıyor mu? ya da ne?


1
Büzülme ve değişken seçimi bağlamında çoklu sonuç modellerinden yararlanan regresyon yöntemleri veriyor gibi görünmektedir. Tek bir Y sonucu yoktur, fakat birden fazla Y sonucu vardır. Diyelim ki 5 Y sonucunuz var. Bu bölümde, sadece 5 ayrı model oluşturmak yerine, metotların tahminini bir araya getirme metotlarını ele alıyoruz.
spdrnl

1
Birkaç sentim: düşük dereceli matris varsayımı işleri kolaylaştırıyor. Neyse ki bu varsayım birçok gerçek dünya veri kaynağı için geçerli.
Vladislavs Dovgalecs

1
Görünüşe göre bu varsayım, çözümle ilgili kısıtlamalara sahip olmakla ilgili. Bu makale neden statprob.com/encyclopedia/…
Vladislavs Dovgalecs

Yanıtlar:


42

1. Düşük dereceli regresyon (RRR) nedir?

Çok değişkenli çoklu doğrusal regresyon, yani bağımsız değişkenleri ve bağımlı değişkenleri olan regresyon düşünün . ve yordayıcı ( ) ve yanıt ( ) veri setlerini merkezlenmesini sağlayın . Daha sonra olağan olağan en küçük kareler (OLS) regresyonu, aşağıdaki maliyet fonksiyonunu en aza indirecek şekilde formüle edilebilir:pqXYn×pn×q

L=YXB2,

burada , regresyon ağırlıklarının bir matrisidir. Çözümü ve kolay Her bağımlı değişken için bir tane olmak üzere ayrı OLS regresyonunun yapılmasının eşdeğer olduğunu görün . p x q B O L S = ( XX ) - 1 xY , q,Bp×q

B^OLS=(XX)1XY,
q

Azaltılmış dereceli regresyon, bir derece kısıtlaması getirmektedir , yani , ile en aza indirilmelidir , burada , maksimum izin verilen . L sıralaması ( B ) r r BBLrank(B)rrB

2. RRR çözümü nasıl elde edilir?

RRR'nin bir özvektör problemi olarak kullanılabileceği ortaya çıktı. Gerçekten de, OLS'nin sütun alanı üzerinde esasen dik bir çıkıntı olduğu gerçeğini kullanarak, olarak yazabilirizİlk dönem bağımlı değildir ve ikinci dönem donatılmış değerlerin SVD / PCA ile minimize edilebilir . L L = Y - X, B O L S2 + x B O L S - X oda 2 . B -Y = X, B O L SXL

L=Y-XB^OLS2+XB^OLS-XB2.
BY^=XB^OLS

Özellikle, ilk önce ana eksenleri ise , r -Y B R, R, R ' = B O L S u r u r .UrrY^

B^R,R,R,=B^OLSUrUr.

3. RRR ne için iyidir?

RRR'yi kullanmak için iki neden olabilir.

İlk olarak, bir düzenleme için kullanabilirsiniz. Sırt regresyonuna (RR), kemente vb. Benzer şekilde RRR, bazı "büzülme" cezaları verir . Uygun seviye çapraz doğrulama yoluyla bulunabilir. Tecrübelerime göre, RRR OLS'den daha iyi performans gösteriyor ancak RR'ye kaybetme eğiliminde. Bununla birlikte, RRR + RR yalnız RR'den (biraz) daha iyi bir performans sergileyebilir. rBr

İkincisi, bir boyutsallık azaltma / veri keşif yöntemi olarak kullanılabilir. Eğer bir sürü tahmin değişkenimiz ve bir sürü bağımlı değişkenimiz varsa, RRR, DV'nin varyansını açıklamak için en iyi işi yapan öngörücü alanda "gizli faktörler" kuracaktır. Daha sonra, bu gizli faktörleri yorumlamaya, bunları çizmeye vb. Deneyebilirsiniz. Bildiğim kadarıyla, bu, RRR'nin artıklık analizi olarak bilindiği ve koordinasyon yöntemleri dedikleri şeyin bir örneği olduğu ekolojide rutin olarak yapılır ( bkz. @ GavinSimpson'ın yanıtı. ).

4. Diğer boyutluluk azaltma yöntemleriyle ilişki

RRR, CCA ve PLS gibi diğer boyutluluk azaltma yöntemleriyle yakından bağlantılıdır. Ben o cevabım biraz örtülü kısmi en küçük kareler, azaltılmış rütbe regresyon ve temel bileşenler regresyon arasındaki bağlantı nedir?

Eğer ve belirleyicisi merkezli (edilmektedir ) ve cevap ( ) veri setleri ve eksen birinci çift için bir nokta ise için ve için , daha sonra bu yöntem aşağıdaki miktarını maksimize:Y, n, x p , n xXYnxpnxqwR,pXvR,qY

PCbir:var(Xw)R,R,R,:var(Xw)Corr2(Xw,Yv)var(Yv)PLS:var(Xw)Corr2(Xw,Yv)var(Yv)=Cov2(Xw,Yv)CCbir:var(Xw)Corr2(Xw,Yv)

Daha fazla ayrıntı için oraya bakın.

Yaygın doğrusal çok değişkenli yöntemlerin (örneğin PCA, CCA, LDA, - ancak PLS!) RRR olarak nasıl görülebileceğinin ayrıntılı bir tedavisi için bkz. Torre, 2009, Bileşen Analizi için En Küçük Kareler Çerçevesi .

5. Bu bölüm neden Hastie ve ark. çok kafa karıştırıcı?

Hastie ve diğ. biraz farklı bir şeye atıfta bulunmak için RRR terimini kullanın! Bunun yerine kayıp fonksiyonu kullanarak kullandıkları 3.68 formüllerinde görüldüğü gibi. Bu , temel olarak bağımlı değişkenleri beyazlatmak için bir beyazlatma faktörünü kayıp fonksiyonuna dahil eder. Yukarıdaki CCA ve RRR arasındaki karşılaştırmaya bakarsanız, beyazlatıldığında farkın kaybolduğunu fark edeceksiniz . Peki, Hastie ve ark. çağrı RRR aslında kılık değiştirmiş CCA (ve gerçekten, onların 3,69 bakın).

L=Y-XB2,
L=(Y-XB)(YY)-1/22,
YY

Bunların hiçbiri bu bölümde doğru bir şekilde açıklanmamıştır, dolayısıyla karışıklık.


Daha fazla okuma için Dostça eğiticiye cevabımı veya azaltılmış dereceli regresyona girişimi görün.


Bu çok güzel yazılmış ayrıntılı bir açıklamadır. Teşekkür ederim, takdir ediyorum.
cgo

@ amoeba Harika cevap. Daha erişilebilir olması için birkaç rötuş önerebilir miyim? İlk girişin son satırında, ne olduğunu, örneğin model matrisinin rütbesi olup olmadığını heceleyebilir misiniz ? İkincisi, ikinci girişin altındaki tanımlayıcı denklemde , popülasyon katsayıları olan ve dolayısıyla bilinmeyen bir parametreyi tanıtırsınız. Bunu biraz detaylandırabilir misin? rB
Antoni Parellada

1
(1) Çok değişkenli regresyon @ Antoni, yani bir matristir ve de bir vektördür, bir matristir. (2) Burada , sadece kayıp fonksiyonunun bir parametresidir . Amaç en aza indirerek yi bulmak . YBBLBL
amip diyor Reinstate Monica,

1
Optimal sıralaması seçerek Hakkında , Rrrr serbestlik dereceleri açıkça bir fonksiyonu olarak hesaplanabilir O notu : , burada , girdi boyutu ve , çıktı boyutudur. Biri daha sonra en iyisini seçmek için genelleştirilmiş çapraz doğrulama (GCV) kullanabilir : : minimize etmek . rrdf^(r)=pq-(p-r)(q-r)+"küçük bir düzeltme terimi"pqrY-Y^RRRR(r)fro2(nq-df^(r))2
dohmatob


3

Azalan Rütbe Regresyonu, tek bir Y sonucunun olmadığı, ancak birçok Y sonucunun olduğu bir modeldir. Tabii ki, her cevap için ayrı bir çok değişkenli doğrusal regresyon sığdırabilirsiniz, ancak öngörücülerle her bir yanıt arasındaki işlevsel ilişki açıkça benzer olduğunda bu verimsiz görünmektedir. Açıkçası buna inandığımı düşündüğüm bir durum için bu kaggle egzersizine bakın.

https://www.kaggle.com/c/bike-sharing-demand/data

Bu soruna yaklaşmak için daha sonra Ys'yi tahmin etmek için kullanılan X değişkenlerinden "faktörler" veya "bileşenler" oluşturan birkaç ilgili teknik vardır. SAS’ın bu belge sayfası benim için farklılıkları gidermeye yardımcı oldu. Azalan Rütbe Regresyonu, cevaplar ve değişkenler arasında en fazla değişkenlik gösteren bileşenleri çıkaran Kısmi En Küçük Kareler'in aksine, cevaplar arasındaki farklılığı en fazla gösteren bileşenleri çıkarmak gibi görünmektedir.

https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm


+1. Bu doğru. Bu SAS dokümantasyon sayfasını ve özellikle rakamlarını istatistik.stackexchange.com/questions/206587 adresime verdiğim cevapta tartıştım.
amip diyor Reinstate Monica,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.