PCA, LASSO, elastik ağın hız, hesaplama giderleri

Hastie ve ark. "İstatistiksel Öğrenmenin Öğeleri" (2. bs.), Bölüm 3:

Alt küme seçimi
Büzülme yöntemleri
Türetilmiş giriş yönlerini kullanan yöntemler (PCR, PLS)

Karşılaştırma sadece biraz fikir vermek için çok kaba olabilir. Cevapların sorunun boyutuna ve bunun bilgisayar mimarisine nasıl uyduğuna bağlı olabileceğini düşünüyorum, bu yüzden somut bir örnek için 500 ve 50 aday regresör örnek büyüklüğü düşünülebilir. Çoğunlukla hesaplama karmaşıklığı / tahmin hızının arkasındaki motivasyonla ilgileniyorum, ancak verilen örnek için belirli bir işlemcinin ne kadar süreceği ile ilgilenmiyorum.

— Richard Hardy
kaynak

PCR veya PLS kullanırken, bileşen sayısı bir ayar parametresidir ( sırt regresyonunda

benzer ). Bu nedenle, optimum sayıda bileşen bulmak için bu yöntemlerin de çapraz doğrulanması gerekecektir. LASSO'nun da bir düzenlenme parametresi vardır, ancak elastik ağın iki (elastik ağ = sırt + LASSO) vardır, bu nedenle çapraz doğrulama daha pahalıdır. Bunun dışında, LASSO'nun sığması muhtemelen diğer tüm modellerden daha yavaştır, çünkü kapalı formlu bir çözümü yoktur.

λ

$\lambda$

— amip diyor Reinstate Monica

Teşekkür ederim! İki ayrıntı daha eklerseniz yorumunuz güzel bir cevap olacaktır: (1) düzenli regresyonun bir OLS çalışmasına kıyasla PCR ve PLS'nin bir tekrarının ne kadar pahalı olduğu; (2) düzenli regresyonun hızı ile karşılaştırılabilir hale getirmek için LASSO'nun hızını daha kesin olarak ölçün (polinom, üstel veya doğrusal olarak daha pahalı ve neden).

— Richard Hardy

Ne yazık ki, buna hazır bir cevabım yok, özellikle (2). Bu yüzden sadece bir yorum bıraktım. +1, bu arada ve 5k temsilcisi ile tebrikler!

— amip diyor Reinstate Monica

@amoeba, teşekkürler! Geçen sene (çok yavaş) başladığımda 5k'ya ulaşmayı bekleyemezdim. Ancak Cross Validated'da aktif bir üye olmak çok heyecan verici ve ödüllendirici!

— Richard Hardy

@amoeba, LARS algoritması kullanılırsa LASSO karmaşıklığını yakaladım; Yazımı buna göre güncelledim. Ama LARS kağıdını dikkatlice okumadım, bu yüzden doğru olduğundan emin değilim ...

— Richard Hardy

Yanıtlar:

Grup 1 : Grup 1'in
karmaşıklığı / hızı, kaba kuvvet algoritmalarının kullanılıp kullanılmadığını anlamak çok zor görünmemektedir ("sıçramalar ve sınırlar" algoritması gibi daha verimli alternatifler olabilir). Örneğin, tam alt küme seçimi , aday özelliklerinin bir havuzu göz önüne alındığında regresyonunun uygun olmasını gerektirir . OLS bir lineer regresyon karmaşıklığı sahiptir uygun (göre bu yazı ), burada örnek boyutudur. Bu nedenle, kaba kuvvet tam altküme seçiminin toplam karmaşıklığı $2^K$ $K$ $\mathcal{O}(K^2 n)$ $n$ $\mathcal{O}(2^K K^2 n)$ .

Grup 2 : Grup 2'nin
karmaşıklığı / hızı kitabın 3.8 ve 3.9 bölümlerinde ele alınmıştır. Örneğin, belirli bir ceza ile sırt regresyonu, normal regresyon ile aynı hesaplama karmaşıklığına sahiptir. Yana çapraz doğrulama kullanılarak bulunması gerekmektedir, çapraz doğrulama (örneğin, kullanılan veri böler sayısında doğrusal işlem yükü artırır ). Eğer ızgara sahip noktaları, sırt regresyon toplam karmaşıklığı ile ayarlama parametresi olacak . $\lambda$ $\lambda$ $S$ $\lambda$ $L$ $\lambda$ $\mathcal{O}(LSK^2 n)$
Kitapta LASSO hakkında biraz konuşma var , ama ihtiyacım olanı bulamadım. Ancak, s. 443, Efron ve ark. Belirli bir için LASSO karmaşıklığının, LARS yöntemi kullanılıyorsa doğrusal regresyona uygun bir OLS uyumunun karmaşıklığı ile aynı olan "En Düşük Açı Regresyonu" (2004) . Daha sonra parametresini ayarlayarak LASSO'nun toplam karmaşıklığı . (Bu makaleyi dikkatlice okumadım, bu yüzden bunu yanlış anladıysam lütfen düzeltin.) Elastik ağ nerede $\lambda$ $\lambda$ $\mathcal{O}(LSK^2 n)$
anladıysam sırt ve LASSO'yu birleştirir; ikisi aynı hesaplama karmaşıklığına sahiptir; dolayısıyla elastik ağın karmaşıklığı $\mathcal{O}(ALSK^2 n)$ $A$ ayar parametresinin ızgara boyutu $\alpha$ sırtın LASSO'ya karşı ağırlıklarını dengeleyen .

Grup 3 :
I hala kaçırma temel bileşenler regresyon (PCR) ve kısmi en küçük kareler (PLS) ibaret olan gruptan 3 için karmaşıklığı / hızı üzerinde herhangi bir not.

— Richard Hardy
kaynak

Yukarıdaki grup 3'te (PLS gibi) soru 2'nin sadece bir kısmı için olsa da, yine de bilgilendirici olabilir: Srinivasan ve arkadaşları (2010, teknik rapor; bkz. Https://www.umiacs.umd.edu/~balajiv/Papers/ UMD_CS_TR_Pls_Gpu.pdf ), NIPALS algoritmasını kullanarak PLS üzerinde bazı ölçümler yaptı - bu algoritmanın zaman (ve boşluk) karmaşıklığının O (dN) olduğunu - ekstraksiyon için ve bunları farklı modellerde dahil etmek için a) görüntülerdeki insanların tespiti ve b ) yüz tanıma. Ölçümler kendi GPU tabanlı uygulamaları kullanılarak yapıldı.

— JF1
kaynak