Kısmi en küçük kareler regresyonunun arkasındaki teori

SVD ve PCA'yı anlayan biri için kısmi en küçük kareler regresyonunun (çevrimiçi olarak erişilebilir) arkasındaki teorinin iyi bir şekilde açıklanmasını tavsiye edebilir miyim? Çevrimiçi olarak birçok kaynağa baktım ve doğru titizlik ve erişilebilirlik kombinasyonuna sahip hiçbir şey bulamadım.

İçine baktım İstatistiksel Öğrenme Elements üzerine sorulan bir soru üzerine yorumunda öne sürüldü, Çapraz doğrulanmış , ne kısmi en küçük kareler (PLS) regresyonu nedir ve nasıl OLS farkı nedir? , ancak bu referansın konu adaleti yaptığını sanmıyorum (bunun için çok kısa ve konuyla ilgili fazla teori sağlamıyor). Okuduğum kadarıyla, PLS, tahmini değişkenleri doğrusal kombinasyonlarını kullanan o ekranı kaplamak kovaryans kısıtlamalara tabi ve eğer , burada $z_i=X \varphi_i$ $y^Tz_i$ $\|\varphi_i\|=1$ $z_i^Tz_j=0$ $i \neq j$ $\varphi_i$ kovaryansı en üst düzeye çıkardıkları sıraya göre tekrarlanırlar. Fakat okuduklarımdan sonra bile, bunun doğru olup olmadığından ve eğer öyleyse, yöntemin nasıl uygulandığından emin değilim.

— clarpaul
kaynak

İstatistiksel Öğrenmenin Öğeleri'ndeki Bölüm 3.5.2 , PLS regresyonunu doğru bağlamda (diğer düzenlileştirme yöntemlerinin) koyduğu için faydalıdır, ancak gerçekten çok kısadır ve bazı önemli ifadeleri alıştırma olarak bırakır. Ayrıca, yalnızca tek değişkenli bağımlı değişken örneğini dikkate alır . $\mathbf y$

PLS ile ilgili literatür çok geniştir, ancak oldukça kafa karıştırıcı olabilir çünkü PLS'nin birçok farklı "lezzeti" vardır: tek bir DV (PLS1) içeren tek değişkenli versiyonlar ve birkaç DVs (PLS2), simetrik versiyonlu çok değişkenli versiyonlar tedavi ve eşit ve asimetrik versiyonlar ( "PLS regresyon") tedavi etmek bağımsız ve bağımlı değişkenler, her bir sonraki üretmek için yinelemeli kapanmalarını gerektiren SVD ve alternatifler ile global bir çözüm sağlar alternatifler olarak PLS tarifi vb. $\mathbf y$ $\mathbf Y$ $\mathbf X$ $\mathbf Y$ $\mathbf X$ $\mathbf Y$

Bunların hepsi kemometri alanında geliştirilmiştir ve "ana akım" istatistik veya makine öğrenimi literatüründen biraz ayrı kalmaktadır.

En yararlı bulduğum (ve daha birçok referans içeren) genel bakış makalesi:

Rosipal & Krämer, 2006, Kısmi En Küçük Karelerdeki Genel Bakış ve Son Gelişmeler

Daha teorik bir tartışma için daha fazla öneride bulunabilirim:

Frank & Friedman, 1993, Bazı Kemometrik Regresyon Araçlarının İstatistiksel Bir Görünümü

Tek değişkenli ile PLS regresyonu üzerine kısa bir astar (aka PLS1, aka SIMPLS) $y$

Regresyonun amacı, lineer bir modelde değerini tahmin etmektir. . OLS çözümü pek çok optimallik özelliğine sahiptir, ancak fazla uyumluluktan muzdarip olabilir. Gerçekten de, OLS ile mümkün olan en yüksek korelasyonu sağlayan arar . Çok fazla yordayıcı varsa, o zaman ile yüksek korelasyona sahip olan doğrusal bir kombinasyon bulmak her zaman mümkündür . Bu sahte bir korelasyon olacak ve böyle bir genellikle çok küçük farkı açıklayan bir yöne işaret edecektir. $\beta$ $y=X\beta + \epsilon$ $\beta=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ $\beta$ $\mathbf X \beta$ $\mathbf y$ $\mathbf y$ $\beta$ $\mathbf X$ . Çok az fark açıklayan talimatlar genellikle çok "gürültülü" talimatlardır. Eğer öyleyse, o zaman eğitim verilerinde OLS çözümü mükemmel performans gösterse de, verilerin test edilmesinde çok daha kötü performans gösterecektir.

Aşırı uyum önlemek amacıyla, tek bir kullanım, esas kuvvet yöntemleri düzenlenişi, yüksek varyans yöne noktasına (bu, aynı zamanda, "büzülme" denir , bakınız büzülme çalışır ki? ). Bu yöntemlerden biri, tüm düşük değişkenlik yönlerini basitçe yok eden temel bileşen regresyonudur (PCR). Bir başka (daha iyi) yöntem, düşük varyans yönlerini sorunsuz şekilde cezalandıran sırt regresyonudur. Yine bir başka yöntem ise PLS1'dir. $\beta$ $\mathbf X$ $\beta$

PLS1 bulma OLS hedefi yerine korelasyon maksimize alternatif bir bulma amacıyla uzunluğu olan maksimize kovaryans $\beta$ $\operatorname{corr}(\mathbf X \beta, \mathbf y)$ $\beta$ $\|\beta\|=1$ daha etkili bir şekilde düşük bir varyans yön cezalandırmaktadır.

cov (X β, y) ~ corr (X β, y) \cdot \sqrt{var (X β)},

$\operatorname{cov}(\mathbf X \beta, \mathbf y)\sim\operatorname{corr}(\mathbf X \beta, \mathbf y)\cdot\sqrt{\operatorname{var}(\mathbf X \beta)},$

Böyle bulunması (hadi diyelim ) ilk PLS bileşenini . Daha önceki tüm bileşenlerle ilişkisiz olma şartı altında, ile mümkün olan en yüksek kovaryansa sahip ikinci (ve üçüncü, vb.) PLS bileşenini daha fazla arayabiliriz . Bu, tüm bileşenler için kapalı formda bir çözüm olmadığından, yinelemeli bir şekilde çözülmelidir (ilk bileşenin yönü basitçe tarafından verilir) $\beta$ $\beta_1$ $\mathbf z_1 = \mathbf X \beta_1$ $\mathbf y$ $\beta_1$ $\mathbf X^\top \mathbf y$ birim uzunluğuna normalize edilmiş). İstenen sayıda bileşen elde edildiğinde, PLS regresyonu orijinal belirleyicileri atar ve PLS bileşenlerini yeni belirleyiciler olarak kullanır; Bu verim, bazıları lineer birleşimi tüm ile kombine edilebilir son oluşturmak üzere . $\beta_z$ $\beta_i$ $\beta_\mathrm{PLS}$

Bunu not et:

Tüm PLS1 bileşenleri kullanılıyorsa, PLS OLS'ye eşdeğer olacaktır. Dolayısıyla, bileşenlerin sayısı bir düzenleme parametresi olarak işlev görür: sayı ne kadar düşükse, düzenlenme o kadar güçlü olur.
Eğer belirleyicileri ilişkisiz ise ve hepsi aynı varyansa sahipse (yani beyazlatılmışsa ), o zaman sadece bir PLS1 bileşeni vardır ve OLS ile eşdeğerdir. $\mathbf X$ $\mathbf X$
Ağırlık vektörleri ve için ortogonal olacak değildir, ancak ilintisiz bileşenleri verecek ve . $\beta_i$ $\beta_j$ $i\ne j$ $\mathbf z_i=\mathbf X \beta_i$ $\mathbf z_j=\mathbf X \beta_j$

Varlık, ben farkında değilim söyledi Bütün bu herhangi sırt regresyon üzerinde PLS1 regresyon pratik avantajlar ikincisi olarak birçok avantaja sahip yapar iken (: sürekli ve ayrık değil, analitik çözümü vardır, çok daha standarttır, çekirdek uzantıları ve analitik verir dışarıda bırakma çapraz onaylama hataları vb. için formüller).

Frank ve Friedman'dan alıntı:

RR, PCR ve PLS, benzer bir şekilde çalışması için Bölüm 3'te görülmektedir. Temel hedefleri, çözelti katsayısı vektörünü OLS çözeltisinden uzağa, geniş örnek yayılımının yordayıcı değişken uzayındaki yönlere doğru küçültmektir. PCR ve PLS'nin, düşük yayılma yönlerinden, RR'den daha ağır bir şekilde büzüldüğü ve bu durumun, önceki bir eşitleme için en uygun büzülmeyi (doğrusal tahminciler arasında) sağladığı görülmüştür. Bu nedenle PCR ve PLS, gerçeğin, yordayıcı değişken (örnek) dağılımının yüksek yayılma yönleriyle belirli tercihli hizalamalara sahip olacağı varsayımını yapar. Biraz şaşırtıcı bir sonuç, PLS yerlerde (ek olarak) ile gerçek katsayı vektörü hizalama olasılık kütlesi artan olmasıdır inci temel komponent yönü, $K$ $K$ kullanılan PLS bileşenlerinin sayısıdır, aslında OLS çözümünü bu yönde genişletir.

Ayrıca kapsamlı bir simülasyon çalışması yürütür ve sonuca çıkarır (benimkine önem verir):

Bu simülasyon çalışmasının kapsadığı durumlar için, önyargılı tüm yöntemlerin (RR, PCR, PLS ve VSS) OLS'ye göre önemli bir gelişme sağladığı sonucuna varılabilir. [...] Her durumda, RR çalışılan diğer tüm yöntemlere hakimdir. PLS genellikle neredeyse kadar RR ve genellikle daha iyi PCR yapmış, fakat çok fazla değil.

Güncelleme: Yorumlarında @cbeleites (kemometride çalışan) PLS'nin RR'ye göre iki olası avantajı olduğunu öne sürüyor:

$\lambda$
$\beta_\mathrm{RR}$ $\beta_i$ $y$ $y$ $\beta_1, \beta_2,$ $\beta_\mathrm{PLS}$

— amip Reinstate Monica diyor
kaynak

Bu kağıt kullanışlı görünüyor. PLS'den ne kadar fazla donanımın kaynaklanabileceğini düşünmüyorum.

— Frank Harrell

X

$X$

Y

$Y$

Benim deneyimim, sırtın (ikinci dereceden cezalandırılmış azami olabilirlik tahmini) üstün tahminler vermesidir. Bazı analistlerin PLS'nin aşırı uydurmadan kaçınma anlamında bir boyutluluk azaltma tekniği olduğunu düşündüklerini düşünüyorum, ama öyle olmadığını düşünüyorum.

— Frank Harrell

b) modelin ne yaptığı ile ilgili bir spektroskopik yorumlama yapacaksanız, ne tür maddelerin ölçüldüğünü PLS yüklerine bakmayı daha kolay buluyorum. Burada bir veya iki madde / madde sınıfı bulabilirsiniz, tüm gizli değişkenleri içeren katsayıların yorumlanması daha zordur, çünkü daha fazla maddenin spektral katkıları birleştirilmiştir. Bu daha belirgindir, çünkü normal spektral yorumlama kurallarının tümü geçerli değildir: PLS modeli, başkalarını görmezden gelirken bir maddenin bazı bantlarını seçebilir. "Normal" spektrumlu yorumlar bu grubun kullanabileceği birçok şeyi kullanır ...

— cbeleites

... bundan veya bu maddeden gel. Bu madde ise, başka bir grup olmalı. Sonuncusu, maddeyi doğrulama olasılığı gizli değişkenler / yükler / katsayılar ile mümkün olmadığından, birlikte değişen ve dolayısıyla aynı gizli değişkene sonuçlanan şeyleri yorumlamak mümkün olan her türlü olası "ipucunu özetleyen katsayıları yorumlamaktan çok daha kolaydır. "Bu model tarafından bilinir.

— cbeleites

Evet. Herman Wold'un kitabı Teorik Ampirizm: Bilimsel model oluşturma için genel bir gerekçe , özellikle Wold'un yaklaşımın bir kaynağı olduğu göz önüne alındığında, PLS'nin en iyi açıklanmasıdır. Bu sadece okumak ve bilmek ilginç bir kitaptan bahsetmiyorum bile. Ayrıca Amazon'da yapılan bir araştırmaya dayanarak, Almanca yazılmış PLS ile ilgili kitaplara yapılan atıfların sayısı şaşırtıcıdır, ancak Wold'un kitabının altyazısı bunun nedeninin bir parçası olabilir.

— Mike Hunter
kaynak

Bu amazon.com/Towards-Unified-Scientific-Models-Methods/dp/… ilgili ama

— PLS'den

Bu doğru ama kitabın ana odağı Wold'un PLS teorisini ve uygulamasını geliştirmesi.

— Mike Hunter

Kısmi en küçük kareler regresyonunun arkasındaki teori

Tek değişkenli ile PLS regresyonu üzerine kısa bir astar (aka PLS1, aka SIMPLS)yyy

Tek değişkenli ile PLS regresyonu üzerine kısa bir astar (aka PLS1, aka SIMPLS) $y$