İstatistiksel Öğrenmenin Öğeleri'ndeki Bölüm 3.5.2 , PLS regresyonunu doğru bağlamda (diğer düzenlileştirme yöntemlerinin) koyduğu için faydalıdır, ancak gerçekten çok kısadır ve bazı önemli ifadeleri alıştırma olarak bırakır. Ayrıca, yalnızca tek değişkenli bağımlı değişken örneğini dikkate alır .y
PLS ile ilgili literatür çok geniştir, ancak oldukça kafa karıştırıcı olabilir çünkü PLS'nin birçok farklı "lezzeti" vardır: tek bir DV (PLS1) içeren tek değişkenli versiyonlar ve birkaç DVs (PLS2), simetrik versiyonlu çok değişkenli versiyonlar tedavi ve eşit ve asimetrik versiyonlar ( "PLS regresyon") tedavi etmek bağımsız ve bağımlı değişkenler, her bir sonraki üretmek için yinelemeli kapanmalarını gerektiren SVD ve alternatifler ile global bir çözüm sağlar alternatifler olarak PLS tarifi vb.yYXYXY
Bunların hepsi kemometri alanında geliştirilmiştir ve "ana akım" istatistik veya makine öğrenimi literatüründen biraz ayrı kalmaktadır.
En yararlı bulduğum (ve daha birçok referans içeren) genel bakış makalesi:
Daha teorik bir tartışma için daha fazla öneride bulunabilirim:
Tek değişkenli ile PLS regresyonu üzerine kısa bir astar (aka PLS1, aka SIMPLS)y
Regresyonun amacı, lineer bir modelde değerini tahmin etmektir. . OLS çözümü pek çok optimallik özelliğine sahiptir, ancak fazla uyumluluktan muzdarip olabilir. Gerçekten de, OLS ile mümkün olan en yüksek korelasyonu sağlayan arar . Çok fazla yordayıcı varsa, o zaman ile yüksek korelasyona sahip olan doğrusal bir kombinasyon bulmak her zaman mümkündür . Bu sahte bir korelasyon olacak ve böyle bir genellikle çok küçük farkı açıklayan bir yöne işaret edecektir.βy= Xβ+ ϵβ= ( X⊤X )- 1X⊤yβX βyyβX. Çok az fark açıklayan talimatlar genellikle çok "gürültülü" talimatlardır. Eğer öyleyse, o zaman eğitim verilerinde OLS çözümü mükemmel performans gösterse de, verilerin test edilmesinde çok daha kötü performans gösterecektir.
Aşırı uyum önlemek amacıyla, tek bir kullanım, esas kuvvet yöntemleri düzenlenişi, yüksek varyans yöne noktasına X (bu, aynı zamanda, "büzülme" denir p , bakınız büzülme çalışır ki? ). Bu yöntemlerden biri, tüm düşük değişkenlik yönlerini basitçe yok eden temel bileşen regresyonudur (PCR). Bir başka (daha iyi) yöntem, düşük varyans yönlerini sorunsuz şekilde cezalandıran sırt regresyonudur. Yine bir başka yöntem ise PLS1'dir.βXβ
PLS1 bulma OLS hedefi yerine korelasyon maksimize corr ( X, P , y ) alternatif bir bulma amacıyla p uzunluğu olan ‖ β ‖ = 1 maksimize kovaryans CoV ( X β , y ) ~ corr ( X, β , y ) ⋅ √βcorr( X β, y )β∥ β∥ = 1daha etkili bir şekilde düşük bir varyans yön cezalandırmaktadır.
cov( X β, y ) ∼ düzelt( X β, y ) ⋅ var( X β)-------√,
Böyle bulunması (hadi β 1 diyelim ) ilk PLS bileşenini z 1 = X β 1 verir . Daha önceki tüm bileşenlerle ilişkisiz olma şartı altında, y ile mümkün olan en yüksek kovaryansa sahip ikinci (ve üçüncü, vb.) PLS bileşenini daha fazla arayabiliriz . Bu, tüm bileşenler için kapalı formda bir çözüm olmadığından, yinelemeli bir şekilde çözülmelidir (ilk bileşenin β 1 yönü basitçe X ⊤ y tarafından verilir)ββ1z1= X β1yβ1X⊤ybirim uzunluğuna normalize edilmiş). İstenen sayıda bileşen elde edildiğinde, PLS regresyonu orijinal belirleyicileri atar ve PLS bileşenlerini yeni belirleyiciler olarak kullanır; Bu verim, bazıları lineer birleşimi tüm ile kombine edilebilir β I son oluşturmak üzere P P L S .βzβbenβP L S
Bunu not et:
- Tüm PLS1 bileşenleri kullanılıyorsa, PLS OLS'ye eşdeğer olacaktır. Dolayısıyla, bileşenlerin sayısı bir düzenleme parametresi olarak işlev görür: sayı ne kadar düşükse, düzenlenme o kadar güçlü olur.
- Eğer belirleyicileri ilişkisiz ise ve hepsi aynı varyansa sahipse (yani X beyazlatılmışsa ), o zaman sadece bir PLS1 bileşeni vardır ve OLS ile eşdeğerdir.XX
- Ağırlık vektörleri ve β j için i ≠ j ortogonal olacak değildir, ancak ilintisiz bileşenleri verecek z i = x β i ve z j = X β j .βbenβji ≠ jzben= X βbenzj= X βj
Varlık, ben farkında değilim söyledi Bütün bu herhangi sırt regresyon üzerinde PLS1 regresyon pratik avantajlar ikincisi olarak birçok avantaja sahip yapar iken (: sürekli ve ayrık değil, analitik çözümü vardır, çok daha standarttır, çekirdek uzantıları ve analitik verir dışarıda bırakma çapraz onaylama hataları vb. için formüller).
Frank ve Friedman'dan alıntı:
RR, PCR ve PLS, benzer bir şekilde çalışması için Bölüm 3'te görülmektedir. Temel hedefleri, çözelti katsayısı vektörünü OLS çözeltisinden uzağa, geniş örnek yayılımının yordayıcı değişken uzayındaki yönlere doğru küçültmektir. PCR ve PLS'nin, düşük yayılma yönlerinden, RR'den daha ağır bir şekilde büzüldüğü ve bu durumun, önceki bir eşitleme için en uygun büzülmeyi (doğrusal tahminciler arasında) sağladığı görülmüştür. Bu nedenle PCR ve PLS, gerçeğin, yordayıcı değişken (örnek) dağılımının yüksek yayılma yönleriyle belirli tercihli hizalamalara sahip olacağı varsayımını yapar. Biraz şaşırtıcı bir sonuç, PLS yerlerde (ek olarak) ile gerçek katsayı vektörü hizalama olasılık kütlesi artan olmasıdır inci temel komponent yönü, KKK kullanılan PLS bileşenlerinin sayısıdır, aslında OLS çözümünü bu yönde genişletir.
Ayrıca kapsamlı bir simülasyon çalışması yürütür ve sonuca çıkarır (benimkine önem verir):
Bu simülasyon çalışmasının kapsadığı durumlar için, önyargılı tüm yöntemlerin (RR, PCR, PLS ve VSS) OLS'ye göre önemli bir gelişme sağladığı sonucuna varılabilir. [...] Her durumda, RR çalışılan diğer tüm yöntemlere hakimdir. PLS genellikle neredeyse kadar RR ve genellikle daha iyi PCR yapmış, fakat çok fazla değil.
Güncelleme: Yorumlarında @cbeleites (kemometride çalışan) PLS'nin RR'ye göre iki olası avantajı olduğunu öne sürüyor:
λ
βR Rβbenyyβ1, β2,βP L S