Neden tüm PLS bileşenleri birlikte orijinal verilerin varyansının sadece bir kısmını açıklıyor?


10

10 değişkenli bir veri setim var. Bu 10 değişkenle tek bir yanıt değişkenini tahmin etmek için kısmi en küçük kareler (PLS) çalıştırdım, 10 PLS bileşenini çıkardım ve daha sonra her bileşenin varyansını hesapladım. Orijinal verilerde, tüm değişkenlerin 702 olan varyanslarının toplamını aldım.

Sonra PLS tarafından açıklanan varyansın yüzdesini elde etmek için PLS bileşenlerinin her birinin varyansını bu toplamla böldüm ve şaşırtıcı bir şekilde tüm bileşenler birlikte orijinal varyansın% 44'ünü açıklıyor.

Bunun açıklaması nedir? % 100 olmamalı mı?


Yanıt tarafında (y) bildiğim gibi PLS bileşenlerinin sayısını belirleyen şey, gözlemin minimum sayısıdır. 20 gözlemim var. Ancak öte yandan, 10 bağımsız değişkenim var, bu da beni 10 PLS ile sınırlandırıyor. Benim sorum, her bileşen (PLS veya PCA) tarafından açıklanan varyansı hesaplamak için genel formül nedir.
Ress

mathworks.com/help/stats/plsregress.html Bu örnekte Y tarafında yalnızca bir değişken vardır ve 10 bileşen hesaplanır.
Ress

Yanıtlar:


12

Tüm PLS bileşenlerinin varyanslarının toplamı normal olarak% 100'den azdır.

Kısmi en küçük karelerin (PLS) birçok çeşidi vardır. Burada kullandığınız, tek değişkenli bir yanıt değişkeninin PLS regresyonudur birkaç değişkene ; bu algoritma geleneksel olarak PLS1 olarak bilinir (diğer değişkenlerin aksine, özlü bir genel bakış için bkz. Rosipal ve Kramer, 2006, Kısmi En Küçük Karelerdeki Genel Bakış ve Son Gelişmeler ). PLS1'in daha sonra SIMPLS adı verilen daha zarif bir formülasyona eşdeğer olduğu gösterilmiştir ( Rosipal ve Kramer'deki ödeme duvarı Jong 1988'e bakınız). SIMPLS tarafından sağlanan görünüm, PLS1'de neler olup bittiğini anlamaya yardımcı olur.yX

PLS1'in yaptığı şey, bir dizi doğrusal projeksiyon , öyle ki:ti=Xwi

  1. ve arasındaki maksimaldir;yti
  2. Tüm ağırlık vektörlerinin birim uzunluğu, ;wi=1
  3. Herhangi iki PLS bileşeni (diğer adıyla skor vektörleri) ve ilişkisizdir.titj

Ağırlık vektörlerinin dik olması gerekmediğini (ve gerekmediğini) unutmayın.

Bu, değişkeninden oluşuyorsa ve PLS bileşeni bulduysanız, temel vektörlerde ilişkisiz projeksiyonlarla dikey olmayan bir temel bulduğunuz anlamına gelir . Böyle bir durumda bütün bu projeksiyonların varyanslarının toplamının toplam varyansından daha az olacağını matematiksel olarak kanıtlayabiliriz . Ağırlık vektörleri dikey ise (örneğin PCA'da olduğu gibi) eşit olacaktır, ancak PLS'de durum böyle değildir.Xk=1010X

Bu konuyu açıkça tartışan herhangi bir ders kitabı veya makale bilmiyorum , ancak daha önce aynı zamanda dikey olmayan birim ağırlık vektörleri üzerinde bir dizi ilişkisiz projeksiyon sağlayan doğrusal diskriminant analizi (LDA) bağlamında açıkladım, buraya bakın : PCA ve LDA'da açıklanan varyans oranı .


Teşekkür ederim ve evet bu mantıklı. Yükleme (ağırlık) vektörlerinin dik olmadığını bilmiyordum. Böylece X'in maksimum varyansını yakalamaz. Matlab örneğinin ardından, "PCTVAR" değerlerini matematiksel olarak nasıl alabilirim?
Ress

Emin değilim, ama düşünebilirim. İçindeki ilk sütun PCTVAR(X'te açıklanan varyans yüzdesi) hesaplamalarınızla uyuşmuyor mu? Yoksa ikinci sütunu mu soruyorsunuz (y'de açıklanan varyans yüzdesi)? Genel olarak, PLS matematiğine girmek istiyorsanız, Rosipal & Kramer'ın makalesini okumaya başlamanızı ve bağlantıları takip etmenizi öneririm.
amip
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.