PCA ile ortogonal regresyon (toplam en küçük kareler) nasıl yapılır?

Her zaman lm()R'de üzerindeki lineer regresyonunu yapmak için kullanırım . Bu işlev , bir katsayısı döndürür $y$ $x$ $\beta$

y = β x .

$y = \beta x.$

Bugün toplam en küçük kareleri öğrendim ve bu princomp()işlevi (temel bileşen analizi, PCA) gerçekleştirmek için kullanılabiliyor. Benim için iyi olmalı (daha doğru). princomp()Gibi bazı testler yaptım :

r <- princomp( ~ x + y)

Benim sorunum: sonuçları nasıl yorumlanır? Regresyon katsayısını nasıl alabilirim? "Katsayı" ile , yakın bir sayı vermek için değerini çarpmak için kullanmam gereken sayısını kastediyorum . $\beta$ $x$ $y$

— İrlanda Cumhuriyeti meclisi
kaynak

Bir an beyler, kafam biraz karıştı. Şuna bakın: zoonek2.free.fr/UNIX/48_R/09.html Buna PCA (Temel Bileşen Analizi, aka "ortogonal regresyon" veya "dik kareler toplamı" veya "toplam en küçük kareler") denir. princomp ile TLS hakkında () Hayır?

— Dail

Yok hayır; bunlar iki farklı şey, PCA hakkında wikipedia makalesine bakınız. Burada kullanıldığı gerçeği bir kesmek (ne kadar kesin bilmiyorum ama kontrol edeceğim); Bu yüzden katsayıların karmaşık çıkarımı.

İlgili bir soru: stats.stackexchange.com/questions/2691/… ve bir blog yazısına cevaplardan biriyle gönderme yapılır: cerebralmastication.com/2010/09/…

— Jonathan

Sıradan en küçük kareler - toplam en küçük kareler

İlk önce, sadece bir yordayıcı (bağımsız) değişkeni olan en basit durumunu ele alalım . Kolaylık olması açısından, hem de izin ve ortalanmış, yani kesişme her zaman sıfırdır. Standart OLS regresyonu ile "ortogonal" TLS regresyonu arasındaki fark, PCA'nın en popüler başlığındaki en popüler cevaptan (benim tarafımdan uyarlanan) bu rakamda açıkça gösterilmiştir : $x$ $x$ $y$

OLS ve TLS

OLS, denklemine uyuyor ve gözlemlenen değerler ile öngörülen değerler arasındaki kare mesafeleri minimize ediyor . TLS, noktaları ile kareler arasındaki çizgide uzaklıkları en aza indirerek aynı denklemi sağlar . Bu en basit durumda, TLS satırı 2D verisinin ilk temel bileşenidir. bulmak için PCA'yı noktalarına yapın, yani kovaryans matrisini ve ilk özvektörünü ; sonra . $y=\beta x$ $y$ $\hat y$ $(x,y)$ $\beta$ $(x,y)$ $2\times 2$ $\boldsymbol \Sigma$ $\mathbf v = (v_x, v_y)$ $\beta = v_y/v_x$

Matlab'da:

 v = pca([x y]);    //# x and y are centered column vectors
 beta = v(2,1)/v(1,1);

R'de:

 v <- prcomp(cbind(x,y))$rotation
 beta <- v[2,1]/v[1,1]

Bu arada, ve merkezlenmemiş olsa bile bu doğru eğimi sağlar (çünkü yerleşik PCA işlevleri otomatik olarak merkezleme yapar). kurtarmak için, hesaplayın . $x$ $y$ $\beta_0 = \bar y - \beta \bar x$

OLS ve TLS, çoklu regresyon

Bağımlı değişken ve birçok bağımsız değişken verildiğinde (yine hepsi basitlik için merkezlenir), regresyon,OLS, gözlenen değerleri ile öngörülen değerler arasındaki kare hataları en aza indirerek uyumu sağlar . TLS, gözlenen noktaları ile regresyon düzlemi / hiper düzlemi üzerindeki en yakın noktalar arasındaki kare mesafeleri en aza indirerek uyumu sağlar . $y$ $x_i$

y = β_{1} x_{1} + \dots + β_{p} x_{p} .

$y= \beta_1 x_1 + \ldots + \beta_p x_p.$

y

$y$

\hat{y}

$\hat y$

(x, y) \in R^{p + 1}

$(\mathbf x, y)\in\mathbb R^{p+1}$

Artık "regresyon çizgisi" olmadığını unutmayın! Yukarıdaki denklem bir hiper düzlemi belirtir : iki öngörücü varsa 2B düzlemdir, üç öngörücü varsa 3B hiper düzlem vb. Yukarıdaki çözüm işe yaramaz: TLS çözümünü yalnızca ilk bilgisayarı alarak ( bir çizgi). Yine de, çözüm PCA ile kolayca elde edilebilir.

Daha önce olduğu gibi, PCA noktalarında gerçekleştirilir. Bu , sütunlarında özvektörleri verir . Birinci özvektörler bir tanımlayan boyutlu hiper ihtiyacımız olduğu; son ( sayısı ) özvektör buna diktir. Soru temelini dönüştürmek için nasıl , ilk olarak verilen içine özvektör katsayıları. $(\mathbf x, y)$ $p+1$ $\mathbf V$ $p$ $p$ $\mathcal H$ $p+1$ $\mathbf v_{p+1}$ $\mathcal H$ $p$ $\boldsymbol \beta$

Dikkate biz set halinde tüm ve tek , daha sonra örneğin, vektör altdüzlem yatmaktadır . Öte yandan, öğesinin dik olduğunu biliyoruz. Yani nokta ürünleri sıfır olmalıdır: $x_i=0$ $i \ne k$ $x_k=1$ $\hat y=\beta_k$

(0, \dots, 1, \dots, β_{k}) \in H

$(0,\ldots, 1, \ldots, \beta_k) \in \mathcal H$

H

$\mathcal H$

v_{p + 1} = (v_{1}, \dots, v_{p + 1}) ⊥ H

$\mathbf v_{p+1}=(v_1, \ldots, v_{p+1}) \:\bot\: \mathcal H$

v_{k} + β_{k} v_{p + 1} = 0 \Rightarrow β_{k} = - v_{k} / v_{p + 1} .

$v_k + \beta_k v_{p+1}=0 \Rightarrow \beta_k = -v_k/v_{p+1}.$

Matlab'da:

 v = pca([X y]);    //# X is a centered n-times-p matrix, y is n-times-1 column vector
 beta = -v(1:end-1,end)/v(end,end);

R'de:

 v <- prcomp(cbind(X,y))$rotation
 beta <- -v[-ncol(v),ncol(v)] / v[ncol(v),ncol(v)]

Yine, bu, ve merkezlenmemiş olsa bile doğru eğim sağlar (çünkü yerleşik PCA işlevleri otomatik olarak merkezleme yapar). kurtarmak için, hesaplayın . $x$ $y$ $\beta_0 = \bar y - \bar {\mathbf x} \boldsymbol \beta$

Akıl sağlığı kontrolü olarak, bu çözümün yalnızca tahmincisi olması durumunda öncekiyle çakıştığını unutmayın . Aslında, o zaman uzayı 2B'dir ve bu nedenle, ilk PCA özvektörünün ikinci (son) bir ile ortogonal olduğu göz önüne alındığında, . $x$ $(x,y)$ $v^{(1)}_y/v^{(1)}_x=-v^{(2)}_x/v^{(2)}_y$

TLS için kapalı form çözümü

Şaşırtıcı bir şekilde, için kapalı bir form denklemi olduğu ortaya çıkıyor . Aşağıdaki tartışma Sabine van Huffel'in "Toplam en küçük kareler" kitabından alınmıştır (bölüm 2.3.2). $\boldsymbol \beta$

Let ve merkezli veri matrisler olabilir. Son PCA özvektörü , kovaryans matrisinin bir özvektörü olup, bir özdeğer . Bir özvektör ise, öyleyse . Özvektör denklemini yazmak: $\mathbf X$ $\mathbf y$ $\mathbf v_{p+1}$ $[\mathbf X\: \mathbf y]$ $\sigma^2_{p+1}$ $-\mathbf v_{p+1}/v_{p+1} = (\boldsymbol \beta\:\: -1)^\top$

(\begin{matrix} X^{⊤} X & X^{⊤} y \\ y^{⊤} X & y^{⊤} y \end{matrix}) (\begin{matrix} β \\ - 1 \end{matrix}) = σ_{p + 1}^{2} (\begin{matrix} β \\ - 1 \end{matrix}),

$\left(\begin{array}{c}\mathbf X^\top \mathbf X & \mathbf X^\top \mathbf y\\ \mathbf y^\top \mathbf X & \mathbf y^\top \mathbf y\end{array}\right) \left(\begin{array}{c}\boldsymbol \beta \\ -1\end{array}\right) = \sigma^2_{p+1}\left(\begin{array}{c}\boldsymbol \beta \\ -1\end{array}\right),$ ve ürünü solda hesaplarsak hemen şunu tanıdık OLS ifadesini kesinlikle hatırlatıyor

β_{T L S} = (X^{⊤} X - σ_{p + 1}^{2} I)^{- 1} X^{⊤} y,

$\boldsymbol \beta_\mathrm{TLS} = (\mathbf X^\top \mathbf X - \sigma^2_{p+1}\mathbf I)^{-1} \mathbf X^\top \mathbf y,$

β_{O L S} = (X^{⊤} X)^{- 1} X^{⊤} y .

$\boldsymbol \beta_\mathrm{OLS} = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf y.$

Çok değişkenli çoklu regresyon

Aynı formül çok değişkenli duruma genelleştirilebilir, ancak çok değişkenli TLS'nin ne yaptığını tanımlamak için bile bazı cebir gerektirir. TLS'deki Wikipedia'ya bakın . Çok değişkenli OLS regresyonu, her bir bağımlı değişken için bir çok değişkenli OLS regresyonuna eşittir, ancak TLS durumunda öyle değildir.

— amip Reinstate Monica diyor
kaynak

R bilmiyorum, ama yine de ileride referans olması için R parçacıkları sağlamak istedim. Burada R konusunda uzman birçok insan var. Lütfen gerekirse snippet'leri düzenlemek için çekinmeyin! Teşekkür ederim.

— amip diyor Reinstate Monica

Güzel yazı, ancak vektörün hiper gerçeğini neyin garanti ettiğini sorabilirsem ?

(0, \dots, 1, \dots, β_{k})

$(0,\ldots, 1, \ldots, \beta_k)$

— JohnK

@JohnK, tam olarak neyin belirsiz olduğundan emin değilim. Yazdığım gibi, tüm izin dışında sıfıra eşit olması . O zaman bunu , . Dolayısıyla nokta , denklemi tarafından tanımlanan hiper .

x_{i}

$x_i$

x_{k} = 1

$x_k=1$

y = \sum β_{j} x_{j}

$y=\sum \beta_j x_j$

y = β_{k} \cdot 1 = β_{k}

$y=\beta_k\cdot 1 = \beta_k$

(0, \dots, 1, \dots β_{k})

$(0,\ldots, 1, \ldots \beta_k)$

y = \sum β_{j} x_{j}

$y=\sum \beta_j x_j$

— amip diyor Reinstate Monica

Bu kısmı yanlış okudum gibi görünüyor ama şimdi açık. Açıklama için de teşekkürler.

— JohnK

R'de, daha büyük vektörler için çok daha hızlı olduğu için "eigen (cov (cbind (x, y))) $ vectors" yerine "prcomp (cbind (x, y)) $ döndürme" tercihini tercih edebilirsiniz .

— Thomas Browne

Burada bulunan saf GNU Octave uygulamasına dayanarak, bunun gibi bir şey olabilir (tuz tanesi, geç).

tls <- function(A, b){

  n <- ncol(A)
  C <- cbind(A, b)

  V <- svd(C)$v
  VAB <- V[1:n, (n+1):ncol(V)]
  VBB <- V[(n+1):nrow(V), (n+1):ncol(V)]
  return(-VAB/VBB)
}

— cashoes
kaynak

princompçalışırken ana bileşen analizi yerine, toplam en küçük kareler regresyon. Bildiğim kadarıyla hiçbir R fonksiyonu veya TLS yapan paket yok; MethComp'ta en çok Deming regresyon var .
Yine de, lütfen buna büyük olasılıkla değmeyeceği bir öneri olarak davranın.

MethComp paketindeki Deming'in TLS olduğunu düşünüyorum - fark nedir?

— mark999

X ve y üzerindeki hataların oranını vermelisiniz; saf TLS bunu optimize eder.