PCA bileşenlerini döndürerek her bileşendeki varyansı eşitleyin

Veri kümesinde PCA gerçekleştirerek ve son birkaç PC'yi atarak veri kümesinin boyutsallığını ve gürültüsünü azaltmaya çalışıyorum. Bundan sonra, kalan bilgisayarlarda bazı makine öğrenme algoritmaları kullanmak istiyorum ve bu nedenle algoritmaların daha iyi çalışması için PC'lerin varyansını eşitleyerek verileri normalleştirmek istiyorum.

Basit bir yol, birim değerlere olan varyansı normalleştirmektir. Ancak, ilk PC orijinal veri kümesinden aşağıdakilerden daha fazla sapma içerir ve yine de daha fazla "ağırlık" vermek istiyorum. Bu yüzden merak ediyordum: sadece varyansını bölmenin ve daha az varyanslı PC'lerle paylaşmanın basit bir yolu var mı?

Başka bir yol, PC'leri orijinal özellik alanına geri eşlemektir, ancak bu durumda boyutluluk da orijinal değere artacaktır.

Sanırım ortaya çıkan sütunları dik tutmak daha iyidir, ancak şu anda gerekli değildir.

variance pca factor-rotation

— feilong
kaynak

Hayır ... varimax , yüklerin kareli varyanslarının toplamını en üst düzeye çıkarır , bu nedenle onları mümkün olduğunca eşitsiz yapmaya çalışır . Ayrıca, bileşenleri neden eşitlemek istersiniz? Bütün mesele, mümkün olduğunca az bileşende mümkün olduğunca çok varyasyonu yakalamaktır.

Bileşen puanlarını birim varyanslarına göre standartlaştırmak size uygun değil mi? Neden o zaman? Ne tür bir sonuç istiyorsunuz - ortaya çıkan sütunlar eşit varyanslara ek olarak ilişkisiz olmalı mı?

— ttnphns

Açıklamanızdan, verileri (küresellik boyutunda) basitçe "küre" etmek istediğinize çok benziyor. Genellikle makine öğreniminde bir önişleme adımı olarak yapılır. Bunu başarmak için, sadece PCA gerçekleştirir, bazı bileşenleri seçer ve standartlaştırırsınız. Sanırım standartlaşmamış bileşenleri ilişkisiz kalacak, ancak tam olarak aynı miktarda varyansı açıklayacak şekilde döndüren dikey bir dönüş (varimax gibi) bulmak mümkündür; bu ilginç bir soru, düşünmem gerek. Ama bunu hiç görmedim, kesinlikle makine öğreniminde değil.

— amip

Bu arada, PCA'dan sonra uygulamak istediğiniz "bazı makine öğrenme algoritmaları" nelerdir? Bu alakalı olabilir.

— amip

Standart PC'lerinizi döndürürseniz, mesafelerin hiç değişmeyeceğini unutmayın! Bu yüzden daha sonra herhangi bir mesafe tabanlı algoritma için önemli olmamalıdır.

— amip

Yanıtlar:

Bana sorduğunuz şeyin gerçekten ihtiyacınız olan şey olduğu tam olarak belli değil: makine öğreniminde ortak bir ön işleme adımı boyutsallık azaltma + beyazlatmadır, yani PCA yapmak ve bileşenleri standartlaştırmak, başka bir şey değildir. Ama yine de formüle edildiği gibi sorunuza odaklanacağım, çünkü daha ilginç.

İzin Vermek $\mathbf X$ merkezli ol $n\times d$ satırlardaki veri noktaları ve sütunlardaki değişkenler içeren veri matrisi. PCA tekil değer ayrışmasına karşılık gelir

X = {U S V}^{⊤} \approx U_{k} S_{k} V_{k}^{⊤},

$\mathbf X = \mathbf{USV}^\top \approx \mathbf U_k \mathbf S_k \mathbf V_k^\top,$ boyutsal küçülmeyi nerede yapacağız

k

$k$ bileşenler. Bu bileşenlerin dikey bir "faktör dönüşü" dikey bir seçim anlamına gelir

k \times k

$k \times k$ matris

R

$\mathbf R$ ve ayrıştırmaya takılması:

X \approx U_{k} S_{k} V_{k}^{⊤} = U_{k} {R R}^{⊤} S_{k} V_{k}^{⊤} = \underset{\begin{matrix} Rotated \\ standardized scores \end{matrix}}{\underset{⏟}{\sqrt{n - 1} U_{k}^{} R}} \cdot \underset{{Rotated loadings}^{⊤}}{\underset{⏟}{R^{⊤} S_{k} V_{k}^{⊤} / \sqrt{n - 1}}} .

$\mathbf X \approx \mathbf U_k \mathbf S_k \mathbf V_k^\top = \mathbf U_k \mathbf {RR}^\top \mathbf S_k \mathbf V_k^\top = \underbrace{\sqrt{n-1}\mathbf U_k^\phantom\top \mathbf {R}}_{\substack{\text{Rotated}\\\text{standardized scores}}} \cdot \underbrace{\mathbf R^\top \mathbf S_k \mathbf V_k^\top/\sqrt{n-1}}_{\text{Rotated loadings}^\top}.$ Buraya

\sqrt{n - 1} U_{k} R

$\sqrt{n-1}\mathbf U_k \mathbf R$ döndürülmüş standart bileşenlerdir ve ikinci terim aktarılan döndürülmüş yükleri temsil eder. Döndürmeden sonra her bir bileşenin varyansı, karşılık gelen yükleme vektörünün karelerinin toplamı ile verilir; dönmeden önce basitçe

s_{i}^{2} / (n - 1)

$s_i^2/(n-1)$ . Döndürmeden sonra başka bir şeydir.

Şimdi problemi matematiksel terimlerle formüle etmeye hazırız: döndürülmemiş yüklemeler verildi $\mathbf L = \mathbf V_k \mathbf S_k / \sqrt{n-1}$ , döndürme matrisini bul $\mathbf R$ döndürülmüş yükler, $\mathbf L \mathbf R$ , her sütunda eşit kareler toplamına sahiptir.

Çözelim. Döndürme sonrasındaki karelerin sütun toplamları, öğenin köşegen öğelerine eşittir.

(L R,)^{⊤} L R, = {R,}^{⊤} \frac{S^{2}}{n - 1} R, .

$(\mathbf {LR})^\top \mathbf{LR} = \mathbf R^\top \frac{\mathbf S^2}{n-1} \mathbf R.$ Bu mantıklı: rotasyon, başlangıçta tarafından verilen bileşenlerin varyanslarını basitçe yeniden dağıtır $s_i^2/(n-1)$ , aralarında, bu formüle göre. Bunları hepsi ortalama değerlerine eşit olacak şekilde yeniden dağıtmamız gerekiyor $\mu$ .

Bunun kapalı bir form çözümü olduğunu düşünmüyorum ve aslında birçok farklı çözüm var. Ancak bir çözüm kolayca sıralı bir şekilde inşa edilebilir:

İlk bileşeni alın ve $k$ bileşen. İlki varyans var $\sigma_\text{max}>\mu$ ve sonuncusu varyansa sahip $\sigma_\text{min}<\mu$ .
Sadece bu ikisini, ilkinin varyansı eşit olacak şekilde döndürün $\mu$ . 2B'deki döndürme matrisi yalnızca bir parametreye bağlıdır $\theta$ ve denklemi yazmak ve gerekli hesaplamaları yapmak kolaydır. $\theta$ . Aslında, ${R,}_{2D} = (\begin{array}{cc} marul θ & günah θ \\ - günah θ & marul θ \end{array})$ $\mathbf R_\text{2D} = \left(\begin{array}{cc}\cos \theta & \sin \theta \\ -\sin\theta & \cos \theta\end{array}\right)$ ve dönüşümden sonra ilk PC varyans alacak ${marul}^{2} θ \cdot σ_{maksimum} + {günah}^{2} θ \cdot σ_{min} = {marul}^{2} θ \cdot σ_{maksimum} + (1 - {marul}^{2} θ) \cdot σ_{min} = μ,$ $\cos^2\theta \cdot \sigma_\text{max} + \sin^2\theta \cdot \sigma_\text{min} = \cos^2\theta \cdot \sigma_\text{max} + (1-\cos^2\theta)\cdot \sigma_\text{min} =\mu,$ hemen elde ederiz ${marul}^{2} θ = \frac{μ - σ_{min}}{σ_{maksimum} - σ_{min}} .$ $\cos^2\theta = \frac{\mu-\sigma_\text{min}}{\sigma_\text{max}-\sigma_\text{min}}.$
İlk bileşen şimdi yapıldı, varyans var $\mu$ .
En büyük varyansa ve en küçük varyansa sahip olan bileşeni alarak bir sonraki çifte geçin. Git # 2.

Bu, tüm varyansları bir dizi ile eşit olarak yeniden dağıtacaktır. $(k-1)$ 2D dönüşler. Tüm bu dönme matrislerini birlikte çarpmak, toplamı $\mathbf R$ .

Misal

Aşağıdakileri göz önünde bulundur $\mathbf S^2/(n-1)$ matris:

(\begin{array}{cccc} 10 & 0 & 0 & 0 \\ 0 & 6 & 0 & 0 \\ 0 & 0 & 3 & 0 \\ 0 & 0 & 0 & 1 \end{array}) .

$\left(\begin{array}{cccc}10&0&0&0\\0&6&0&0\\0&0&3&0\\0&0&0&1\end{array}\right).$ Ortalama varyans

5

$5$ . Algoritmam aşağıdaki gibi devam edecek:

Adım 1: PC1 ve PC4'ü döndürün, böylece PC1 değişebilir $5$ . Sonuç olarak, PC4 değişiyor $1+(10-5)=6$ .
2.Adım: PC2'yi (yeni maksimal varyans) ve PC3'ü döndürün, böylece PC2 varyans alır $5$ . Sonuç olarak, PC3 değişiyor $3+(6-5)=4$ .
3.Adım: PC4'ü (yeni maksimal varyans) ve PC3'ü döndürün, böylece PC4 varyans alır $5$ . Sonuç olarak, PC3 değişiyor $4+(6-1)=5$ .
Bitti.

Bu algoritmayı uygulayan Matlab betiğini yazdım (aşağıya bakın). Bu giriş matrisi için dönme açılarının sırası:

48.1897   35.2644   45.0000

Her adımdan sonra bileşen varyansları (satırlar halinde):

10     6     3     1
 5     6     3     6
 5     5     4     6
 5     5     5     5

Son dönme matrisi (üç 2B dönme matrisinin ürünü):

 0.6667         0    0.5270    0.5270
      0    0.8165    0.4082   -0.4082
      0   -0.5774    0.5774   -0.5774
-0.7454         0    0.4714    0.4714

Ve son $(\mathbf{LR})^\top \mathbf{LR}$ matris:

5.0000         0    3.1623    3.1623
     0    5.0000    1.0000   -1.0000
3.1623    1.0000    5.0000    1.0000
3.1623   -1.0000    1.0000    5.0000

İşte kod:

S = diag([10 6 3 1]);
mu = mean(diag(S));
R = eye(size(S));

vars(1,:) = diag(S);
Supdated = S;

for i = 1:size(S,1)-1
    [~, maxV] = max(diag(Supdated));
    [~, minV] = min(diag(Supdated));

    w = (mu-Supdated(minV,minV))/(Supdated(maxV,maxV)-Supdated(minV,minV));
    cosTheta = sqrt(w);
    sinTheta = sqrt(1-w);

    R2d = eye(size(S));
    R2d([maxV minV], [maxV minV]) = [cosTheta sinTheta; -sinTheta cosTheta];
    R = R * R2d;

    Supdated = transpose(R2d) * Supdated * R2d;    

    vars(i+1,:) = diag(Supdated);
    angles(i) = acosd(cosTheta);
end

angles                %// sequence of 2d rotation angles
round(vars)           %// component variances on each step
R                     %// final rotation matrix
transpose(R)*S*R      %// final S matrix

@Feilong tarafından sağlanan Python kodu şöyledir:

def amoeba_rotation(s2):
    """
    Parameters
    ----------
    s2 : array
        The diagonal of the matrix S^2.

    Returns
    -------
    R : array
        The rotation matrix R.

    Examples
    --------
    >>> amoeba_rotation(np.array([10, 6, 3, 1]))
    [[ 0.66666667  0.          0.52704628  0.52704628]
     [ 0.          0.81649658  0.40824829 -0.40824829]
     [ 0.         -0.57735027  0.57735027 -0.57735027]
     [-0.74535599  0.          0.47140452  0.47140452]]

    http://stats.stackexchange.com/a/177555/87414
    """
    n = len(s2)
    mu = s2.mean()
    R = np.eye(n)
    for i in range(n-1):
        max_v, min_v = np.argmax(s2), np.argmin(s2)
        w = (mu - s2[min_v]) / (s2[max_v] - s2[min_v])
        cos_theta, sin_theta = np.sqrt(w), np.sqrt(1-w)
        R[:, [max_v, min_v]] = np.dot(
            R[:, [max_v, min_v]],
            np.array([[cos_theta, sin_theta], [-sin_theta, cos_theta]]))
        s2[[max_v, min_v]] = [mu, s2[max_v] + s2[min_v] - mu]
    return R

Bu sorunun aşağıdakine tamamen eşdeğer olduğunu unutmayın: $k$ varyanslı ilişkisiz değişkenler $\sigma_i^2$ , verim sağlayacak bir dönüş (yani yeni bir dikey temel) bulun $k$ eşit varyansa sahip değişkenler (fakat elbette artık ilişkisiz).

— amip
kaynak

Sanırım, iki bileşen çifti için (puanları), sapmalarını eşitlemek için dönüş açısı 45 derece olacaktır. Ancak, 3+ bileşenle tüm görevi nasıl yapacağınızı hayal bile edemiyorum.

— ttnphns

@feilong, bir kerede bir çift bileşenin varyansını eşitlemek çok yetersiz bir algoritma olduğunu düşünüyorum. Önerdiğim, bir bileşenin varyansı küresel ortalama varyansa tam olarak eşit olacak şekilde dönüşleri seçmektir. Sonra bu bileşen "yapılır" ve geri kalanı ile başa çıkabilir. Bu, tüm varyansların sınırlı sayıda adımda eşitleneceği garanti edilir. Bir örnek için önceki yorumuma bakın.

— amip

@amoeba Haklısın, bu daha iyi bir çözüm ve n-1 adımlarla bitmeli.

— feilong

@amoeba Python kullanarak minimal uygulamamı ekledim. Büyük matrisler için zaman alıcı olabileceğinden tüm matrisi çoğaltan kısmı değiştirdim.

— feilong

@amoeba Özellikle temel bileşenler için, maksimum ve minimum arama parçasını kaldırarak daha fazla zaman kazanmak mümkündür. Sadece 1. ve 2. bileşenleri döndürebiliriz (1. bileşenin ortalama varyansa sahip olmasını sağlamak için) ve sonra 2. ve 3. bileşenleri vb. Sadece her bir çiftin toplam varyansının daha büyük olduğundan emin olmalıyız mu.

— feilong

Perspektif ve kapsamlı cevabında @amoeba - cevabın bir parçası olarak - kendileri için istenen varyansları elde etmek için (ilişkisizliği kaybetme pahasına iken) ilişkisiz iki değişkeni (örneğin ana bileşenler gibi) nasıl döndürebildiğini gösterdi. . Dik değişkenler $X$ ve $Y$ sapmalar var $\sigma^2_{max}$ (daha büyük) ve $\sigma^2_{min}$ (daha küçük). Onları döndürün ki $X$ keyfi, azalan varyans elde edecek $\mu^2$ (süre $Y$ sonuç olarak, varyans haline gelecektir $\sigma^2_{max}+\sigma^2_{min}-\mu^2$ ).

@ amip, bu tür bir dönme açısını hesaplayabileceğimiz formülü gösterir, $\cos\theta$ :

μ^{2} = {marul}^{2} θ (σ_{m bir x}^{2}) + {günah}^{2} θ (σ_{m ben n}^{2})

$\mu^2 = \cos^2\theta (\sigma^2_{max}) + \sin^2\theta (\sigma^2_{min})$

ancak bu denklemin nereden geldiğini göstermemiştir; muhtemelen açıklama yapmadan açık olduğunu düşünüyor. Açık ya da değil, bir şekilde açıklığa kavuşturmaya değer olduğuna inanıyorum. Cevabım bir yol sunuyor.

Böylece, ilişkisiz değişkenler alanında elipsoidal, ortalanmış bir veri bulutumuz var $X$ ve $Y$ . Eksenleri açı ile döndürmeliyiz $\theta$ . Buluttaki bir veri noktası (resimde yeşil nokta olarak gösterilir) $X$ koordinat $x$ olarak bu koordinatı alacak $x^*$ rotasyondan sonra.

Koordinat projeksiyonunun $x$ döndürülmüş eksene çentik $X^*$ tarafından verildi $x'=x\cos\theta$ (hipotenüs olarak katetus ve aralarındaki açı). Ayrıca şunu da gözlemleyin: $x^*$ daha az $x'$ uzunluk kesimi ile $x'-x^*$ koordinattan hesaplanabilir $y$ : $y\sin\theta$ (başka bir kateter ve hipotenüs). Ve bu yüzden,

x^{*} = x^{'} - (x^{'} - x^{*}) = x marul θ - y günah θ

$x^* = x' - (x'-x^*) = x\cos\theta-y\sin\theta$

İki değişkenin varyanslarını (veya karelerin toplamlarını) ve varyansını (karelerin toplamını) biliyoruz (başlangıca bakın) $\mu^2$ nın-nin $X^*$ . Sonra şöyle:

μ^{2} = Σ x^{* 2} = Σ (x marul θ - y günah θ)^{2} = Σ (x^{2} {marul}^{2} θ + y^{2} {günah}^{2} θ - 2 x y marul θ günah θ) = {marul}^{2} θ Σ x^{2} + {günah}^{2} θ Σ y^{2} - \underset{= 0 (X ve Y ilişkisiz)}{\underset{⏟}{2 marul θ günah θ Σ x y}} = {marul}^{2} θ (σ_{m bir x}^{2}) + {günah}^{2} θ (σ_{m ben n}^{2})

$\mu^2=\sum x^{*2} = \sum(x\cos\theta-y\sin\theta)^2 = \sum(x^2\cos^2\theta+y^2\sin^2\theta-2xy\cos\theta\sin\theta) = \cos^2\theta\sum x^2 + \sin^2\theta\sum y^2 - \underbrace{ 2\cos\theta\sin\theta\sum xy}_{\text{=0 (X and Y are uncorrelated)}} = \cos^2\theta (\sigma^2_{max}) + \sin^2\theta (\sigma^2_{min})$

Tahmin ettiğiniz $\cos\theta$ @amoeba'nın gösterdiği gibi rotasyonu gerçekleştirin.

— ttnphns
kaynak

+1. Bunun açık olduğunu düşünmüyordum (değil), ama doğrulamanın kolay olduğunu düşündüm :-) Bir de doğrudan cebirle yazabilir (cevabımda olduğu gibi)

{(\begin{array}{cc} marul θ & günah θ \\ - günah θ & marul θ \end{array})}^{⊤} (\begin{array}{cc} σ_{maksimum}^{2} & 0 \\ 0 & σ_{min}^{2} \end{array}) (\begin{array}{cc} marul θ & günah θ \\ - günah θ & marul θ \end{array}),

$\left(\begin{array}{cc}\cos \theta & \sin \theta \\ -\sin\theta & \cos \theta\end{array}\right)^\top \left(\begin{array}{cc} \sigma_\text{max}^2 & 0 \\ 0 & \sigma_\text{min}^2\end{array}\right) \left(\begin{array}{cc}\cos \theta & \sin \theta \\ -\sin\theta & \cos \theta\end{array}\right),$ ve ürünün sol üst elemanının hesaplanması. Tabii ki aynı mantık, sadece farklı şekilde ifade edildi. Teşekkürler!

— amip

Ve geometrik açıklamanızın ve "doğrudan" hesaplamanızın (matrisler olmadan) anlaşılması daha kolay ve doğru sezgileri geliştirmek için çok yararlı olduğunu düşünüyorum.

— amip

Bazı şeyleri doğru bir şekilde yorumlarsam, ilk prensip bileşeninin (özdeğer) verilerdeki varyansın çoğunu açıkladığı anlamına gelir. Bu, sıkıştırma yönteminiz doğrusal olduğunda gerçekleşebilir. Ancak, özellik alanınızda doğrusal olmayan bağımlılıklar olabilir .

TL / DR: PCA doğrusal bir yöntemdir. Boyut küçültme için Otomatik Kodlayıcıları (doğrusal olmayan pca) kullanın. Makine öğrenme bölümü denetimli öğrenme ise, otomatik kodlayıcı için (hiper) parametreleri ayarlarken kayıp fonksiyonunuzu izlemeniz yeterlidir. Bu şekilde orijinal verilerinizin çok daha iyi sıkıştırılmış bir versiyonunu elde edersiniz.

Burada, PCA kullanarak tutulacak en iyi ana bileşen sayısını (hiper parametre) bulmak için ızgara araması yaptıkları bir scikit örneği. Son olarak alt boyutlu uzaya Lojistik Regresyon uygularlar: http://scikit-learn.org/stable/auto_examples/plot_digits_pipe.html#example-plot-digits-pipe-py

Protip: Otomatik kodlayıcıların kapalı bir form çözümü (afaik) yoktur, bu nedenle bağlamınız veri akışı yapıyorsa, otomatik kodlayıcınızı (sıkıştırılmış gösterim) sürekli olarak güncelleyebileceğiniz ve böylece konsept sapması gibi şeyleri telafi edebileceğiniz anlamına gelir. Pca ile yeni veriler geldiğinde zaman zaman parti modunu yeniden eğitmeniz gerekir.

Bazı özelliklere daha fazla "ağırlık" vermek için, düzenlemeye bakınız ( https://en.wikipedia.org/wiki/Norm_(mathematics normlarından başlıyorum ). Ayrıca lojistik regresyonun algıya ne kadar benzediğine şaşırabilirsiniz.

— shuriken x mavi
kaynak

Bunun OP'nin sorusuna nasıl cevap verdiğini anlamıyorum; cevabınız soru ile tamamen alakasız görünüyor.

— amip

Bu yüzden merak ediyordum: sadece varyansını bölmenin ve daha az varyanslı PC'lerle paylaşmanın basit bir yolu var mı? OP boyutsal küçültme yapmak istiyor. Sorununu çözmek için bir alternatif sundum, çünkü sonuçta OP'nin istediği performans ölçülmedikçe daha iyi performansla sonuçlanmayı garanti etmez. Hilbert uzaylarında / normlu alanlarda çalışmak daha iyi sonuçları garanti etmez. Performans ölçümü daha iyi sonuç verir.

— shuriken x blue