Varyansı düşük olan PC'lerin “kullanışlı” olduğu PCA örnekleri


24

Normalde temel bileşen analizinde (PCA), ilk birkaç bilgisayar kullanılır ve verilerdeki varyasyonun çoğunu açıklamadığı için düşük değişkenlikteki PC'ler düşer.

Bununla birlikte, düşük değişkenlikteki PC'lerin yararlı olduğu (yani, veri bağlamında kullanım, sezgisel bir açıklamaya vb. Sahip olduğu) ve atılmaması gereken örnekler var mı?


5
Epeyce. Bkz. PCA, bileşenin rastgeleliği? Bu bir yinelenen bile olabilir, ancak başlığınız çok daha net (dolayısıyla arama yaparak bulmak daha kolay olur), bu yüzden kapatılsa bile lütfen silmeyin.
Nick Stauner

Yanıtlar:


18

İşte gelen serin alıntı Jolliffe (1982) Ben çok benzer soruya, benim önceki yanıtta içermiyordu "PCA Düşük varyans bileşenlerinin sadece gürültü gerçekten? Bunun için teste bir yolu var mı? " Ben bulmak oldukça sezgisel.

Havaalanlarında önemli bir sorun olan bulut tabanı yüksekliğini tahmin etmenin gerekli olduğunu varsayalım . Çeşitli iklim değişkenleri yüzey sıcaklığı dahil olmak üzere ölçülmektedir T ler ve yüzey çiğ noktası, T d . Burada, T d yüzey hava su buharı ile doyurulmuş edileceği sıcaklıktır ve fark T s - T d , yüzey neminin bir ölçüsüdür. Şimdi T s , T d iklim değişkenlerin bir ana bileşen analizi yüksek korelasyon bir yüksek varyans bileşeni olacak şekilde, genel olarak, pozitif bir ilişkiye THTsTdTdTsTdTs,Td , ve benzer şekilde, ile ilişkilidir düşük varyans bileşeni T s - T d . Ancak , H için neme ve dolayısıyla ilgili T s - T d zayıf öngörüde düşük varyans bileşenleri reddeden bir strateji, bu yüzden, örneğin, düşük varyans yerine yüksek varyans bileşenine H .Ts+TdTsTdHTsTdH
Bu örneğin tartışması, aynı zamanda ölçülen ve analize dahil edilen diğer iklim değişkenlerinin bilinmeyen etkileri nedeniyle mutlaka belirsizdir. Bununla birlikte, bağımlı bir değişkenin, düşük değişkenlikli bir bileşenle ilgili olacağı ve literatürdeki üç ampirik örneği teyit ettiği fiziksel olarak makul bir durum olduğunu göstermektedir.
Ayrıca, bulut tabanı örneği, 1966-73 dönemi için Cardiff (Galler) Havaalanından elde edilen veriler üzerinde test edilmiş, ayrıca iklimsel bir değişken, deniz yüzeyi sıcaklığı da dahil olmak üzere test edildi. Sonuçlar esas olarak yukarıda öngörüldüğü gibi oldu. Son ana bileşen, yaklaşık olarak , ve sadece 0 · 4 toplam varyasyonun yüzde oluşturmaktadır. Bununla birlikte, temel bir bileşen regresyonda, H için kolayca en önemli öngörücü oldu . [Vurgu eklenmiştir]TsTdH

İkinci fıkranın son cümlesinde atıfta bulunulan literatürden üç örnek , bağlantılı soruya cevabımda bahsettiğim üç örnektir .


Referans
Jolliffe, IT (1982). Regresyonda ana bileşenlerin kullanımı ile ilgili not alın. Uygulamalı İstatistik, 31 (3), 300–303. Http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf. Adresinden alındı .


Bu gerçekten havalı. Sadece nin daima V ( A - B ) = V ( A ) +' dan daha büyük olduğunu not edin. V ( B ) - 2 C o v ( A , B )V(bir+B)=V(bir)+V(B)+2COv(bir,B)V(bir-B)=V(bir)+V(B)-2COv(bir,B). Bu nedenle anlamada bir saniye beni takıldı mutlaka bir "düşük varyans" bileşeni olduTs-Td
shadowtalker

+1, bu güzel bir örnek. İlginçtir ki, aynı zamanda bir baskılama örneğidir.
dediklerinin - Eski Monica

17

R varsa crabs, MASS paketindeki verilerde iyi bir örnek vardır .

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

Varyansın% 98'inden fazlası ilk iki bilgisayar tarafından "açıklanır", ancak gerçekte bu ölçümleri toplamış ve onları incelemiş olsaydınız, üçüncü bilgisayar çok ilginçtir, çünkü bu yengeç türüyle yakından ilgilidir. Ancak PC1 (yengeç boyutuna karşılık geliyor gibi) ve PC2 (yengeç cinsiyetine karşılık geliyor gibi görünüyor) ile doludur.

görüntü tanımını buraya girin

görüntü tanımını buraya girin


2
+1, bu gerçekten temiz bir gösteri. İsterseniz eklenebilecek 2 scatterplot matrisi yaptım.
gung - Monica

1
@gung: Saçılma lekelerini eklediğiniz için teşekkürler! Daha önce bu cevabı aştım, ancak arsaları görmeden tam olarak beğenmedim. Scatterplot PC2 vs PC3 gerçekten çok hoş: hem cinsiyetleri hem de türleri birbirinden mükemmel şekilde ayırmak Bu örneği de seviyorum çünkü tüm değişkenler güçlü bir şekilde pozitif korelasyon gösterdiğinde ne olduğunu gösteriyor (örn. PC1 çok fazla varyansı açıklar ve temelde ortalamadır).
amip,

1
Teşekkürler, @amoeba. Onların ortaya çıkış şeklini gerçekten seviyorum. Çok fazla zaman harcayarak onları renklendirdim (renkler, pch, lables, efsane). Aslında şimdi oldukça hoş olduklarını düşünüyorum. PC1 hakkında iyi bir noktaya değindiniz. Aynı zamanda (muhtemelen) sabit bir varyasyon katsayısı ve ilişkilerin çoğunda cinsiyet ve / veya türlerle etkileşimin olduğunu görebiliriz: küçük (bebek) yengeçler cinsiyetten veya türden bağımsız olarak aynı değerlere sahip olma eğilimindedir. büyürler (yaş?) daha belirgin hale gelirler. Vb. Görülecek çok şey var - onlara bakmaya devam edebilirsiniz.
dediklerinin - Eski Monica

8

İşte deneyimimden iki örnek (kemometri, optik / titreşim / Raman spektroskopisi):

  • Geçenlerde optik spektroskopi verilerim vardı, burada ham verinin toplam varyansının% 99'undan fazlası arka plan ışığındaki değişikliklerden kaynaklanıyordu (ölçülen noktadaki spot ışığın yoğunluğunun az olması, floresan lambaların açılıp kapanması, az çok bulutlar Güneş). (Ham verilere PCA ekstre; bu varyasyonları kapsayacak şekilde alınan ek ölçümler) bilinen etkileyen faktörlerin optik spektrumları ile arka plan düzeltmesi sonra etki biz PC'ler 4 geldi ve 5. ilgilenmişlerdir
    PC 1 ve 3 Ölçülen numunedeki diğer etkiler nedeniyle ve PC 2, ölçümler sırasında ısınan alet ucu ile ilişkilidir.

  • Başka bir ölçümde, ölçülen spektral aralık için renk düzeltmesi olmayan bir lens kullanılmıştır. Kromatik sapma, spektrumdaki ca. Önceden işlenmiş verilerin toplam varyansının% 90'ı (çoğunlukla PC 1'de yakalanmıştır).
    Bu veriler için tam olarak ne olduğunu fark etmemiz biraz zaman aldı, ancak daha iyi bir amaca geçmek sonraki deneyler için sorunu çözdü.

(Bu çalışmalar hala yayınlanmadığı için ayrıntı gösteremiyorum)


3

Varyansı düşük olan PC'lerin, altta yatan verilerin bir şekilde kümelendiği veya gruplandığı bir kovaryans matrisinde PCA yaparken en faydalı olduğunu fark ettim. Gruplardan biri diğer gruplardan önemli ölçüde daha düşük bir ortalama varyansa sahipse, en küçük PC'ler o grup tarafından yönetilecektir. Ancak, sonuçları o gruptan atmak istememeniz için bazı nedenleriniz olabilir.

Finansta, hisse senedi getirileri yıllık% 15-25 standart sapma var. Tahvil getirilerindeki değişiklikler tarihsel olarak çok daha düşük standart sapmadır. PCA'nın hisse senedi getirilerinin kovaryans matrisinde gerçekleştirilmesi ve tahvil getirilerinde değişiklik yapılması durumunda, üstteki PC'lerin tümü hisse senetlerinin varyansını ve en küçük olanlar tahvillerin varyanslarını yansıtacaktır. Tahvilleri açıklayan PC'leri çöpe atarsanız, biraz sorun yaşarsınız. Örneğin, tahviller hisse senetlerinden çok daha farklı dağılım özelliklerine sahip olabilir (daha ince kuyruklar, farklı zamanla değişen varyans özellikleri, farklı ortalama ters çevirme, eşbütünleşme vb.). Bunlar, koşullara bağlı olarak modellemek için çok önemli olabilir.

Korelasyon matrisinde PCA uygularsanız, üste yakın bağları açıklayan PC'lerin daha fazlasını görebilirsiniz.


Bu cevabın, hisse senetlerinin, tahvillerin, getirilerin ve getirilerin ne olduğunu bilmediğini anlamak çok zordur. Bilmiyorum ve bu yüzden ilk
cümlenizin

1
Bazı düzenlemeler yaptım.
John

1

Gelen bu konuşma ( slaytlar ) sunum yapan kişileri yüksek değişkenliği ve düşük değişkenlik özellikleri ayırt etmek PCA kullanımını tartışmak.

Aslında, anormallik tespiti için düşük değişkenlik özelliklerini tercih ederler, çünkü düşük değişkenlik boyutundaki önemli bir kayma, anormal davranışın güçlü bir göstergesidir. Sağladıkları motive edici örnek aşağıdaki gibidir:

Bir kullanıcının her zaman Mac'ten oturum açtığını varsayalım. Faaliyetlerinin "işletim sistemi" boyutu çok düşük varyans olacaktır. Ancak aynı kullanıcının "işletim sistemi" nin Windows olduğu bir giriş olayı görürsek, bu çok ilginç olurdu ve yakalamak istediğimiz bir şey.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.