PCA'yı zaman serisi verileri üzerinde nasıl yorumlayabilirim?


19

Son zamanlarda "Küme hesaplamasıyla beyin aktivitesini haritalama" başlıklı yeni bir dergi makalesinde PCA kullanımını anlamaya çalışıyorum Freeman ve ark., 2014 ( laboratuvar web sitesinde ücretsiz pdf mevcuttur ). Zaman serileri verilerinde PCA kullanır ve beynin bir haritasını oluşturmak için PCA ağırlıklarını kullanırlar.

Verileri (adlı bir matris olarak saklanan test ortalama görüntüleme verileri, bir Y, kağıtta) n, voksellerin (veya beyinde görüntüleme yerle) x t zaman noktalarında (beyin, tek bir uyarma uzunluğu).Y^n×t^

Bunlar sonuçlanan SVD kullanımı Y = U S V ( V matris devrik gösteren V ).

Y^=USV
VV

Yazarlar,

Temel bileşenler (sütunları ) uzunluğu vektörleridir t ve skorlar (sütunları U ) uzunluğunun vektörlerdir n karşılık gelen bileşen ile gösterilen yönde, her vokselin çıkıntı tarif (voksel sayısı), hacim üzerinde projeksiyonlar, yani tam beyin haritaları.Vt^Un

Böylece PC'ler uzunluğu vektörlerdir t . PCA derslerinde yaygın olarak ifade edildiği gibi "ilk temel bileşenin en çok varyansı açıkladığını" nasıl yorumlayabilirim? Oldukça ilişkili birçok zaman serisinden oluşan bir matrisle başladık - tek bir PC zaman serisi orijinal matristeki varyansı nasıl açıklıyor? "Gaussian nokta bulutunun çok çeşitli eksene dönüşü" olayının tamamını anlıyorum, ama bunun zaman serileri ile nasıl bir ilişkisi olduğundan emin değilim. Yazarlar belirttiklerinde yönlerine göre ne anlama gelir : "puanlar ( U sütunları ) n uzunluğundaki vektörlerdirt^Un (voksel sayısı), her vokselin karşılık gelen bileşen tarafından verilen doğrultuda izdüşümünü tarif eder "? Bir temel bileşen zaman kursunun yönü nasıl olabilir?

Temel bileşenler 1 ve 2'nin doğrusal kombinasyonlarından ve ilgili beyin haritasından elde edilen zaman serilerinin bir örneğini görmek için, aşağıdaki bağlantıya gidin ve XY grafiğindeki noktaların üzerine fare ile gidin .

Freman ve diğ.

İkinci sorun ilgilidir (durum-uzay) yörüngeleri için de temel bileşen skorları kullanılarak oluşturun.

Bunlar, ilk 2 puan alınarak (yukarıda özetlediğim "optomotor" örneğinde) ve bireysel denemeleri (yukarıda açıklanan deneme ortalamalı matrisi oluşturmak için kullanılır) denklemi ile ana alt uzaya yansıtarak oluşturulur:

J=UY.

Bağlantılı filmlerde görebileceğiniz gibi, durum uzayındaki her iz beynin bir bütün olarak aktivitesini temsil eder.

Birisi, ilk 2 PC'nin skorlarının XY grafiğini ilişkilendiren şekle kıyasla, durum uzay filminin her "karesinin" ne anlama geldiğini sezgi sağlayabilir. Denemenin 1 denemesinin XY durum uzayında 1 pozisyonda olması ve başka bir denemenin başka bir pozisyonda olması için belirli bir "çerçeve" ne anlama gelir? Filmlerdeki XY çizim konumları, sorumun ilk bölümünde belirtilen bağlantılı şekildeki temel bileşen izleriyle nasıl ilişkilidir?

Freeman ve diğ.


1
+1 Sorunuzu düzenledim, burada tex denklemlerini nasıl biçimlendirebileceğine bir göz atın. Bunun dışında, kağıdı oldukça iyi biliyorum, bu yüzden daha sonra cevap vereceğim.
amip, Reinstate Monica'yı

1
Bu OP'nin tam olarak istediği şey değildir, ancak her zaman yaptığım gibi zaman serisi verilerinden alındığında temel bileşenleri yorumlamakta kullanışlı olabilir. Genellikle PCA'yı bir Karhunen-Loève genişlemesi olarak yorumlamak isterim: belirli bir zaman serisini ifade etmek, (PCA'yı uyguladığınız farklı zaman serileri), ilişkisiz zaman serilerinin (yani temel bileşenler) doğrusal bir kombinasyonu olarak. Bu durumda her zaman serisinin ağırlıkları, kovaryans matrisinden elde edilen özvektörler tarafından verilir. Xt
Néstor

1
(Benim açımdan daha ayrıntılı bir açıklama için buna bakın: astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf )
Néstor

1
Sorunuza, bahsettiğiniz bazı ekran görüntülerini ekledim.
amip, Reinstate Monica'yı

resimleri nasıl ekledin?
statHacker

Yanıtlar:


16

Q1: PC zaman serisi ve "maksimum varyans" arasındaki bağlantı nedir?

Bunlar analiz olduğu verilerdir t her biri için veri noktaları , n bir şekilde bu düşünmek, böylece nöronların t veri noktalarının N boyutlu alan R ' , n . Bu bir "nokta bulutu" olduğundan, PCA'nın gerçekleştirilmesi, farkında olduğunuzdan, maksimum varyansın yönlerini bulmaya eşittir. Bu yönleri (kovaryans matrisinin özvektörleri olan) "ana eksenler" ve verinin bu yönlere "ana bileşenler" üzerine izdüşümleri olarak adlandırmayı tercih ederim.t^nt^nR,n

Zaman serisi analiz ederken, bu resim için tek ek puan anlamlı (sipariş ya da numaralandırılmış olmasıdır için t sadece sırasız olmanın aksine) toplama noktaları. İşte bu yüzden (bir koordinat olan tek bir nöronun ateşleme hızı alırsak bu araçlar R n ), daha sonra değerleri, zamanın bir fonksiyonu olarak çizilebilir. Müşterilere (bir çıkıntı olan bir PC alır Benzer şekilde, R , n bir satırda), daha sonra da yer alır t değerleri ve bir zaman fonksiyonu olarak çizilebilir. Orijinal özellikler zaman serisiyse, PC'ler de zaman serisidir.1t^R,nR,nt^

Yukarıdaki @ Nestor'un yorumuna katılıyorum: her orijinal özellik daha sonra PC'lerin doğrusal bir kombinasyonu olarak görülebilir ve PC'ler birbirleri arasında korelasyonu olmadığından, bunlar orijinal özelliklerin ayrıştırıldığı temel işlevler olarak düşünülebilir. Biraz Fourier analizi gibi, ancak sinüslerin ve kosinüslerin sabit temelini almak yerine, ilk PC'nin çoğu varyansı vb. Açıkladığı bir anlamda, bu belirli veri kümesi için "en uygun" temeli buluyoruz.

"En çok varyansın muhasebeleştirilmesi", burada yalnızca bir temel işlevi (zaman serisi) alıp onunla tüm özelliklerinize yaklaşmaya çalışırsanız, ilk bilgisayarın en iyi işi yapacağını gösterir. Bu yüzden temel sezgi, ilk PC'nin mevcut tüm zaman serilerine en iyi uyan temel işlev zaman serisi olmasıdır.


Freeman ve ark. çok kafa karıştırıcı?

Freeman ve diğ. veri matrisi analiz Y sıralar halinde değişken (örneğin nöronlar) (!) değil, sütunlarda. Değişkenlerin genellikle PCA'dan önce ortalandığından mantıklı olan satır araçlarını çıkardıklarını unutmayın. : Sonra SVD yerine , Y = U S V . Yukarıda savunan terminolojiyi kullanarak, sütunları U ana eksen (de tarifi R n ) ve sütunlar S V temel bileşenler (uzunluk zaman serileri vardır t ).Y^

Y^=USV.
UR,nSVt^

Freeman ve ark. gerçekten kafa karıştırıcı:

Temel bileşenler (sütunları ) uzunluğu vektörleridir t ve skorlar (sütunları U ) uzunluğunun vektörlerdir n karşılık gelen bileşen ile gösterilen yönde, her vokselin çıkıntı tarif (voksel sayısı), hacim üzerinde projeksiyonlar, yani tam beyin haritaları.Vt^Un

VUnt^t^U

Bunu çok kafa karıştırıcı buluyorum ve bu yüzden onların kelime seçimlerini görmezden gelmeyi öneriyorum, ancak sadece formüllere bakın. Bu noktadan itibaren, Freeman et al. onları kullan.


Q2: devlet uzay yörüngeleri nelerdir?

UY^t^

Yt^

Y


Bu soruyu aşağıya bir yorum olarak sordum, ama belki de @amoeba yardımcı olabilir mi? İlk temel bileşen ağırlıkları vektörü tüm voksellerde çöken ortalama zaman serileri midir? Ortalama olsaydı, tek tek veri izlerine uyacak en küçük puanlarla sonuçlanacaktır. -
statHacker

1
Kısa cevap hayır , çoğu zaman oldukça yakın olsa da, genellikle ortalama zaman serisi değildir. Örnek olarak, hepsi sıfırdan geçen farklı eğimli (pozitif ve negatif) düz çizgiler olan bir zaman serisi koleksiyonunu düşünün. O zaman ortalama zaman serisi sabit sıfır civarındadır. Ancak ilk bilgisayar güçlü doğrusal bir çizgi olacaktır. BTW, bunun mükemmel bir soru olduğunu düşünüyorum ve daha fazla ayrıntı ve / veya rakam istiyorsanız, lütfen (tekrar) ayrı bir soru olarak sorun. Bu sorunun Freeman et al. Hakkında herhangi bir bölümünü tekrarlamadığınızdan emin olun; onları ayrı yap.
amip, Reinstate Monica

(veya bir yanıtla ilgilenen herhangi biri) - Q2 ile ilgili olarak, "[her deneme] yi ilk iki [PC'ye] projelendirmek" ile ne demek istersiniz. Matematiksel olarak, U'nun n voksel uzunluğunun bir vektörü olduğu çok açıktır ve matris, n n uzunluğunun Y matrisi ile çarpıldığında, ilk 2 PC'ye boyutsal küçülme elde ederiz. U ile skor matrisi (yani her vokselin ilk 2 PC'ye olan mesafesi) ile ilgili sezgi sağlayabilir misiniz? J'nin her zaman noktasını, yukarıdaki 1. görüntünün 2 boyutlu grafiğindeki her voksel pozisyonunun izdüşümünün 2-d ortalaması olarak düşünebilir miyim?
statHacker

UU

SV

1

pVt^

Y^nxt^UnxnVt^xt^

İkinci soru ile ilgili olarak. Verilen denklem

J=UTY

Jxt

tt^J

t^

Daha önce renklendirme metodolojisi ile ilgilenmedim ve bu yön hakkında yorum yapmaktan emin olmam biraz zaman alacaktı. Şekil 4c'ye benzerlik hakkındaki yorumu, renklendirme voksel başına regresyon ile elde edildiğinden kafa karıştırıcı buldum. Oysa Şekil 6'da her iz bir tam görüntü artefakttır. Dümdüz koymadıkça, bu zaman dilimi boyunca Şekil'deki açıklamaya göre uyaranın yönü olduğunu düşünüyorum.


Yukarıdaki ilk şekil, her seferinde aynı görsel uyarıcıya sahip bir deneyi ifade eder. Bu veriler için farklı bir şekil ve film var. Yukarıdaki ikinci şekil, uyaranların farklı yönelimlere sahip görsel uyaranlar olduğu farklı bir deney anlamına gelir; yukarıdaki 2. şekildeki izler, sadece farklı görsel uyaran yönelimlerine karşılık gelecek şekilde renklendirilir.
statHacker

YT^ \ n

VS
J=UY.
U

Bir şeyleri yeniden ayarladım. Özür dilerim, başka bir şeyi halletmeden önce geride kaldı.
varsayımlar

Yardımların için teşekkür ederim. İlk temel bileşen ağırlıkları vektörü tüm voksellerde çöken ortalama zaman serileri midir? Ortalama olsaydı, tek tek veri izlerine uyacak en küçük puanlarla sonuçlanacaktır.
statHacker
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.