AIC (veya BIC) kullanarak PCA modeli seçimi


12

Bir PCA'da çıkarılacak uygun sayıda faktörü seçmek için Akaike Bilgi Ölçütünü (AIC) kullanmak istiyorum. Tek sorun, parametre sayısını nasıl belirleyeceğimi bilmiyorum.

Bir matrisi düşünün , burada değişken sayısını ve gözlem sayısını temsil eder , öyle ki . Kovaryans matrisi simetrik olduğundan, maksimum olasılık tahmini AIC'deki parametre sayısını eşit olarak ayarlayabilir .X N T X N ( 0 , Σ ) Σ N ( N + 1 )T×NXNTXN(0,Σ)ΣN(N+1)2

Alternatif olarak, bir , ilk özvektörlerini ve özdeğerlerini çıkarabilir, ve ve burada ortalama kalan varyanstır. Benim hesabıma göre, varsa faktörleri, o zaman olur parametrelere , parametreler ve parametre .Σ β f Λ f Σ = β f Λ f β f + I σ 2 r σ 2 r f f Λ f N f β f 1 σ 2 rfΣβfΛf

Σ=βfΛfβf+Iσr2
σr2ffΛfNfβf1σr2

Bu yaklaşım doğru mu? Faktör sayısı yükseldikçe maksimum olabilirlik yaklaşımından daha fazla parametreye yol açacak gibi görünüyor .N


1
Nf parametreleri overcounts: fazlalık nedeniyle özvektörler karşılıklı dikey olmasından yoktur.
whuber

10
İlk özvektörde serbest parametre vardır. Ortogonallik koşulu, ikinci özvektörü, yalnızca parametrelerine ihtiyaç duyan birincisine dik hiperuzay ile sınırlar . Her ardışık özvektör, öncekinden daha az bir parametreye ihtiyaç duyar. Sınırında özvektörler sen atma (şimdi sıfır olduğu için), veren = parametreleri toto, ilk parametre anlaşarak Miktar. N - 1 N σ 2 r N + ( N - 1 ) + + 1 N ( N + 1 ) / 2NN1Nσr2N+(N1)++1N(N+1)/2
whuber

1
A.Donda @ durum belirsizdir: Diyelim ki de göstermiştir varsayalım çokluğu her özdeğerinin ve bu çokluklar olduklarını hiç toplanmasıyla PCA bir ortogonal dönüşüm bulduğu izin vermek, biz olurdu parametrelerini belirlemek için. Fakat her bir stabilizatörleri boyutlarında dik gruplardırHer biri parametrelerini ortadan parametrelerini rotasyon için . özdeğerler kalan parametreleri tedarik ediyoruz. N . N ( N - 1 ) / 2 n i . n i ( n i - 1 ) / 2 N ( N - 1 ) / 2 - s i = 1 n i ( n i - 1 ) / 2 sn1,n2,,ns,N.N(N1)/2ni.ni(ni1)/2
N(N1)/2i=1sni(ni1)/2
s
whuber

1
(Bu sayımın soruya uygulanmasının şüpheli olduğunu eklemeliyim: PCA , daha yüksek çokluğun bazı özdeğerlerini bulsa bile , tüm parametrelerini kullanır . Ve neredeyse tüm gerçek veri kümelerinde, o daha çokluğu büyüktür elde asla zaten).1N(N1)/21
whuber

1
@whuber, teşekkürler! Sorum, özdeğerler üzerindeki bir kısıtlama altında bir kovaryans matrisi tahmin ettiğim bir durumdan motive oluyor.
A. Donda

Yanıtlar:


5

Minka'nın ( PCA için otomatik boyutsallık seçimi , 2000) ve Tipping & Bishop'un ( Olasılıksal Temel Bileşen Analizi ) olasılıklı bir PCA görüşü ile ilgili çalışmaları size ilgilendiğiniz çerçeveyi sağlayabilir. Minka'nın çalışması, log- olabilirlik burada , bir Laplace yaklaşımı kullanarak veri kümenizin gizli boyutudur ; açıkça belirtildiği gibi: " Laplace yönteminin basitleştirilmesi BIC yaklaşımıdır. "k Dlogp(D|k)kD

Bu açıkça, AIC tarafından kullanılan bilgi teorisi kriterlerine (KL-diverjans) dayanmayan probleminizin Bayes bakış açısını gerektirir.

Orijinal "parametrelerin 'sayısı" sorusu ile ilgili olarak ben de @ whuber'ın yorumunun doğru sezgiyi taşıdığını düşünüyorum.


AICc ile AICc arasında değişen boyutlardaki rastgele matrislerde oynuyordum. AICc daha iyi çalışıyor gibi görünüyordu. Bu referanslar iyi görünüyor, ama henüz sindirim şansım olmadı.
John

6

PCA'da "uygun" sayıda bileşenin seçilmesi Horn'un Paralel Analizi (PA) ile zarif bir şekilde yapılabilir. Makaleler bu kriterin dirsek kriteri veya Kaiser kuralı gibi temel kurallardan daha iyi performans gösterdiğini göstermektedir. R paketi "paran" sadece birkaç fare tıklaması gerektiren bir PA uygulamasına sahiptir.

Tabii ki, kaç bileşen tuttuğunuz veri azaltma hedeflerine bağlıdır. Sadece "anlamlı" olan varyansı korumak isterseniz, PA optimal bir azalma sağlayacaktır. Bununla birlikte, orijinal verilerin bilgi kaybını en aza indirmek isterseniz,% 95 açıklanan varyansı kapsayacak kadar bileşen tutmalısınız. Bu açık bir şekilde PA'dan çok daha fazla bileşen tutacaktır, ancak yüksek boyutlu veri kümeleri için boyutsallık azalması hala önemli olacaktır.

"Model seçimi" problemi olarak PCA hakkında son bir not. Peter'ın cevabına tam olarak katılmıyorum. PCA'yı, Seyrek PCA, Seyrek Olasılıksal PCA veya ScotLASS gibi regresyon tipi bir sorun olarak yeniden formüle eden bir dizi makale bulunmaktadır. Bu "model tabanlı" PCA çözümlerinde, yüklemeler uygun ceza terimleriyle 0'a ayarlanabilen parametrelerdir. Muhtemelen, bu bağlamda, söz konusu model için AIC veya BIC tipi istatistiklerin hesaplanması da mümkün olacaktır.

Bu yaklaşım teorik olarak, örneğin, iki PC'nin sınırsız olduğu (tüm yüklemelerin sıfırdan farklı olduğu) bir modeli içerebilir, PC1'in sınırsız olduğu ve PC2'nin tüm yüklerinin 0'a ayarlandığı bir model olabilir. her şey hesaba katılırsa.

Kaynaklar (PA) :

  • Dinno, A. (2012). paran: Horn'un Temel Bileşenleri / Faktörleri Testi. R paket sürümü 1.5.1. http://CRAN.R-project.org/package=paran
  • Horn JL 1965. Faktör analizindeki faktör sayısı için bir gerekçe ve bir test. Psikometrik . 30: 179-185
  • Hubbard, R. ve Allen SJ (1987). Temel bileşen ekstraksiyonu için alternatif yöntemlerin ampirik olarak karşılaştırılması. İşletme Araştırmaları Dergisi, 15 , 173-190.
  • Zwick, WR ve Velicer, WF 1986. Tutulacak Bileşen Sayısını Belirlemeye Yönelik Beş Kuralın Karşılaştırılması. Psikolojik Bülten. 99 : 432–442

Siteye hoş geldiniz, @BenM. Cevabınızdan, etrafınızda olmanın iyi olacağını düşünüyorum (iddialarınızı değerlendirmek için temel bilgilerin ötesinde PCA hakkında yeterince bilgim olmamasına rağmen). Bir soru, bu pozisyonların iyi oluşturulduğunu not edin, ilgilenen okuyucunun daha fazla ayrıntı bulabileceği birkaç temsili yayın listeleyebilir misiniz?
gung - Monica'yı eski durumuna getirin

-1

AIC model seçimi için tasarlanmıştır. Bu gerçekten bir model seçim sorunu değildir ve belki de farklı bir yaklaşım benimsemeniz daha iyi olur. Alternatif olarak, açıklanan belirli bir toplam varyans yüzdesini (örneğin,% 75 gibi) belirtmek ve bu oran% 75'e ulaştığında durmak olabilir.


1
Faktör sayısına göre farklı modeller arasında seçim yapıyorum (1 faktörlü model, 2 modelli vb.). Varyans yüzdesi ile ilgili problem, özellikle gözlem sayısı değişken sayısından az olduğunda, ek özvektörleri tahmin etme maliyetini göz ardı etmesidir. AIC olasılıkla PCA yaklaşımına iyi uyum sağlar.
John

3
Michael, bunun neden bir model seçim sorunu olmadığını açıklayabilir misiniz ? Görünüşe göre John bunu açıkça bir formüle etti.
whuber

@whuber İstatistiksel model nedir? Bana öyle geliyor ki, bir Y değişkenindeki varyansın% x'ini temsil etmek için kullanılan ana bileşen sayısının belirlenmesi bir model seçmiyor. Temel bileşenleri model parametreleri olarak da düşünmezdim.
Michael R. Chernick

2
XiN(0,Σ)Σσi2ρ|ρ|=1θλ1λ2λ2=0. Her iki perspektif de mükemmel korelasyon (eşdoğrusallık) için test eder; sadece farklı parametreler kullanırlar. Bir model olarak ilk izin verirseniz, gereken ikinci tanır.
whuber

-3

AIC burada uygun değil. Değişken sayıda parametreye sahip modeller arasında seçim yapmıyorsunuz - ana bileşen bir parametre değil.

Bir faktör analizinden veya temel bileşen analizinden (scree testi, özdeğer> 1, vb.) Faktörlerin veya bileşenlerin sayısına karar vermek için bir dizi yöntem vardır. Ancak gerçek test önemlidir: Hangi sayıda faktör mantıklıdır ? Faktörlere bakın, ağırlıkları düşünün, verilerinize en uygun olanı bulun.

İstatistiklerdeki diğer şeyler gibi, bu da otomatikleştirilebilecek bir şey değildir.


4
ΣΣ

1
@whuber Kovaryans matrisinin parametresi belki de bir model parametresi değildir. Bu konuda Peter ile yan yana geldim.
Michael R.Chernick

3
Peter, "model parametresi" ile "parametre" arasında tam olarak hangi ayrımı yapıyorsun? Böyle bir şeyin farkında değilim ve bu yüzden bu konuda öğrenmeyi takdir ediyorum. Amacınız çok değişkenli kovaryansların cimri bir tanımını bulmaksa, "model" parametreleri oluşturmuyorlar mı?
whuber

3
nmn

1
Bilgi için teşekkürler. Zaman serileri hakkında çok az şey bildiğim bir istatistik alanı.
Peter Flom - Monica'yı eski durumuna döndürün
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.