Bileşen sayısını seçmek için PCA uyumunun kalitesini değerlendirmek için iyi metrikler nelerdir?


10

Temel bileşen analizinin (PCA) kalitesini değerlendirmek için iyi bir ölçüm nedir?

Bu algoritmayı veri kümesinde gerçekleştirdim. Amacım özellik sayısını azaltmaktı (bilgi çok gereksizdi). Tutulan varyans yüzdesinin ne kadar bilgi tuttuğumuzun iyi bir göstergesi olduğunu biliyorum, gereksiz bilgileri kaldırdığımı ve bu tür bilgileri 'kaybetmediğimden emin olmak için kullanabileceğim başka bilgi metrikleri var mı?


3
Kesin olarak, ilk verileriniz mükemmel bir şekilde uyumlu olmadıkça "gereksiz" bilgi yoktur. Genellikle tutulan varyans yüzdesi görülür ("varyansın% 90'ını oluşturan ilk beş temel bileşeni kullandık"). Alternatifleri görmekle ilgileniyorum.
Stephan Kolassa

Etiketlerinizden biri bilgi teorisi olduğundan: PCA'nın çalışıp çalışmadığını değerlendirmenin dolaylı bir yolu, bilgi teorisinin bize belirli bir boyut azaltımı için bilgi kaybının düşük olduğunu söylediği varsayımları kontrol etmektir. Wiki, verilerinizin gauss sinyali ve gauss gürültüsünün toplamı olduğu zaman böyle olduğunu söylüyor. en.wikipedia.org/wiki/…
CloseToC

Yanıtlar:


17

Bu sorunun bir bölümünün, kümülatif yüzde varyans (CPV) ve benzer dağ eteğindeki parsel yaklaşımı dışında başka bir metrik olup olmadığını varsayalım. Bunun cevabı evet, çok .

Bazı seçenekler hakkında harika bir makale Valle 1999:

CPV'nin yanı sıra Paralel Analiz, Çapraz validasyon, Rekonstrüksiyon hatasının Değişimi (VRE), bilgi kriterleri temelli yöntemler ve daha fazlasını da kapsar. VRE'yi karşılaştırdıktan ve kullandıktan sonra makalenin önerisini takip edebilirsiniz, ancak PRESS'e dayalı çapraz doğrulama da benim deneyimimde iyi çalışıyor ve bununla da iyi sonuçlar alıyorlar. Deneyimlerime göre, CPV uygun ve kolaydır ve iyi bir iş çıkarır, ancak bu iki yöntem genellikle daha iyidir.

Veriler hakkında daha fazla bilgi sahibi olduğunuzda PCA modelinizin ne kadar iyi olduğunu değerlendirmenin başka yolları da vardır. Bunlardan biri, eğer tahmin ederseniz (simülasyonlarda yapacağınız) tahmini PCA yüklerini gerçek yüklerle karşılaştırmaktır. Bu, tahmini yüklerin gerçek yüklere olan sapmasının hesaplanmasıyla yapılabilir. Önyargınız ne kadar büyükse, modeliniz o kadar kötü olur. Bunu nasıl yapacağınız için yöntemleri karşılaştırmak için bu yaklaşımı kullandıkları bu makaleye göz atabilirsiniz . Gerçek PCA yüklemelerini bilmediğiniz gerçek veri durumlarında kullanılamaz. Bu, dışarıdaki gözlemlerin etkisi nedeniyle modelinizin yanlılığından çok kaç bileşeni çıkardığınızdan daha az konuşur, ancak yine de bir model kalitesi metriği olarak işlev görür.



3

Ayrıca bilgi teorik kriterlerine dayalı önlemler de vardır.

Rissanen MDL (ve çeşitleri)


@ kullanıcı: 45382 Evet, bu başka bir tane. Ayrıca Zhubarb'ın bağlantı verdiği makalede de ele alınmıştır.
Deathkill14

@ Deathkill14 Doğru makaleyi okudum, bilgi-teorik önlemlerden bahsediliyor (aslında iyi alternatifler olarak)
Nikos M.

Vitany & Li, İdeal MDL ve İlişkisi için Bayesianism: MDL, MML ve Bayesianism üzerinde mükemmel bir teorik kağıt citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . Ayrıca AIC ve BIC gibi diğer model seçim yöntemleri, MDL'nin etkin bir şekilde uygulanmasıdır.
ggll
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.