PCA yaparken kaç boyuta indirilecek?


13

PCA için K nasıl seçilir? K, yansıtılacak boyutların sayısıdır. Tek gereklilik çok fazla bilgi kaybetmemek. Verilere bağlı olduğunu anlıyorum, ancak K'yi seçerken hangi özelliklerin dikkate alınacağına dair basit bir genel bakış arıyorum.


Tolere edilebilir veri kaybına ve ayrıca sorun bildirimine de bağlıdır!
Dawny33

Aşağıdaki iki cevaba katılıyorum. Ancak, bilgi kaybını ölçmenin basit bir yolu olduğunu biliyor musunuz, yani kovaryans matrisinin SVD köşegenini kullanarak?
yuqian

Yanıtlar:


14

PCA algoritmasını gerçekleştirdikten sonra, temel bileşenleri, sahip oldukları bilgi miktarına göre sıralanmış olarak alırsınız. Tüm seti tutarsanız, hiçbir bilgi kaybedilmez. Bunları birer birer çıkararak ve orijinal alana geri yansıtarak bilgi kaybını hesaplayabilirsiniz. Kaldırılan ana bileşen sayısına karşı bu bilgi kaybını çizebilir ve mantıklı olduğu yerde bir 'dirsek' yapıp yapmadığını görebilirsiniz. Ancak bunların çoğu kullanım durumunuza bağlıdır.


(+1) Evet, bu kadar basit :)
Dawny33

3

Normalde K değeri tarafından tutulan bilgilerin yüzdesini kontrol ederim. 8 alandan 2'sinde bilgilerin% 90'ına sahip olduğunu varsayalım. O zaman diğer 6 veya 5 alanı eklemenin bir anlamı yoktur. Eğer mnist verileri biliyorsanız, 768 girişten sadece 250 kullandım, bu da benim doğruluğumu% 83'ten 96'ya çıkardı. Gerçek şu ki, daha fazla boyutluluk daha fazla sorun getiriyor. Yani onları kes. Genellikle bilginin sadece% 90'ına sahip olan K'yi alıyorum ve bu benim için çalışıyor.


Merhaba .. Ben% x bilgi kullanmak ve bunu nasıl emin olmak istiyorum benzer bir sorun var? Bunu yapmak için IPCA kullanmak niyetinde Ben n_components = Yok bırakabilirsiniz ama nasıl sonra veri x% özellikleri olan özellikleri neler karar nasıl?
Arsenal Fanatic
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.