PCA için K nasıl seçilir? K, yansıtılacak boyutların sayısıdır. Tek gereklilik çok fazla bilgi kaybetmemek. Verilere bağlı olduğunu anlıyorum, ancak K'yi seçerken hangi özelliklerin dikkate alınacağına dair basit bir genel bakış arıyorum.
PCA için K nasıl seçilir? K, yansıtılacak boyutların sayısıdır. Tek gereklilik çok fazla bilgi kaybetmemek. Verilere bağlı olduğunu anlıyorum, ancak K'yi seçerken hangi özelliklerin dikkate alınacağına dair basit bir genel bakış arıyorum.
Yanıtlar:
PCA algoritmasını gerçekleştirdikten sonra, temel bileşenleri, sahip oldukları bilgi miktarına göre sıralanmış olarak alırsınız. Tüm seti tutarsanız, hiçbir bilgi kaybedilmez. Bunları birer birer çıkararak ve orijinal alana geri yansıtarak bilgi kaybını hesaplayabilirsiniz. Kaldırılan ana bileşen sayısına karşı bu bilgi kaybını çizebilir ve mantıklı olduğu yerde bir 'dirsek' yapıp yapmadığını görebilirsiniz. Ancak bunların çoğu kullanım durumunuza bağlıdır.
Normalde K değeri tarafından tutulan bilgilerin yüzdesini kontrol ederim. 8 alandan 2'sinde bilgilerin% 90'ına sahip olduğunu varsayalım. O zaman diğer 6 veya 5 alanı eklemenin bir anlamı yoktur. Eğer mnist verileri biliyorsanız, 768 girişten sadece 250 kullandım, bu da benim doğruluğumu% 83'ten 96'ya çıkardı. Gerçek şu ki, daha fazla boyutluluk daha fazla sorun getiriyor. Yani onları kes. Genellikle bilginin sadece% 90'ına sahip olan K'yi alıyorum ve bu benim için çalışıyor.