Bir sınıflandırıcıya geçmem gereken 14000 veri noktası (boyut) içeren 10 kişi için 10 sinyal / kişi (yani 100 örnek) bulunan bir senaryoya rastladım. Bu verinin boyutunu azaltmak istiyorum ve PCA bunu yapmanın yolu gibi görünüyor. Ancak, PCA'nın örneklerini yalnızca örnek sayısının boyut sayısından büyük olduğu yerlerde bulabildim. SVD kullanarak PC'leri bulan PCA uygulamasını kullanıyorum. 100x14000 veri setimden geçtiğimde 101 PC geri döndü, böylece boyutların büyük çoğunluğu açıkça göz ardı edildi. Program, ilk 6 PC'nin varyansın% 90'ını içerdiğini gösterir.
Bu 101 PC'nin temelde tüm varyansı içerdiği ve kalan boyutların ihmal edilebilir olduğu varsayımı makul mu?
Okuduğum yazılardan biri, benzer (biraz daha düşük kalitede) veri seti kullanarak, kendiminkinden daha düşük bir veri kümesi kullanarak, orijinal boyutun% 96'sını koruyarak 4500 boyutu düşürebildiklerini iddia ediyor. Kağıt, kullanılan PCA tekniğinin ayrıntılarına göre el sallıyor, yalnızca 3100 örnek mevcuttu ve PCA'yı gerçekleştirmek için (sınıflandırma aşamasından önyargıyı kaldırmak için) kullanılandan daha az numuneye inanmak için bir nedenim var.
Bir şey eksik mi, yoksa bu gerçekten PCA'nın yüksek boyutluluk düşük örneklem büyüklüğü veri kümesiyle kullanılma şekli midir? Herhangi bir geri bildirim çok takdir edilecektir.