Yakın zamanda Kaggle yarışması için, eğitim setim için daha sonra rastgele bir orman sınıflandırıcısını eğitmek için kullanılacak 10 ek özellik tanımladım. PCA'yı yeni özelliklerle veri kümesinde çalıştırmaya karar verdim, birbirleriyle nasıl karşılaştırıldıklarını görmek için. Varyansın ~% 98'inin birinci bileşen (ilk özvektör) tarafından taşındığını buldum. Daha sonra sınıflandırıcıyı birçok kez eğittim, her seferinde bir özellik ekledim ve sınıflandırma kalitesini karşılaştırmak için çapraz doğrulama ve RMS hatası kullandım. Sınıflandırmaların her bir ek özellik ile iyileştiğini ve son sonucun (10 yeni özellikle birlikte) ilk özellikten (diyelim) 2 özellikle çok daha iyi olduğunu gördüm.
PCA'nın varyansın ~% 98'inin veri setimin ilk bileşeninde olduğunu iddia ettiği düşünüldüğünde, sınıflandırmaların kalitesi neden bu kadar iyileşti?
Bu diğer sınıflandırıcılar için geçerli midir? RF birden fazla çekirdeğe göre ölçeklenir, bu nedenle eğitmek SVM'den çok daha hızlıdır.
Veri kümesini "PCA" alanına dönüştürdüysem ve sınıflandırıcıyı dönüştürülmüş alanda çalıştırırsam ne olur? Sonuçlarım nasıl değişecekti?