Genelleme hatasını ölçmek için ikincisini yapmanız gerekir: her eğitim seti için ayrı bir PCA (bu, her sınıflandırıcı ve her CV katlaması için ayrı bir PCA yapmak anlamına gelir).
Daha sonra test kümesi aynı dönüşüm geçerlidir: yani do not test kümesi üzerinde ayrı bir PCA yap! Burada açıklandığı gibi, eğitim setinin ortalamasını (ve gerekirse standart sapmaya bölünmesi gerekir) çıkarırsınız: Eğitim setinde PCA'dan sonra test setini sıfır merkezleme . Ardından verileri eğitim setinin bilgisayarlarına yansıtırsınız.
Kullanılacak bilgisayar sayısı için otomatik bir kriter tanımlamanız gerekecektir.
"Gerçek" sınıflandırmadan önceki ilk veri azaltma aşaması olduğu için, çok fazla sayıda PC kullanmak performansa zarar vermeyecektir. Kaç bilgisayarın deneyiminden iyi olacağı konusunda bir beklentiniz varsa, belki de bunu kullanabilirsiniz.
Daha sonra her vekil model için PCA'nın tekrarlanmasının gerekip gerekmediğini de test edebilirsiniz (analizi yalnızca bir PCA modeliyle tekrarlamak). Bu testin sonucunun rapor edilmeye değer olduğunu düşünüyorum.
Bir keresinde PCA'nın tekrarlanmamasının önyargısını ölçtüm ve spektroskopik sınıflandırma verilerimle, her vekil model için PCA'yı tekrarlamadığımda genelleme hata oranının sadece yarısını tespit ettiğimi öğrendim.
Varlık bir inşa edebilirsiniz, söz konusu ek (örneğin görselleştirme) amaçları açıklayıcı için bütün veri setinin PCA modeli. Sadece iki yaklaşımı birbirinden ayrı tuttuğunuzdan emin olun.
Veri setinin tamamındaki ilk PCA'nın sınıf etiketlerini görmeden sonuçları nasıl önyargıladığına dair bir fikir edinmeyi hala zor buluyorum.
Ancak verileri görüyor. Sınıflar arası varyans, sınıf içi varyansa göre daha büyükse, sınıflar arası varyans PCA projeksiyonunu etkileyecektir. Genellikle PCA adımı yapılır çünkü sınıflandırmayı dengelemeniz gerekir. Bu ek vakalar bir durumda olduğunu yapmak modelini etkileyebilir.
Sınıflar arası değişkenlik küçükse, bu önyargı çok fazla olmayacak, ancak bu durumda PCA ne sınıflandırmaya yardımcı olmaz: PCA projeksiyonu sınıflar arasındaki ayrımı vurgulamaya yardımcı olamaz.
caret
Paket içinde R'de PCA ile çapraz doğrulama nasıl yapılır hakkında şu soruya bakın : PCA ve Caret'te Çapraz Doğrulama k katlayın .