Bu soruda @ AmiTavory'nin görüşü ve İstatistiksel Öğrenme Unsurları ile farklılaşmaya yalvarıyorum.
Çok düşük numune boyutlarına sahip uygulamalı bir alandan geldiğimde, denetimsiz ön işleme adımlarının ciddi önyargılara neden olabileceği deneyimim var.
Benim alanımda bir sınıflandırıcı eğitilmeden önce boyutsal azalma için en sık PCA olurdu. Burada verileri gösteremesem de, PCA + (çapraz doğrulanmış LDA) ve çapraz doğrulanmış (PCA + LDA) ile hata oranını yaklaşık bir büyüklük düzeyinde küçümsediğini gördüm . (Bu genellikle PCA'nın kararlı olmadığının bir göstergesidir.)
Elementlerin "haksız avantaj" argümanlarına gelince, taining + test vakalarının varyansı incelenirse, hem eğitim hem de test vakalarıyla iyi çalışan özellikler elde ederiz. Böylece, aşırı aktiflik yanlılığının nedeni olan, kendini gerçekleştiren bir kehanet yaratıyoruz. Oldukça rahat numune boyutlarınız varsa bu sapma düşüktür.
Bu yüzden Elementlerden biraz daha muhafazakar bir yaklaşım öneriyorum:
- Birden fazla vakayı dikkate alan önişleme hesaplamaları validasyona dahil edilmelidir: yani bunlar sadece ilgili eğitim setinde hesaplanır (ve daha sonra test verilerine uygulanır)
- her vakayı tek başına ele alan önişleme adımları (ben spektroskopik: örnekler taban çizgisi düzeltmesi ve sıralı bir normalizasyon olan yoğunluk normalizasyonu olacaktır) ilk adımdan önce olduğu sürece çapraz doğrulamanın dışına çıkarılabilir birden çok durum için hesaplar.
Bununla birlikte, çapraz validasyon, uygun bir validasyon çalışması yapmak için sadece bir kısayoldur. Böylece, pratiklikle tartışabilirsiniz:
Söz konusu ön işlemenin kararlı sonuçlar verip vermediğini kontrol edebilirsiniz (bunu örneğin çapraz doğrulamayla yapabilirsiniz). Zaten daha düşük numune boyutları ile mükemmel bir şekilde stabil olduğunu fark ederseniz, IMHO, çapraz doğrulamanın dışına çekilerek çok fazla önyargı ortaya çıkmayacağını iddia edebilirsiniz.
Ancak, önceki bir amirden alıntı yapmak için: Hesaplama süresi bilimsel bir argüman değildir.
Sık sık tüm kodun (sonuçların özeti / grafikleri dahil) emin olmak için birkaç katlama ve birkaç doğrulama ve birkaç yinelemeden oluşan bir "gizli önizleme" ye giderim ve daha sonra gece boyunca veya hafta sonu boyunca sunucuda daha ince taneli çapraz doğrulama.