Dersi görmedim, bu yüzden söylenenler hakkında yorum yapamam.
Benim 0.02 $: Yeniden örnekleme kullanarak iyi performans tahminleri almak istiyorsanız, yeniden örnekleme sırasında önceki işlemleri yerine tüm işlemleri gerçekten yapmanız gerekir. Bu, özellik seçimi [1] ve PCA gibi önemsiz işlemler için gerçekten doğrudur. Sonuçlara belirsizlik eklerse, yeniden örneklemeye ekleyin.
Temel bileşen regresyonunu düşünün: PCA ve ardından bazı bileşenlerde doğrusal regresyon. PCA parametreleri tahmin eder (parazitli) ve bileşen sayısı da seçilmelidir (farklı değerler farklı sonuçlara neden olur => daha fazla gürültü).
Şema 1 ile 10 kat CV kullandığımızı varsayalım:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
veya şema 2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
İkinci yaklaşımın, PCA'nın neden olduğu belirsizliği, bileşen sayısının seçimini ve doğrusal regresyonu yansıtan hata tahminleri üretmesi gerektiğinden açık olmalıdır. Aslında, ilk şemadaki CV'nin bundan önce ne olduğu hakkında hiçbir fikri yoktur.
Ben her zaman örnekleme w / tüm işlemleri yapmaktan suçlu değilim, ama sadece performans tahminleri umurumda değil (ki bu olağandışı).
İki şema arasında çok fark var mı? Verilere ve ön işleme bağlıdır. Sadece merkezleme ve ölçeklendirme yapıyorsanız, muhtemelen değil. Bir ton veriniz varsa, muhtemelen hayır. Egzersiz seti boyutu azaldıkça, özellikle n, p'ye yakınsa, kötü tahminler alma riski artar.
Deneyimden kesin olarak, örnekleme içinde denetimli özellik seçiminin dahil edilmesinin gerçekten büyük bir fikir olduğunu söyleyebilirim (büyük eğitim setleri olmadan). Ön işlemenin neden buna (bir dereceye kadar) karşı bağışık olacağını anlamıyorum.
@mchangun: Bileşen sayısının bir ayar parametresi olduğunu düşünüyorum ve muhtemelen genelleştirilebilir performans tahminlerini kullanarak seçmek istersiniz. K'yi otomatik olarak, varyansın en az% X'inin açıklanacağı şekilde seçebilir ve bu işlemi yeniden örnekleme içine dahil edebilirsiniz, böylece o süreçteki gürültüyü hesaba katarız.
maksimum
[1] Ambroise, C. ve McLachlan, G. (2002). Mikroarray gen ekspresyon verilerine dayanarak gen ekstraksiyonunda seçim yanlılığı. Ulusal Bilimler Akademisi Bildirileri, 99 (10), 6562-6566.