IMHO, uzaklaştırma validasyonunun en kötü özelliklerinden biri istatistiksel olmaktan ziyade psikolojiktir: Bağımsız bir geçerlilik denemesi (sanki zaten deneysel seviyede bağımsızlık) gibi yorumlanmış bir sürü bekletme görüyorum. yeniden örnekleme doğrulamasında gördüğüm çok önemli sorunlar, bekletme ile de aynı şekilde olabilir ve olacaktır (yanlış bölünmeden kaynaklanan herhangi bir sorun).
Bunun dışında IMHO neredeyse yeniden örnekleme ile aynı (en azından pratikte gördüğüm gibi). Farklılıklar
- gerçekte farklı test edilen vakaların toplam sayısı daha düşüktür (ve dolayısıyla tahmin daha az kesindir).
- Dışarıda tutma ile, dışarıda tutma izlemesinden ve dışarıda tutma test verilerinden yapılmış gerçekte test edilmemiş bir model için değil, gerçekte test edilen model için performans talep edilir. Yeniden örnekleme, ölçülen performansın, ikinci modelin performansına iyi bir yaklaşım olduğunu iddia etmektedir. Ancak, uzak tutma yaklaşımının bu şekilde kullanıldığını da gördüm ("doğrulama" ayarlandı).
Esbensen ve Geladi: Doğru Validasyon İlkeleri: validasyon için yeniden örneklemenin kullanımı ve kötüye kullanımı, Journal of Chemometrics, 24 (3-4), 168-187 , pratik açıdan her ikisinin de veri setleri (validasyon) için çok iyi bir yaklaşım olmadığını savunur. deneyler) gerçekten ilginç performans özelliklerinin ölçülmesine olanak tanır.
test verilerine fazladan sığdırıp aynı şekilde egzersiz verilerine fazla sığdırabilirsiniz.
Diğer tüm doğrulamalarla aynı: veriye dayalı modelleme / model seçimi yaparsanız, başka bir bağımsız doğrulama düzeyi gerekir. Burada duraklatma ve yeniden örnekleme şemaları arasında hiçbir fark görmüyorum.
önce bir model oluşturmak ve test etmek için uzatma doğrulamasını kullanarak, daha sonra doğrulama testi tahminlerimin (test setinde) tahminlerimin testteki örnekleme hatasına karşı sağlam olduğunu göstermek için bir defaya mahsus setin tekrar çizilmesi Ayarlamak. Bu herhangi bir nedenle kötü bir fikir mi?
Ben öyle düşünüyorum, evet: IMHO iç içe bir kurulum kullanılmalıdır
(bekletme doğrulamasının da tekrarlanabileceğini ve tekrarlanması gerektiğini önermek istemiyorsanız - bu, yinelenen / yinelenen ayar doğrulamasından yalnızca yorumlama ile farklılık gösteren geçerli bir yaklaşımdır. : performans ifadesinin gerçekten test edilen birçok modelle ilgili olup olmadığı veya tüm verilerin oluşturduğu bir modele ekstrapole edilip edilmediği).