Bekletme, bağımsız test setiyle doğrulama ile eşanlamlı olarak kullanılır, ancak verileri rastgele bölme ve bağımsız test için bir doğrulama denemesi tasarlama arasında çok önemli farklar vardır.
Yeniden örnekleme veya bekletme validasyonu ile ölçülemeyen genelleme performansını ölçmek için bağımsız test setleri kullanılabilir, örneğin bilinmeyen gelecekteki vakaların performansı (= eğitim bittikten sonra ölçülen durumlar). Bu, mevcut bir modelin yeni veriler için ne kadar süre kullanılabileceğini bilmek açısından önemlidir (örneğin, araç sapmasını düşünün). Daha genel olarak, bu uygulanabilirlik sınırlarını tanımlamak için ekstrapolasyon performansının ölçülmesi olarak tanımlanabilir.
Pivot aslında yararlı olabilir başka senaryodur: çok olduğunu kolay eğitim ve test verileri düzgün ayrılmasını temin etmek - doğrulama yeniden örnekleme için çok daha kolaydır: örn
- bölünmeye karar ver (örn. vakaların rastgele atanması)
- ölçmek, ölçü,,, tedbir, önlem
- Eğitim vakalarının ölçüm ve referans verileri => modelleme \ ne ölçümler ne de test durumlarının referansı model kişilere verilir.
- son model + yapılan vakaların ölçümleri => tahmin
- Bekletilen durumlar için öngörüleri referans ile karşılaştırır.
İhtiyacınız olan ayrılma seviyesine bağlı olarak, her adım bir başkası tarafından yapılabilir. İlk seviye olarak, test senaryosunun herhangi bir verisinin (ölçümlerin bile) modelleyiciye teslim edilmemesi, test verilerinin modelleme sürecine sızmayacağından emin olmalarını sağlar. İkinci seviyede, son model ve test durumu ölçümleri henüz başkasına devredilebilirdi, vb.
Evet, bunun yerine koyma tahminlerinin yeniden örnekleme onaylamasına kıyasla daha düşük verimliliği ile ödeme yaparsınız. Ancak, yeniden örnekleme onaylamasının vakaları doğru şekilde ayırmadığından şüphelendiğim pek çok makale gördüm (alanımda kümelenmiş / hiyerarşik / gruplanmış veriler var).
Gönderimden bir hafta sonra bir makaleyi geri çekerek yeniden bölme için veri sızıntısı dersini öğrendim, böylelikle bölme işlemimde (indeks hesaplamasında yazım hatası) daha önce tespit edilmemiş olduğum (yan yana permütasyon testlerini çalıştırarak) sızıntısı olduğunu öğrendim.
Bazen elde tutma, sonuçlar hakkında aynı kesinliği sağlamak için yeniden örnekleme kodunu (örneğin kümelenmiş veriler için) kontrol etmek için zaman ayırmaya istekli birini bulmaktan daha etkili olabilir. Bununla birlikte, IMHO bunu yapmak için genellikle verimli değildir; örneğin gelecekteki performansı (ilk nokta) (yani, zaten var olan modeli için bir doğrulama denemesi hazırlamanız gerektiğinde) ölçmeniz gereken aşamada bulunmadan önce.
OTOH, küçük örneklem büyüklüğü durumlarda, bekletme seçeneği yoktur: yeterli test vakası tutmanız gerekir, böylece test sonuçları gerekli sonuca izin verecek kadar kesindir (unutmayın: sınıflandırma için 3 test vakasından 3'ü doğru 50:50 tahminin çok altında değişen binom% 95 güven aralığı!) Frank Harrell en azından ca. [Doğru tahmin edilen vakaların kesri gibi] bir oranının yararlı bir hassasiyetle doğru bir şekilde ölçülmesi için 100 (test) vakaya ihtiyaç vardır.
Güncelleme: Doğru ayrılmanın özellikle zor olduğu durumlar arasında durumlar vardır ve çapraz onaylama yapılamaz hale gelir. Bir dizi kargaşayla ilgili bir problem düşünün. Kesin olarak iç içe geçmişse bölme kolaydır (örneğin, birkaç hastayla yapılan bir çalışma, her hastanın birkaç örneğine sahiptir ve her örneğin birkaç hücresini analiz eder): örnekleme hiyerarşisinin en üst seviyesine (hastaya göre) ayrılırsınız . Ancak iç içe geçmemiş bağımsız kargaşalara sahip olabilirsiniz, örneğin testi çalıştıran farklı denemelerin neden olduğu günlük değişimler veya varyanslar. Daha sonra bölünmenin herkes için bağımsız olduğundan emin olmalısınızEn üst düzeyde kafa karıştırıcılar (iç içe geçenler otomatik olarak bağımsız olacaktır). Bununla ilgilenmek, eğer bazı karıştırıcılar sadece çalışma sırasında tanımlanırsa ve bir onaylama deneyi tasarlamak ve gerçekleştirmek, ne eğitim ne de taşıyıcı modellerin sınanması için neredeyse hiç veri bırakmayan bölmelerle başa çıkmasından daha etkili olabilir.