Çok ilginç bir soru, verdiğiniz makaleleri okumak zorunda kalacağım ... Ama belki bu bize cevap yönünde başlayacaktır:
Genelde bu problemi pragmatik bir şekilde ele alırım: Yeni rasgele bölmelerle k-fold cross validasyonunu yineliyorum ve her yineleme için olduğu gibi performansı hesaplıyorum. Genel test örnekleri daha sonra her yineleme için aynıdır ve farklılıklar verinin farklı bölümlerinden gelir.
Bu, örneğin gözlemlenen performansın% 5 ila 95'inin yüzdesi olarak bildirir. kadar değiş tokuş yeni örnekler için örnek ve model kararsızlığı için bir ölçü olarak tartışın.nk−1
Not: Yine de örneklem büyüklüğüne ihtiyaç duyan formülleri kullanamıyorum. Verilerim kümelenmiş veya hiyerarşik olduğundan yapı (aynı vakanın benzer fakat tekrarlanan ölçümleri, genellikle aynı numunenin birkaç [yüz] farklı konumu) Etkili örneklem büyüklüğünü bilmiyorum.
bootstrapping ile karşılaştırılması:
yinelemeler yeni rasgele bölmeler kullanır.
temel fark (bootstrap) veya (cv) değişim olmadan yeniden örneklemedir.
Hesaplama maliyeti yaklaşık olarak aynıdır, çünkü cv önyükleme iterasyonlarının / k'lık yinelemelerinin sayısını seçmezdim, yani aynı toplam model sayısını hesaplar.≈
bootstrap, bazı istatistiksel özellikler açısından cv'ye göre avantajlara sahiptir (asimptotik olarak doğru, muhtemelen iyi bir tahmin elde etmek için daha az yinelemeye ihtiyacınız var)
Ancak, cv ile size garanti edilme avantajına sahip olursunuz.
- Farklı eğitim örneklerinin sayısı tüm modeller için aynıdır (öğrenme eğrilerini hesaplamak istiyorsanız önemlidir)
- her örnek, her tekrarda tam olarak bir kez test edilir
bazı sınıflandırma yöntemleri tekrarlanan örnekleri atar, bu nedenle önyükleme işlemi bir anlam ifade etmez
Performans için varyans
Kısa cevap: evet, yalnızca {0,1} sonuçların mevcut olduğu durumlarda farklılıktan bahsetmek mantıklıdır.
Binom dağılımına bir göz atın (k = başarı, n = test, p = başarı için gerçek olasılık = ortalama k / n):
σ2(k)=np(1−p)
Oranların varyansı (örneğin isabet oranı, hata oranı, hassasiyet, TPR, ..., bundan sonra kullanacağım ve bir testte gözlenen değer için kullanacağım ) tüm kitapları dolduran bir konudur. .ppp^
- Fleiss: Oranlar ve Oranlar İçin İstatistiksel Yöntemler
- Forthofer ve Lee: Biyoistatistik güzel bir giriş yaptı.
Şimdi, ve dolayısıyla:p^=kn
σ2(p^)=p(1−p)n
Bu, sınıflandırıcı performansını ölçme konusundaki belirsizliğin yalnızca test edilen modelin gerçek performansına ve test örneklerinin sayısına bağlı olduğu anlamına gelir.
Çapraz doğrulama işleminde,
k "vekil" modellerinin genellikle tüm örneklerden oluşturduğunuz "gerçek" modelle aynı gerçek performansa sahip olduğunu. (Bu varsayımın bozulması iyi bilinen karamsar önyargıdır).
k "vekil" modellerinin aynı gerçek performansa sahip olması (eşdeğerdir, sabit tahminler vardır), bu nedenle k testlerinin sonuçlarını toplamanıza izin verilir.
Elbette o zaman sadece bir cv yinelemesinin k "vekil" modelleri havuzlanabilir, ancak k-kat cv yinelemelerinin ki modelleri.
Neden yinele?
Yinelemelerin size söylediği en önemli şey, model (tahmin) dengesizliğidir, yani aynı örnek için farklı modellerin tahminlerinin değişmesidir.
Tahminin doğru olup olmadığına bakılmaksızın, belirli bir test senaryosunun tahminindeki değişkenlik olarak kararsızlığı doğrudan veya farklı cv yinelemeler için varyansı olarak biraz daha dolaylı olarak rapor edebilirsiniz .p^
Ve evet, bu önemli bir bilgidir.
Şimdi, eğer modelleriniz tamamen kararlıysa, tüm veya belirli bir örnek için tam olarak aynı tahminde bulunacaktır. Başka bir deyişle, tüm tekrarlamalar aynı sonuca sahip olacaktır. Tahminin varyansı yineleme tarafından azaltılmayacaktır ( ). Bu durumda, yukarıdaki 2 varsayımı yerine getirilir ve yalnızca ye tabi tutulur ve n, tüm test edilen toplam numune sayısıdır. cv'nin kıvrımları.
Bu durumda, yinelemelere gerek yoktur (istikrarı göstermek dışında).nbootstrapk⋅niter. cvn−1≈nσ2(p^)=p(1−p)n
Daha sonra gerçek performans için güven aralıklarını oluşturabilirsiniz başarıları hiçbir gözlenen gelen içinde testlerinin. Bu yüzden, kesinlikle, ve bildirildiğinde varyans belirsizliğini bildirmeye gerek yoktur . Ancak, benim alanımda, pek çok insan bunun farkında değil ya da belirsizliğin ne kadar büyük olduğuna dair belirsizliğin ne kadar büyük olduğu konusunda sezgisel bir tutuma sahip. Bu yüzden yine de bildirmenizi tavsiye ederim.pknp^n
Model kararsızlığını gözlemlerseniz, havuzlanmış ortalama, gerçek performans için daha iyi bir tahmindir. Yinelemeler arasındaki varyasyon önemli bir bilgidir ve bunu tüm yinelemelere göre gerçek performans ortalama performansına sahip bir boyut nolu test için beklenen minimum varyansla karşılaştırabilirsiniz.