Yanıtlar:
Sapma ve yanlılığa (her zamanki gibi) gelir. CV daha az önyargılı olma eğilimindedir, ancak K-katlı CV'nin oldukça büyük farklılıkları vardır. Öte yandan, ön yükleme, varyansı büyük ölçüde azaltma eğilimindedir, ancak daha fazla taraflı sonuçlar verir (karamsar olma eğilimindedirler). Diğer önyükleme yöntemleri, önyükleme önyargısı (632 ve 632+ kuralları gibi) ile başa çıkmak için uyarlanmıştır.
Diğer iki yaklaşım, verinin pek çok rasgele bölünmesini ("mini eğitim ve test benzerleri gibi") yapan "Monte Carlo CV" aka "grup dışı bırakma CV" olacaktır. Varyans bu yöntem için çok düşüktür ve tutma alanındaki veri yüzdesi düşükse önyargı çok kötü değildir. Ayrıca, tekrarlanan CV birkaç kez K-kat yapar ve sonuçları normal K-katla benzer şekilde ortalaması alır. Ben buna kısmi olarak katlanıyorum çünkü düşük önyargıyı koruyor ve varyansı azaltıyor.
Büyük örneklem büyüklükleri için, varyans sorunları daha az önemli hale gelir ve hesaplama kısmı bir sorun daha fazladır. Hala küçük ve büyük örneklem büyüklükleri için tekrarlanan CV'ye bağlı kaldım.
Bazı ilgili araştırmalar aşağıdadır (esp Kim ve Molinaro).
Bengio, Y., ve Grandvalet, Y. (2005). K-kat çapraz-doğrulamanın varyansını tahmin etmede önyargı. Karmaşık veri problemleri için istatistiksel modelleme ve analiz, 75–95.
Braga-Neto, UM (2004). Küçük örneklemli mikroarray sınıflandırması için çapraz doğrulama geçerli midir Bioinformatics, 20 (3), 374-380. doi: 10,1093 / biyoinformatik / btg419
Efron, B. (1983). Bir tahmin kuralının hata oranını tahmin etme: Çapraz doğrulamadaki gelişme. Amerikan İstatistik Kurumu Dergisi, 316–331.
Efron, B. ve Tibshirani, R. (1997). Çapraz doğrulama konusunda iyileştirmeler:. 632+ önyükleme yöntemi. Amerikan İstatistik Kurumu Dergisi, 548-560.
Furlanello, C., Merler, S., Chemini, C. ve Rizzoli, A. (1997). Bootstrap 632+ kuralının ekolojik verilere uygulanması. WIRN 97.
Jiang, W. ve Simon, R. (2007). Mikrodizi sınıflandırmada öngörü hatasını tahmin etmek için önyükleme yöntemlerinin ve düzeltilmiş önyükleme yaklaşımının karşılaştırılması. Tıpta İstatistik, 26 (29), 5320–5334.
Jonathan, P., Krzanowski, W. ve McCarthy, W. (2000). Çok değişkenli tahminlerde performansı değerlendirmek için çapraz doğrulama kullanımı. İstatistik ve Bilişim, 10 (3), 209–229.
Kim, J.-H. (2009). Sınıflandırma hata oranını tahmin etme: Tekrarlanan çapraz doğrulama, tekrarlanan tutma ve önyükleme. Hesaplamalı İstatistik ve Veri Analizi, 53 (11), 3735-3745. doi: 10.1016 / j.csda.2009.04.009
Kohavi, R. (1995). Doğruluk kestirimi ve model seçimi için çapraz doğrulama ve önyükleme çalışması. Uluslararası Yapay Zeka Konferansı, 14, 1137-1145.
Martin, J. ve Hirschberg, D. (1996). Sınıflandırma hata oranları için küçük örnek istatistikler I: Hata oranı ölçümleri.
Molinaro, AM (2005). Tahmin hatası tahmini: yeniden örnekleme yöntemlerinin karşılaştırılması. Biyoinformatik, 21 (15), 3301-3307. doi: 10,1093 / biyoinformatik / bti499
Sauerbrei, W. ve Schumacher 1, M. (2000). Veriye Dayalı Regresyon Modellerinin Karmaşıklığını Değerlendirmek için Önyükleme ve Çapraz Doğrulama. Tıbbi Veri Analizi, 26-28.
Tibshirani, RJ ve Tibshirani, R. (2009). Çapraz doğrulama işleminde minimum hata oranı için önyargı düzeltmesi. Arxiv ön baskı arXiv: 0908.2904.
@ Frank Harrell bu soru üzerine çok çalışma yaptı. Belirli referansları bilmiyorum.
Ancak iki tekniği farklı amaçlar için görmeyi tercih ederim. Çapraz doğrulama, modele karar verirken iyi bir araçtır - gerçekte fazla uyurken iyi bir modeliniz olduğunu düşünmenize kendinizi kandırmamak için size yardımcı olur.
Modeliniz sabit olduğunda, bootstrap kullanmak daha mantıklıdır (en azından bana).
Http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html adresinde R kullanarak bu kavramlara giriş (artı permütasyon testleri) vardır
Anladığım kadarıyla önyükleme işleminin modelinizdeki belirsizliği ölçmek için bir yöntem olduğu, model seçimi ve tahmin doğruluğunu ölçmek için çapraz onaylama kullanıldığı yönünde.
Aradaki fark, jackknife gibi çapraz doğrulama işleminin tüm veri noktalarınızı kullanmasıdır; oysa verilerinizi rastgele yeniden örnekleyen ön yükleme işleminin tüm noktalara ulaşamayacağına dikkat edin.
İstediğiniz kadar önyükleme yapabilirsiniz, bu daha küçük örneklerde yardımcı olması gereken daha büyük bir örnek anlamına gelir.
Çapraz doğrulama veya jackknife ortalaması, örnek ortala aynı olacaktır, oysa önyükleme ortağı, örnek ortalamanın aynı olması muhtemel değildir.
Çapraz doğrulama ve jackknife ağırlığı tüm örneklerin aynı olduğunu gösterdiğinden, önyüklemeden daha küçük (muhtemelen yanlış olsa da) bir güven aralığı olmalıdır.
Bunlar iki örnekleme tekniğidir:
Çapraz doğrulamada, verileri rastgele bir şekilde kfold'a bölüyoruz ve fazla uydurma konusunda yardımcı oluyoruz, ancak bu yaklaşımın dezavantajı var. Rastgele örnekler kullandığından bazı örnekler büyük hatalar üretir. CV'yi en aza indirmek için teknikleri vardır ancak sınıflandırma problemlerinde çok güçlü değildir. Bootstrap bu konuda yardımcı olur, kendi örnek kontrolünden hatayı düzeltir.
https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf