OP bu soruya bir ödül getirdiği için, biraz dikkat çekmeli ve dolayısıyla OP'ye doğrudan cevap vermese bile, bazı genel fikirleri tartışmak için doğru yer.
İlk isimler:
a) çapraz doğrulama , tren setinden farklı bir test seti kullanan tüm tahmin / ölçü teknikleri için genel addır. Eşanlamlı: örnek dışı veya örnek dışı tahminler. Antonym: Örneklemde tahmin.
Örnek içi tahmin, model kalitesini tahmin etmek için eğitim seti hakkında bazı bilgiler kullanan tekniklerdir (mutlaka hata değil). Model çok önyargılıysa - yani - veriler hakkında güçlü varsayımlarda bulunursa, bu çok yaygındır. Doğrusal modellerde (yüksek önyargılı bir model), soru örneğinde olduğu gibi, biri model karenin ölçüsü olarak R-kare, AIC, BIC, sapma kullanır - bunların tümü örneklem tahmin edicilerdir. SVM'de, örneğin, destek vektöründeki veri sayısı ile veri sayısına oranı, model hatalarının örnek bir tahminidir.
Birçok çapraz doğrulama tekniği vardır:
b) Bekletme yukarıdaki yöntemdir # 1. Seti bir antrenmana ve bir teste bölün. Eğitim ve test setinin göreceli boyutları hakkında uzun bir tartışma ve uygulama geçmişi vardır.
c) k - kat - yukarıdaki yöntem # 2. Oldukça standart.
d) Biri bırakma - yukarıdaki yöntem # 3.
e) önyükleme : setinizde N veri varsa, rastgele setten N örnekleri DEĞİŞTİR'i seçin ve eğitim olarak kullanın. Orijinal setteki hiçbir zaman örnek olmayan veriler test seti olarak kullanılır. Hem test seti için hata (örnek dışı) hem de tren seti için hata (örnek içinde) kullanan model hatasının son tahminini hesaplamanın farklı yolları vardır. Bkz., .632 önyükleme Bir .632+ formülü olduğunu düşünüyorum - bunlar hem örnek dışı hem de örnek içi hataları kullanarak modelin gerçek hatasını tahmin eden formüllerdir.
f) Yukarıdaki yöntemin seçimine dikgen tekrarlama konusudur. Dışarıda bırakma dışında, yukarıdaki tüm yöntemler herhangi bir sayıda tekrar edilebilir. Aslında bir REPEATED hold-out veya REPEATED k -katlı hakkında konuşabilirsiniz . Adil olmak gerekirse, hemen hemen her zaman önyükleme yöntemi yinelenen bir şekilde kullanılır.
Sonraki soru, hangi yöntemin "daha iyi" olduğu. Sorun, "daha iyi" nin anlamıdır.
1) İlk cevap, bu yöntemlerin her birinin model hatasının tahmininde önyargılı olup olmadığıdır (sonsuz miktarda gelecekteki veri için).
2) İkinci alternatif, bu yöntemlerin her birinin gerçek model hatasına ne kadar hızlı veya ne kadar yakınsadığıdır (önyargılı değilse). Bunun hala bir araştırma konusu olduğuna inanıyorum. Bu iki bildiriyi işaretleyeyim (ödeme duvarının arkasında) ama özet bize neyi başarmaya çalıştıklarını anlamamızı sağlıyor. Ayrıca, k -fold'u kendi kendine "çapraz doğrulama" olarak adlandırmanın çok yaygın olduğuna dikkat edin .
Bu konularda muhtemelen başka pek çok makale vardır. Bunlar sadece bazı örnekler.
3) "Daha iyi" nin bir başka yönü ise: Yukarıdaki tekniklerden birini kullanarak model hatasının belirli bir ölçüsü verildiğinde, doğru model hatasının yakın olmasının ne kadar kesin olacağına dair.
Genel olarak, bu durumda , hatanın birçok ölçümünü almak ve bir güven aralığı (veya bir Bayesian yaklaşımını izlerseniz güvenilir bir aralık) hesaplamak istersiniz. Bu durumda mesele, bir dizi hata önleminin varyansına ne kadar güvenebileceğinizdir. Bildirim izni bir arada aşımı hariç, her şeyden teknikler size (birçok farklı ölçümler olduğunu k bir tedbirleri k kat, n bir tedbirleri n uzatmak -repeated) ve böylece varyansını (veya standart sapması ölçebilir bu küme ve hata ölçüsü için bir güven aralığı hesaplayın.
Burada işler biraz karmaşıklaşıyor. Gönderen Ben kağıttan anladığım varyansının Hayır tarafsız tahmincisi k çapraz doğrulama kat , tek bir elde varyansı (değil ödeme duvarının arkasında) güvenemiyorum k kat - Bir iyi bir güven aralığı oluşturmak olamaz yani k - katlanır. Ayrıca makaleden anladığım kadarıyla Denetimli Sınıflandırma Öğrenme Algoritmalarını Karşılaştırma için Yaklaşık İstatistiksel Testler (ödeme duvarı arkasında değil), tekrarlanan ölçümleri kullanan teknikler (tekrarlanan kkatlı, tekrarlanan bekletme - önyükleme hakkında emin değilsiniz) hata ölçüsünün gerçek varyansını tahmin edecektir (bunu görmek biraz kolaydır) - ölçüyü çok büyük bir sayıyı tekrarlarsanız, sonlu bir kümeden örnekleme yaptığınız için zaman zaman, aynı değerler tekrar eder, bu da ortalamayı aynı tutar, ancak farkı azaltır. Böylece tekrarlanan ölçüm teknikleri güven aralığı konusunda çok iyimser olacaktır.
Bu son makale 5 defa tekrarladı - 5 kez 2 özgeçmiş diyor - ki bu da birçok önlemin (10) iyi bir dengesi olarak - çok fazla tekrarlama yapmıyor.
DÜZENLE:
Elbette, bu soruların bazılarına Doğrulanmış Çapraz'da büyük cevaplar var (bazen kendi aralarında anlaşmamalarına rağmen). İşte bazıları:
Sınıflandırma performansını değerlendirmek için çapraz onaylama mı yoksa önyükleme mi?
Tahmin hatasını tahmin etmek için çapraz doğrulama ve önyükleme arasındaki farklar
Sınıflandırma performansını değerlendirmek için çapraz onaylama mı yoksa önyükleme mi?
Doğrulama ve model seçimi için önyükleme işlemini anlama
Genel olarak, çapraz doğrulama etiketi buradaki arkadaşınızdır.
Peki en iyi çözüm nedir? Bilmiyorum. Çok sıkı olmam gerektiğinde, özellikle bir yayında bir tekniğin diğerinden daha iyi olduğundan emin olmam gerektiğinde 5 × 2 CV kullanıyorum. Ve herhangi bir sapma veya standart sapma ölçümü yapmayı planlamıyorsam ya da zaman kısıtlamaları varsa - bir tutma bölümünde sadece bir model öğrenme var .