Çapraz doğrulama yanlış kullanımı (en iyi hiperparametre değeri için raporlama performansı)

Son zamanlarda , belirli bir veri setinde bir k-NN sınıflandırıcısının kullanılmasını öneren bir makale ile karşılaştım . Yazarlar, farklı k değerleri için k-kat çapraz doğrulama yapmak ve mevcut en iyi hiperparametre konfigürasyonunun çapraz doğrulama sonuçlarını bildirmek için mevcut tüm veri örneklerini kullandı .

Bildiğim kadarıyla, bu sonuç önyargılı ve hiperparametre optimizasyonu gerçekleştirmek için kullanılmayan numuneler üzerinde bir doğruluk tahmini elde etmek için ayrı bir test setini tutmalıydılar.

Haklı mıyım Bu çapraz onaylamanın kötüye kullanımını açıklayan bazı referanslar (tercihen araştırma makaleleri) verebilir misiniz?

— Daniel López
kaynak

Ayrı bir test seti yerine, iç içe çapraz doğrulama denilen birinin kullanabileceğini unutmayın . Bu terimi bu sitede ararsanız, birçok tartışma bulacaksınız. Kabul edilen cevapta belirtilen ikinci makalenin yazarlarından biri olan @DikranMarsupial'ın cevaplarına özellikle bakınız .

— amip diyor Reinstate Monica

Evet, sadece k katlama CV sonuçlarını bildirme ile ilgili sorunlar var. İnsanları doğru yöne yönlendirmek için örneğin aşağıdaki üç yayını, amacınız için (elbette daha fazlası da olsa) kullanabilirsiniz:

Ben şahsen bunlardan hoşlanıyorum çünkü meseleleri Math'dan ziyade sade İngilizce olarak anlatmaya çalışıyorlar.

— geekoverdose
kaynak

Daha doğrusu, sorun çapraz doğrulama sonuçlarını rapor etmek değil, seçim / optimizasyon sürecinin bir parçası olan performans tahminlerini bildirmektir.

— cbeleites, Monica

Ayrıca, eğer buradaki sorun belirli bir veri setinde eğitim almış belirli bir modelin performansı ise, Bengio ve Grandvalet belgesinin biraz daha az ilgili olduğunu da unutmayın - aynı popülasyondaki (aynı ihtiyaçtan yeni veri setlerine uygulanan aynı eğitim algoritması için performansı tartışırlar) Aynı kaynaktan örneklenen aynı büyüklükteki farklı veri kümeleri arasındaki varyansı dahil etmek - bu, belirli bir veri kümesi üzerinde eğitilmiş bir modelin tahmin performansından bahsediyorsak sorun değil).

— cbeleites, Monica

@cbeleites Doğru tespit edildi: cevabın ilk taslağımda yanlışlıkla ikinci referans yerine üçüncü referansı seçtim, ancak daha sonra daha önce kabul edilmiş cevaptan hiçbir bilgiyi kaldırmak istemedim - bu yüzden ikinci adımı ekledim. arasında (cevap versiyonlarına bakınız). Bununla birlikte, sorunun esasen bildirilen hatanın etrafında olduğunu düşünüyorum ve bu yazılar IMHO’nun bu konuda CV’de yanlış yapabileceği bazı şeylere işaret ediyor.

— geekoverdose