Makine öğrenimi araştırmalarında doğrulama hakkında özel bir sorum var.
Bildiğimiz gibi, makine öğrenme rejimi araştırmacılardan modellerini eğitim verileri üzerinde eğitmelerini, doğrulama seti ile aday modeller arasından seçim yapmalarını ve test setinde doğruluğunu bildirmelerini ister. Çok titiz bir çalışmada, test seti sadece bir kez kullanılabilir. Bununla birlikte, asla araştırma senaryosu olamaz, çünkü bir makaleyi yayınlayabilmemiz (hatta gönderebilmemiz) için test doğruluğu en son teknoloji sonuçlardan daha iyi olana kadar performansımızı iyileştirmemiz gerekir.
Şimdi sorun geliyor. Diyelim ki% 50 en son teknoloji ürünü ve modelim genellikle ortalama 50 - 51 doğruluk elde edebiliyor.
Bununla birlikte, en iyi doğrulama doğruluğum (% 52) çok düşük bir test doğruluğu, örneğin% 49 verir. Daha sonra, umudum olmadığını düşündüğüm doğrulama akreditasyonunu daha da geliştiremezsem, genel performansım olarak% 49'u rapor etmeliyim. Bu gerçekten problemi incelememi engelliyor, ama akranlarım için önemli değil, çünkü% 52 oranında bir acc görmüyorlar, ki bu bir aykırı olduğunu düşünüyorum.
Peki, insanlar genellikle araştırmalarında ne yapar?
ps k-katlama validasyonu hiçbir işe yaramıyor çünkü aynı durum yine de olabilir.