Çapraz doğrulama, verilerdeki rasgele (ve belki de belirleyici değilse öğrenme algoritmasında) nedeniyle performans metriğinizin varyansını tahmin etmek için bir araçtır.
Bu nedenle, yalnızca bir bölme kullanırsanız, örneğin% 80 tren +% 20 test ve performans metriğinizi bu tek deneyden bildirirseniz, denemenizi tam olarak aynı parametreleri kullanarak yeniden oluşturmaya çalışan herkesin farklı bir performans rakamı (bazen çok farklı). Tabii ki aynı kesin ayrımı sağlamadığınız sürece, anlamsızdır.
Sorunuza geri dönmek için, performansınızı bildirmek için kesinlikle CV kullanmanız gerektiğini düşünüyorum (örneğin 10 kat CV yapın ve performans metriğinin ortalama ve standart sapmasını rapor edin). Şimdi algoritmanızı ayarlamak için eğitim setinden örneklenmiş çok daha küçük bir doğrulama seti kullanabilirsiniz (test setine dahil olmadığından emin olun).
Küçük bir küme kullanarak en iyi hiperparametreleri bulamayacağınızdan korkuyorsanız, algoritmanızı muhtemelen veri kümesinin özelliklerine göre aşırı uyarlıyorsunuz demektir. Tüm kıvrımlar arasında makul bir performans sağlayan küçük bir örnek kullanarak bir yapılandırma bulamazsanız , algoritma muhtemelen pratikte çok yararlı değildir.
Ayrıca, bazı algoritmaların çok yavaş olduğunu / bazı yapılandırmalarda iyi ölçeklenmediğini unutmayın. Bu aynı zamanda pratik model seçiminin bir parçasıdır.
SVM'lerden bahsettiğinizden, elbette, ızgara aramasıyla doğrusal olmayan çekirdekler için parametreler bulmaya çalışırken çoğu uygulama yavaş olacaktır. Izgara aramanın üstel karmaşıklığı vardır, bu yüzden çok az parametre ile kullanın. Ayrıca, çoğu kütüphanenin mantıklı varsayılan parametreler sağladığını (veya en azından bir parametre ayarladığınızı ve diğerlerini ayarlamak için sezgisel yöntemler olduğunu) unutmayın.