Prensip olarak:
Tahminlerinizi tüm veri kümesinde eğitilmiş tek bir model kullanarak yapın (bu nedenle yalnızca bir dizi özellik vardır). Çapraz doğrulama sadece veri setinin tamamında eğitilmiş olan tek modelin öngörücü performansını tahmin etmek için kullanılır. Çapraz doğrulama kullanımında VITAL, her katlamada birincil modele uymak için kullanılan prosedürün tamamını yinelemeniz gerekir, aksi takdirde performansta kayda değer bir iyimser önyargıyla karşılaşabilirsiniz.
Bunun neden olduğunu görmek için, vakaların ve özelliklerin tamamen rastgele olduğu sadece 100 durumda olan 1000 ikili özelliğe sahip ikili bir sınıflandırma problemini göz önünde bulundurun, bu nedenle özellikler ve durumlar arasında istatistiksel bir ilişki yoktur. Veri setinin tamamına temel bir model yerleştirirsek, eğitim setinde vakalardan daha fazla özellik olduğundan daima sıfır hata elde edebiliriz. "Bilgilendirici" özelliklerin bir alt kümesini bile bulabiliriz (bu tesadüflerle ilişkilendirilmiş olur). O zaman sadece bu özellikleri kullanarak çapraz doğrulama yaparsak, rastgele tahminden daha iyi bir performans tahmini alırız. Bunun nedeni, çapraz doğrulama prosedürünün her bir katında, özellikler seçildikçe test edilmek için kullanılan tutulan davalar hakkında bazı bilgiler bulunmasıdır; yapılanlar da dahil olmak üzere. Tabii ki gerçek hata oranı 0,5 olacaktır.
Uygun prosedürü uygularsak ve her katmanda özellik seçimi yaparsak, o durumda kullanılan özelliklerin seçiminde, uzun süredir devam eden durumlar hakkında hiçbir bilgi yoktur. Doğru prosedürü kullanırsanız, bu durumda, yaklaşık 0.5 hata oranı alırsınız (veri setinin farklı gerçekleşmeleri için biraz değişse de).
Okumak için iyi makaleler:
Christophe Ambroise, Geoffrey J. McLachlan, "Mikroarray gen ifade verisine dayanarak gen çıkarımında seçim yanlılığı", PNAS http://www.pnas.org/content/99/10/6562.abstract
OP ile son derece alakalı olan ve
Gavin C. Cawley, Nicola LC Talbot, "Model Seçiminde Aşırı Uygunluk ve Performans Değerlendirmede Sonraki Seçim Yanılgısı", JMLR 11 (Tem): 2079−2107, 2010 http://jmlr.csail.mit.edu/papers /v11/cawley10a.html
bu aynı modelin model seçiminde kolayca görülebileceğini göstermektedir (örneğin, CV prosedürünün her yinelemesinde tekrarlanması gereken bir SVM'nin hiper parametrelerinin ayarlanması).
Uygulamada:
Torbalama kullanmanızı ve performans tahmini için torba dışı hatasını kullanmanızı öneririm. Pek çok özelliği kullanarak bir komite modeli alacaksınız, ancak bu aslında iyi bir şey. Yalnızca tek bir model kullanıyorsanız, özellik seçim kriterine fazla uymamanız ve daha fazla özellik kullanan bir modelden daha kötü tahminler veren bir model ile sonuçlanmanız olasıdır.
Alan Millers regresyonda alt küme seçimi kitabı (Chapman ve Hall istatistiklerinde ve uygulamalı olasılıkta, monografi, cilt 95), iyi bir tavsiye veriyor (sayfa 221), tahmin performansı en önemli şeyse, o zaman herhangi bir özellik seçimi yapmama konusunda , bunun yerine sadece ridge regresyonunu kullanın. Ve bu alt küme seçiminde bir kitapta var !!! ;Ö)