Özellik seçimi yalnızca eğitim verileri (veya tüm veriler) üzerinde mi yapılmalıdır? Guyon (2003) ve Singhi ve Liu (2006) gibi bazı tartışmalar ve makalelerden geçtim , ancak yine de doğru cevaptan emin değilim.
Deneme kurulumum şu şekildedir:
- Veri seti: 50 sağlıklı kontrol ve 50 hastalıklı hasta (hastalık tahmini ile ilgili olabilecek yaklaşık 200 özellik).
- Görev, mevcut özelliklere dayanarak hastalığı teşhis etmektir.
Yaptığım şey
- Tüm veri kümesini alın ve özellik seçimini (FS) yapın. Daha ileri işlemler için yalnızca seçilen özellikleri saklıyorum
- Test etmek ve trene bölün, tren verilerini ve seçilen özellikleri kullanarak sınıflandırıcıyı eğitin. Ardından, verileri test etmek için sınıflandırıcı uygulayın (yine yalnızca seçilen özellikleri kullanarak). Bir defalık bırakma doğrulaması kullanılır.
- sınıflandırma doğruluğu elde etme
- Ortalama: 1) -3) N kez tekrarlayın. (100).
Tüm veri kümesinde FS yapmanın bazı önyargılara yol açabileceğini kabul ediyorum, ama benim düşüncem ortalama alma sırasında "ortalamanın" olduğu (adım 4). Bu doğru mu? (Doğruluk sapması )
1 Guyon, I. (2003) "Değişken ve Özellik Seçime Giriş", Makine Öğrenimi Araştırmaları Dergisi, Cilt. 1157-1182
2 Singhi, SK ve Liu, H. (2006) "Sınıflandırma Öğrenimi için Özellik Altkümesi Seçim Yanlılığı", Devam ICML '06 23. Uluslararası Makine Öğrenimi Konferansı Bildirileri, s. 849-856