Son zamanlarda bu sitede (@Aniko, @Dikran Marsupial, @Erik) ve başka yerlerde çapraz onaylama ile ortaya çıkan aşırı teçhizat sorunu hakkında çok fazla şey okudum - (Smialowski ve diğerleri 2010 Bioinformatics, Hastie, istatistiksel öğrenmenin unsurları). Öneri, çapraz doğrulama (veya önyükleme gibi başka bir model tahmin metodu) kullanılarak yapılan model performans tahmininin dışında gerçekleştirilen herhangi bir denetimli özellik seçiminin (sınıf etiketleriyle korelasyon kullanarak) aşırı yüklenmeyle sonuçlanabileceğidir.
Bu benim için mantıklı görünmüyor - elbette bir özellik seti seçip modelinizi yalnızca çapraz onaylamayı kullanarak seçili özellikleri kullanarak değerlendirirseniz , o zaman bu özellikler üzerinde genelleştirilmiş model performansının tarafsız bir tahminini elde edersiniz (bu, çalışılan numunenin temsili olduğunu varsayar) nüfusun)?
Elbette bu prosedürle optimal bir özellik seti talep edilemez, ancak görünmeyen verilerde seçilen özelliklerin performansını geçerli olarak rapor edebilir mi?
Veri setinin tamamına göre özellik seçmenin test ve tren setleri arasında bazı veri sızıntılarına neden olabileceğini kabul ediyorum. Ancak, ilk seçimden sonra özellik seti statikse ve başka bir ayar yapılmıyorsa, çapraz onaylı performans ölçümlerini rapor etmek kesinlikle geçerli midir?
Benim durumumda 56 özellik ve 259 kasa var ve #cases> #features. Özellikler sensör verilerinden türetilmiştir.
Sorumu türev görünüyor, ancak bu netleştirmek için önemli bir nokta gibi görünüyor, özür dilerim.
Düzenleme: Yukarıda ayrıntılı olarak verilen veri setinde çapraz doğrulama dahilinde özellik seçimi yapıldığında (aşağıdaki cevaplar sayesinde), bu veri setinde çapraz doğrulama öncesi özelliklerin seçilmesinin önemliönyargı. Bu önyargı / aşırı uyum, 2 sınıflı formülasyona kıyasla 3 sınıflı bir formülasyon için bunu yaparken en iyisiydi. Özellik seçimi için kademeli regresyon kullandığım gerçeğinin bu fazla uydurma arttırdığını düşünüyorum; Karşılaştırma amacıyla, farklı ancak ilgili bir veri setinde, daha önce CV içinde özellik seçimiyle elde ettiğim sonuçlara karşı çapraz doğrulamadan önce gerçekleştirilen sıralı ileri özellik seçim rutini karşılaştırdım. Her iki yöntem arasındaki sonuçlar önemli ölçüde farklı değildi. Bu, kademeli regresyonun sıralı FS'den daha fazla uyuma yatkın olduğu veya bu veri setinin bir tutam olabileceği anlamına gelebilir.