Ne tercih ettiğiniz değişken / özellik seçimi çok daha fazla değişken olduğunda öğrenme kümesindeki gözlemler daha / ikili sınıflandırma için özellik? Buradaki amaç, sınıflandırma hatasını en iyi azaltan özellik seçim prosedürünün ne olduğunu tartışmaktır.
Biz yapabilirsiniz gösterimler düzeltmek tutarlılık için: için , let olmak gözlemlerin öğrenme seti grubundan . Yani öğrenme setinin büyüklüğüdür. Biz set özelliklerin sayısı (özellik alanı boyutunu yani) olmak. Let göstermektedirler koordinatı inci .
Lütfen detayları veremiyorsanız tam referansları verin.
EDIT (sürekli güncellenen): Aşağıdaki cevaplarda önerilen prosedürler
- Açgözlü ileri seçim İkili sınıflandırma için değişken seçim prosedürü
- Geriye doğru eliminasyon İkili sınıflandırma için değişken seçim prosedürü
- Metropolis tarama / MCMC İkili sınıflandırma için değişken seçim prosedürü
- cezalandırılmış lojistik regresyon İkili sınıflandırma için değişken seçim prosedürü
Bu topluluk wiki olduğu için daha fazla tartışma ve güncelleme olabilir.
Bir sözüm var: belirli bir anlamda, değişkenlerin sıralanmasına izin vermeyen ancak değişkenlerin seçilmesine izin vermeyen bir prosedür uygularsınız (özellik sayısının nasıl seçileceği konusunda oldukça kaçınılmazsınız, sanırım hepiniz çapraz doğrulamayı mı kullanıyorsunuz?) bu yönde cevaplar? (bu topluluk wiki olduğu için, değişken sayısını nasıl seçeceğiniz hakkında bilgi eklemek için cevap yazmanıza gerek yok mu? Burada bu yönde bir soru açıkladım: Doğrulamayı çok yüksek boyutta çaprazlama (sayısını seçmek için değişkenlerin çok yüksek sınıflandırmada kullanılması) )