Şahsen, özellik seçimini ikiye bölmeyi seviyorum:
- denetimsiz özellik seçimi
- denetimli özellik seçimi
Denetimsiz özellik seçimi , en az yedekli özellik aralığını seçtiğiniz (veya az yedekli özellikler oluşturduğunuz) kümeleme veya PCA gibi şeylerdir. Denetimli özellik seçimi , en öngörücü güce sahip özellikleri seçtiğiniz Kement gibi şeylerdir.
Şahsen genellikle denetlenen özellik seçimi dediğim şeyi tercih ederim. Bu nedenle, doğrusal bir regresyon kullanırken, Kemente dayalı özellikleri seçerdim. Sinir ağlarında seyrekliği indüklemek için benzer yöntemler mevcuttur.
Ama aslında, bunu çekirdekler kullanarak bir yöntemde nasıl yapacağımı görmüyorum, bu yüzden muhtemelen denetimsiz özellik seçimi dediğim şeyi kullanarak daha iyi durumdasınız.
EDIT: Düzenleme hakkında da sordunuz. Düzenlemeyi çoğunlukla yardımcı olarak görüyorum çünkü sonlu örneklerle çalışıyoruz ve bu nedenle eğitim ve test dağıtımı her zaman biraz farklı olacak ve modelinizin fazla uymamasını istiyorsunuz. (Gerçekten çok fazla varsa) özellikleri seçmekten kaçınma ihtiyacını ortadan kaldırır emin değilim. Özelliklerin seçilmesinin (veya daha küçük bir alt kümesinin oluşturulması), sahip olduğunuz özellikleri daha sağlam hale getirmeye ve modelin sahte korelasyonlardan öğrenmekten kaçınmasına yardımcı olduğunu düşünüyorum. Yani, düzenlileştirme yardımcı olur, ancak bunun tam bir alternatif olduğundan emin değildir. Ama bunun hakkında yeterince düşünmedim.