Sınıflandırma görevleri için özellik seçimi neden önemlidir?


11

Özellik seçimini öğreniyorum. Model oluşturmak için neden önemli ve yararlı olacağını görebiliyorum. Ancak denetimli öğrenme (sınıflandırma) görevlerine odaklanalım. Sınıflandırma görevleri için özellik seçimi neden önemlidir?

Özellik seçimi ve denetimli öğrenme için kullanımı hakkında yazılmış çok sayıda literatür görüyorum, ancak bu beni şaşırtıyor. Özellik seçimi, atmak istediğiniz özellikleri tanımlamakla ilgilidir. Sezgisel olarak, bazı özellikleri atmak kendini yenilgiye uğratıyor gibi görünüyor: bilgiyi atıyor. Bilgi atmanın faydası yok gibi görünüyor.

Ve bazı özellikleri kaldırmak yardımcı olsa bile, bazı özellikleri atıp geri kalanını denetimli bir öğrenme algoritmasına beslesek, denetimli öğrenme algoritmasının yönetilmesine izin vermek yerine neden bunu kendimiz yapmalıyız? Bazı özellikler yardımcı olmazsa, iyi denetimli öğrenme algoritması bunu örtük olarak keşfetmemeli ve bu özelliği kullanmayan bir model öğrenmemelidir?

Öylesine sezgisel olarak, özellik seçiminin asla yardımcı olmayan ve bazen zarar verebilecek anlamsız bir egzersiz olmasını beklerdim. Ancak, bu kadar yaygın bir şekilde kullanıldığı ve yazıldığı gerçeği, sezgilerimin hatalı olduğundan şüphelenmemi sağlıyor. Denetimli öğrenme yaparken özellik seçiminin neden yararlı ve önemli olduğu herhangi bir sezgi sağlayabilir mi? Makine öğreniminin performansını neden geliştiriyor? Kullandığım sınıflandırıcıya bağlı mı?

Yanıtlar:


10

Sezginiz oldukça doğru. Çoğu durumda, özellik seçimi üç yanlış anlamadan kaynaklanan basit bir açıklama arzusunu temsil eder:

  1. Analist, "seçilen" özelliklerin kümesinin oldukça kararsız, yani sağlam olmadığını ve başka bir veri kümesinde yapıldığında seçim sürecinin oldukça farklı bir özellik kümesi ile sonuçlanacağını fark etmez. Veriler genellikle "doğru" özellikleri seçmek için gereken bilgi içeriğine sahip değildir. Eş doğrusallık varsa bu sorun daha da kötüleşir.
  2. Kontrolsüz deneylerde yollar, mekanizmalar ve süreçler karmaşıktır; insan davranışı ve doğası karmaşıktır ve cimri değildir.
  3. Öngörülen doğruluk, verilerin size hem önemli özelliklerin ne olduğunu, hem de "önemli" özellikler için ile ilişkilerin ne olduğunu söylemesini sağlayarak zarar görür . Bazı değişkenlerin hepsini kullanmaktan ve diğerleri için hiçbirini kullanmaktan (yani, büzülme / cezalandırma kullanmaktan) "her değişkenten biraz kullanmak" daha iyidir.Y

Bunu incelemenin bazı yolları:

  1. Kement , elastik ağ ve standart bir kuadratik ceza (sırt regresyonu) arasındaki tahmini doğrulukla ilgili daha fazla karşılaştırma yapın
  2. Rastgele bir ormandan bootstrap değişken önem ölçümleri ve kararlılıklarını kontrol edin
  3. Potansiyel özellikler sıralamasında, örneğin kısmi ilişkilendirme testleri sıralamasında (veya tek değişkenli Spearman veya Somers ' ) önyükleme güven aralıklarını hesaplayın ve bu güven aralıklarının son derece geniş olduğunu görün , doğrudan görevin zorluğu konusunda sizi bilgilendirir. Http://biostat.mc.vanderbilt.edu/rms adresinden bağlanan ders notlarımda OLS kullanan öngörücülerin önyükleme sıralaması örneği var. ρ D x yχ2ρDxy

Bütün bunlar hem sınıflandırma hem de daha genel ve yararlı tahmin kavramı için geçerlidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.