Özellik sayısının artırılması neden performansı düşürüyor?


12

Neden özellik sayısının artırılmasının performansı düşürebileceğine dair bir sezgi kazanmaya çalışıyorum. Şu anda belirli özellikler arasında daha iyi iki değişkenli ancak daha fazla özelliğe bakarken daha kötü performans gösteren bir LDA sınıflandırıcı kullanıyorum. Sınıflandırma doğruluğum tabakalı 10 kat xval kullanılarak gerçekleştirilir.

Bir sınıflandırıcının bu yüksek boyutlarda neler olduğuna dair bir miktar fiziksel veya uzamsal sezgi kazanmak için iki değişkenli olarak ne zaman daha iyi çalışacağı basit bir vakası var mı?


8
Hızlı bir yorum olarak, alakasız öngörücülerin eklenmesi yeni verilerdeki performansı kötüleştirebilir - öngörünün artan varyansı (aşırı uydurma). Bunun nedeni, gürültüye uymanız ve "gerçek sinyali" seyreltmenizdir.
B_Miner

Yanıtlar:


9

Bkz. " Boyutsallık sorunu: Basit bir örnek " - GV Trunk'ın çok kısa ve çok eski bir makalesi. O özelliklerdir Gauss sınıf koşullu dağılımları, iki sınıf kabul sorunu tüm ilgili ama alaka azaldıkça. Sonlu bir örnek üzerinde eğitilmiş bir sınıflandırıcının hata oranının 0,5'e yaklaştığını, özelliklerin sayısı arttıkça Bayes hatasının 0'a yaklaştığını gösterir.


(+1) Bu sevimli küçük bir referans.
kardinal

2

Bu, " Boyutsallığın Laneti " olarak adlandırılır . LDA için belirli bir neden olduğunu bilmiyorum, ancak genel olarak daha karmaşık karar sınırlarına ihtiyaç duyan özellik vektör sonuçları üzerinde çok fazla boyuta sahip. Karmaşık sınırlara sahip olmak aynı zamanda "Ne derecede?" çünkü biz de aşırı uymayı düşünüyoruz. Başka bir nokta olarak, ek boyutlarla birlikte öğrenme algoritmasının karmaşıklığı da artmaktadır. Böylece büyük özellik vektörü ile nispeten yavaş öğrenme algoritması ile çalışmak iş etkinliğini daha da kötüleştirir. Boyuta ek olarak, Neural Net veya diğerleri gibi birçok öğrenme algoritması için iyi olmayan ilişkili özelliklere sahip olma olasılığınız artabilir.

"Boyutsallığın Laneti" altındaki diğer nedenleri sayabilirsiniz, ancak gerçek şu ki, bazı özellik seçim rutinleri tarafından ilerletilen özlü özellik vektörü ile yeterli sayıda örneğe sahip olmaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.