(Denetimli öğrenme hakkında konuştuğunuzu varsayalım)
İlişkili özellikler modelinizi her zaman kötüleştirmeyecek, ancak her zaman geliştirmeyeceklerdir.
İlişkili özellikleri kaldırmanızın üç ana nedeni vardır:
- Öğrenme algoritmasını daha hızlı yapın
Boyutluluk laneti nedeniyle, daha az özellik genellikle hız bakımından yüksek gelişme anlamına gelir.
Hız sorun değilse, belki de hemen bu özellikleri kaldırmayın (bir sonraki noktaya bakın)
- Zararlı önyargıları azalt
Anahtar kelime zararlı. Eğer özelliklerin korelasyonundaysanız, ancak bunlar hedefle de ilişkilendirilmişse, onları korumak istersiniz. Temelde aynı olan iki ipucunuz varsa, ancak iyi ipuçları almak için özellikleri ipucu olarak görüntüleyebilirsiniz, ancak bunlar iyi ipucudur, bunları saklamak akıllıca olabilir.
Naive Bayes gibi bazı algoritmalar aslında "pozitif" ilişkili özelliklerden doğrudan yararlanıyor. Ve rastgele orman gibi diğerleri dolaylı olarak onlardan yararlanabilir.
A, B ve C olmak üzere 3 özelliğe sahip olduğunu düşünün. A ve B, hedef ve birbiriyle oldukça ilişkilidir ve C hiç değildir. 3 özellikten birini seçerseniz, "iyi" bir özellik elde etmek için 2/3 şansınız olur, oysa ki örneğin B'yi kaldırırsanız, bu şans 1 / 2'ye düşer.
Elbette, korelasyon gösteren özellikler her şeyden önce süper bilgilendirici değilse, algoritma çok fazla acı çekmeyebilir.
Öyleyse hikayenin ahlaki, bu özellikleri kaldırmak hız nedeniyle gerekli olabilir, ancak algoritma işleminizi daha da kötüleştirebileceğinizi unutmayın. Ayrıca, karar ağaçları gibi bazı algoritmalar, içine gömülü özellik seçimine sahiptir.
Bununla başa çıkmanın iyi bir yolu, özellik seçimi için bir sarmalayıcı yöntemi kullanmaktır. Gereksiz özellikleri yalnızca performansa doğrudan katkıda bulunmazlarsa kaldıracaktır. Naif koylarda olduğu gibi faydalı olursa, saklanırlar. (Sarıcı yöntemlerinin pahalı olduğunu ve fazla takılmaya yol açabileceğini unutmayın)
- Modelinizin yorumlanabilirliği
Modelinizin yorumlanabilir olması gerekiyorsa, daha basit hale getirmek için zorlanabilir. Occam'ın usturasını da hatırladığınızdan emin olun. Modeliniz daha az özellikle "o kadar" kötü değilse, o zaman muhtemelen daha az özellik kullanmalısınız.