Anladığım kadarıyla, makine öğreniminde, veri kümenizin aynı bilgileri etkili bir şekilde kodladıkları için yüksek derecede ilişkili özelliklere sahip olması bir sorun olabilir.
Son zamanlarda birisi, kategorik bir değişken üzerinde tek-sıcak kodlama yaptığınızda, ilişkili özelliklerle sonuçlandığınızı, bu yüzden bunlardan birini "referans" olarak bırakmanız gerektiğini belirtti.
Örneğin, cinsiyeti iki değişken olarak kodlamak is_male
ve is_female
mükemmel negatif negatif korelasyona sahip iki özellik üretir, bu yüzden bunlardan sadece birini kullanmayı, taban çizgisini erkek söyleyecek şekilde etkili bir şekilde ayarlamayı ve ardından is_female sütununun öngörü algoritmasında önemli olup olmadığını görmelerini önermişlerdir. .
Bu bana mantıklı geldi, ancak bunun böyle olabileceğini önermek için çevrimiçi bir şey bulamadım, bu yanlış mı yoksa bir şey mi kaçırıyorum?
Olası (yanıtlanmamış) yinelenen: Tek etkin kodlanmış özelliklerin eşzamanlılığı SVM ve LogReg için önemli mi?
Does keeping all k values theoretically make them weaker features
. Hayır ("zayıf" ile ne kastettiğinizden% 100 emin değilim). using something like PCA
Not ihtimale karşı mankenleri bir dizi olduğu PCA birini temsil eden , aynı kategorik bir değişkeni aptal PCA'nın pratik bir noktaya sahip olmadığını unutmayın, çünkü aptallar kümesinin içindeki korelasyonlar sadece kategori frekansları arasındaki ilişkileri yansıtır (yani tüm frekanslar eşitse tüm korelasyonlar eşittir) 1 / (k-1)).
is_male
iki seçeneğin aksine sadece bir değişken kullanıyorsanız, cinsiyetin önemi konusunda "daha doğru" bir tahmin elde ediyor musunuz? Belki bu bağlamda bir anlam ifade etmez ve sadece aynı bilgiyi kodlayan iki farklı değişkeniniz olduğunda sorun olabilir (örneğin inç cinsinden yükseklik ve cm cinsinden yükseklik).
you end up with correlated features, so you should drop one of them as a "reference"
Kukla değişkenler veya gösterge değişkenleri (bunlar, istatistikte kullanılan iki isimdir, makine öğreniminde "bir-sıcak kodlama" ile eşanlamlıdır), hepsi k veya k-1 değişkenleri olsun, yine de çift yönlü olarak ilişkilidir. Bu nedenle, daha iyi olan kelime "ilişkili" yerine "istatistiksel / bilgi açısından gereksizdir".