Bir sıcak vektör sayısal özelliklerle ölçeklendirilirse


20

Kategorik ve sayısal özellikler bir arada olması durumunda, genellikle kategorik özellikleri bir sıcak vektöre dönüştürürüm. Benim sorum şu vektörleri olduğu gibi bırakıp sayısal nitelikleri standartlaştırma / normalleştirme yoluyla mı ölçeklendirmeli miyim yoksa sıcak vektörleri sayısal niteliklerle birlikte ölçeklemeli miyim?

Yanıtlar:


11

Sayısal forma dönüştürüldükten sonra, modeller bir sıcak kodlu sütunlara diğer sayısal verilere göre farklı tepki vermez. Dolayısıyla, başka bir sütun hazırlamak için herhangi bir nedenle yapıyorsanız {0,1} değerlerini normalleştirmek için açık bir emsal vardır.

Bunu yapmanın etkisi, model sınıfına ve uyguladığınız normalizasyon türüne bağlı olacaktır, ancak sinir ağlarını eğitirken, bir sıcak kodlanmış kategorik veri için 0, std 1'e ölçeklendirme yaparken bazı (küçük) iyileştirmeler fark ettim.

Mesafe metriklerine dayalı model sınıfları için de fark yaratabilir.

Ne yazık ki, bu tür seçeneklerin çoğu gibi, genellikle her iki yaklaşımı da denemek ve en iyi metriğe sahip olanı almak zorundasınız.


1
İfadeler biraz belirsizdi. Herhangi bir ohe olmayan sütunu normalleştirdiyseniz yalnızca bir sıcak kodlu sütunları normalleştirdiğinizi mi söylüyorsunuz?
Info5ek

@ Info5ek: Bir sıcak kodlu sütunları normalleştirmenin daha iyi olabileceğini söylüyorum ve zaten diğer sütunlar için yapıyorsanız, bunu da deneyebilirsiniz. Bunun sabit kuralları yoktur, eldeki soruna çok fazla bağlıdır.
Neil Slater
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.