R kullanarak karar ağaçları oluştururken verileri normalleştirmek zorunda mısınız?

Yani, bu haftaki veri setimizde 14 özellik var ve her sütun çok farklı değerlere sahip. Bir sütun 1'in altında değerlere sahipken, başka bir sütun üç ila dört tam basamaktan oluşan değerlere sahiptir.

Geçen hafta normalizasyonu öğrendik ve çok farklı değerlere sahip olduklarında verileri normalleştirmeniz gerekiyor gibi görünüyor. Karar ağaçları için durum aynı mı?

Bundan emin değilim ama normalleştirme aynı veri kümesinden elde edilen karar ağacını etkiler mi? Olması gerektiği gibi görünmüyor ama ...

r beginner

— Jae
kaynak

Karşılaştığınız en yaygın karar ağacı türleri herhangi bir monotonik dönüşümden etkilenmez. Yani, orde koruduğunuz sürece, karar ağaçları aynıdır (açıkçası burada aynı ağaç tarafından aynı karar yapısını anlıyorum, ağacın her düğümündeki her test için aynı değerleri değil).

Bunun olmasının nedeni, olağan safsızlık fonksiyonlarının nasıl çalıştığıdır. En iyi ayrımı bulmak için, her boyutta (öznitelik), test değerinin bölünmüş değerden düşük olan örneklere karşılık gelen hedef değerlerini ve sağda eşitten büyük değerleri hedefleyen bir if cümlesi olan bir ayrılma noktasını arar. Bu, sayısal özellikler için (nominal bir özelliğin nasıl normalleştirileceğini bilmediğim için sizin durumunuz olduğunu düşünüyorum) olur. Artık ölçütlerin küçük veya büyük olduğunu belirtebilirsiniz. Bu, bölünmeyi (ve tüm ağacı) bulmak için niteliklerden gelen gerçek bilgilerin sadece değerlerin sırası olduğu anlamına gelir. Bu, özniteliklerinizi orijinal siparişe ayrılacak şekilde dönüştürdüğünüz sürece, aynı ağacı elde edeceğiniz anlamına gelir.

Tüm modeller bu tür dönüşüme duyarsız değildir. Örneğin, bir özniteliği sıfırdan farklı bir şeyle çarparsanız, doğrusal regresyon modelleri aynı sonuçları verir. Farklı regresyon katsayıları elde edersiniz, ancak öngörülen değer aynı olacaktır. Bu dönüşümün kaydını tuttuğunuzda durum böyle değil. Örneğin, doğrusal regresyon için, aynı sonucu sağlayacağı için normalleştirme işe yaramaz.

Ancak, sırt regresyonu gibi cezalandırılmış doğrusal regresyonda durum böyle değildir. Cezalandırılmış doğrusal regresyonlarda, katsayılara bir kısıtlama uygulanır. Fikir, kısıtlamanın katsayıların bir fonksiyonunun toplamına uygulanmasıdır. Şimdi bir özelliği şişirirseniz, katsayı düşürülür, yani sonunda bu katsayı için ceza yapay olarak değiştirilir. Bu tür bir durumda, her katsayının 'adil' olarak kısıtlanması için nitelikleri normalleştirirsiniz.

Umarım yardımcı olur

— rapaio
kaynak