Kaggle'daki Konut fiyatları yarışmasının bir çözümünü yapıyordum ( Human Analog'un Konut Fiyatlarında Çekirdek: İleri Regresyon Teknikleri ) ve bu bölüme rastladım:
# Transform the skewed numeric features by taking log(feature + 1).
# This will make the features more normal.
from scipy.stats import skew
skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float)))
skewed = skewed[skewed > 0.75]
skewed = skewed.index
train_df_munged[skewed] = np.log1p(train_df_munged[skewed])
test_df_munged[skewed] = np.log1p(test_df_munged[skewed])
Çarpık bir dağılımı normal bir dağılıma dönüştürmenin gerekliliğinden emin değilim. Lütfen, biri ayrıntılı olarak açıklayabilir mi:
- Bu neden burada yapılıyor? veya Bu nasıl yardımcı olur?
- Bunun özellik ölçeklemesinden farkı nedir?
- Bu özellik mühendisliği için gerekli bir adım mı? Bu adımı atlarsam ne olur?