Bu yüzden binning neden her zaman kaçınılması gerektiği hakkında birkaç yazı okudum . Bu iddia için popüler bir referans bu bağlantıdır .
Ana kaçamak, binleşme noktalarının (veya kesme noktalarının) ve sonuçta ortaya çıkan bilgi kaybının oldukça keyfi olması ve spline'ların tercih edilmesidir.
Bununla birlikte, şu anda birçok özelliği için bir dizi sürekli güven önlemine sahip Spotify API ile çalışıyorum.
Bir özelliğe, "araçsallığa" bakıldığında, referanslar şunları ifade eder:
Bir parçanın vokal içerip içermediğini tahmin eder. “Ooh” ve “aah” sesleri bu bağlamda araçsal olarak ele alınır. Rap veya konuşulan kelime parçaları açıkça “vokal” dir. Enstrümanlık değeri 1.0'a ne kadar yakın olursa, parçanın hiç ses içeriği içermemesi de o kadar büyük olur. 0.5'in üzerindeki değerlerin enstrümantal parçaları temsil etmesi amaçlanmıştır , ancak değer 1.0'a yaklaştıkça güven daha yüksektir.
Verilerimin çok sol eğimli dağılımı göz önüne alındığında (örneklerin yaklaşık% 90'ı neredeyse 0'ın üzerindeyken, bu özelliği iki kategorik özelliğe dönüştürmenin mantıklı olduğunu gördüm: "enstrümantal" (değeri 0,5'in üzerinde olan tüm numuneler) ve "enstrümantal olmayan "(değeri 0,5'in altında olan tüm numuneler için).
Bu yanlış mı? Ve (sürekli) verilerimin neredeyse tamamı tek bir değer etrafında dönerken alternatif ne olurdu? Spline hakkında anladığım kadarıyla, onlar da sınıflandırma problemleriyle (yaptığım şey) işe yaramazlar.