Birçok kez üzerinde gerçekten hiçbir sınıflandırma yapamadığım bir veri kümesini analiz ettim. Bir sınıflandırıcı alıp alamayacağımı görmek için genellikle aşağıdaki adımları kullandım:
- Sayısal değerlere karşı etiket kutu grafikleri oluşturun.
- Sınıfların ayrılabilir olup olmadığını görmek için boyutsallığı 2 veya 3'e düşürün, bazen LDA'yı da denedim.
- SVM'lere ve Rastgele Ormanlara zorla uymaya çalışın ve özelliklerin herhangi bir anlam ifade edip etmediğini görmek için özellik önemine bakın.
- Sınıf dengesizliğinin sorun olup olmadığını kontrol etmek için yetersiz örnekleme ve aşırı örnekleme gibi sınıfların ve tekniklerin dengesini değiştirmeye çalışın.
Düşünebildiğim, ancak denemediğim birçok yaklaşım var. Bazen bu özelliklerin iyi olmadığını ve tahmin etmeye çalıştığımız etiketle hiç ilgili olmadığını biliyorum. Daha sonra bu iş sezgisini egzersize son vermek için kullanıyorum, daha iyi özelliklere veya tamamen farklı etiketlere ihtiyacımız olduğu sonucuna varıyorum.
Sorum, bir Veri Bilimcisi'nin bu özelliklerle sınıflandırmanın yapılamayacağını nasıl bildirdiği. Bunu bildirmenin veya önce verileri farklı algoritmalara sığdırmanın ve doğrulama metriğine bakmak en iyi seçenek olarak herhangi bir istatistiksel yol var mı?