Yakın geçmişteki iyi alınan söz konusu Tim sorar dengesiz veriler gerçekten Makine Öğrenmesi bir sorun olduğunda ? Sorunun önermesi, sınıf dengesini ve dengesiz sınıflar sorununu tartışan bir çok makine öğrenimi literatürü olmasıdır . Fikir, pozitif ve negatif sınıf arasında bir dengesizliğe sahip veri kümelerinin, bazı makine öğrenimi sınıflandırma (buraya olasılıklı modeller ekliyorum) algoritmaları için sorunlara neden olduğu ve mükemmel 50/50'yi geri yükleyen veri kümesini "dengelemek" için yöntemler aranmasıdır. pozitif ve negatif sınıflar arasında bölünür.
Güncel cevapların genel duygusu, "en azından modellemenizde düşünceli olmanız değil" dir. M. Henry L., kabul edilen bir cevaba verilen oylamada şöyle diyor:
[...] dengesiz verilerin kullanılması konusunda düşük bir sorun yoktur. Deneyimlerime göre, "dengesiz verilerden kaçınma" tavsiyesi ya algoritmaya özgü ya da kalıtsal bilgeliktir. AdamO ile genel olarak dengesiz verilerin iyi belirlenmiş bir model için kavramsal bir sorun yaratmadığını kabul ediyorum.
AdamO, sınıf dengesi ile ilgili "problemin" gerçekten sınıf nadirliği olduğunu savunuyor
Bu nedenle, en azından regresyonda (ancak her koşulda şüpheleniyorum), dengesiz verilerdeki tek sorun, etkili bir şekilde küçük örnek boyutuna sahip olmanızdır. Daha nadir sınıftaki kişi sayısı için herhangi bir yöntem uygunsa, oran üyeliği dengesiz ise herhangi bir sorun olmamalıdır.
Bu gerçek konu ise, açık bir soru bırakıyor: veri kümesini dengelemeyi amaçlayan tüm yeniden örnekleme yöntemlerinin amacı nedir: aşırı örnekleme, yetersiz örnekleme, SMOTE, vb? Açıkça küçük bir örnekleme boyutuna sahip olma sorununu ele almıyorlar, hiçbir şeyden bilgi yaratamazsınız!