Sezgisel muhakeme, blog direğinde açıklanmıştır:
Amacımız Tahmin ise, bu kesin bir önyargıya neden olacaktır. Ve daha da kötüsü, örneklem büyüklüğü arttıkça tutarlı tahminlerde bulunmayacağımız anlamında kalıcı bir önyargı olacaktır.
Dolayısıyla, tartışmalı bir şekilde (yapay olarak) dengeli veri sorunu dengesiz durumdan daha kötüdür.
Dengeli veriler sınıflandırma için iyidir, ancak üretim performansının yanı sıra doğruluk ölçümlerini de etkileyecek olan görünüm sıklıkları hakkında bilgi kaybettiniz.
Diyelim ki el yazısıyla yazılan harfleri İngiliz alfabesinden (26 harf) tanıyorsunuz. Her harf görünümünün dengelenmesi, her harfin kabaca 1/26 olarak sınıflandırılması (doğru veya değil) olma olasılığını verecektir, böylece sınıflandırıcı, orijinal örnekteki harflerin fiili dağılımını unutacak. Ve bu kadar ok sınıflandırıcı yüksek doğrulukla her harfi genelleme ve tanıyamaz olduğunda .
Fakat doğruluk ve en önemlisi genelleme "çok yüksek" değilse (size bir tanım veremem - bunu sadece "en kötü durum" olarak düşünebilirsiniz) - yanlış sınıflandırılmış noktalar büyük olasılıkla tüm harfler arasında eşit olarak dağıtılacaktır. , gibi bir şey:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
Dengelemesiz olarak ("A" ve "C" nin metinde çok daha yüksek görünme olasılıkları olduğunu varsayarak)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
Bu yüzden sık sık davalar daha az yanlış sınıflandırma alacaktır. İyi olup olmaması işinize bağlıdır. Doğal metin tanıma için, daha yüksek frekanslı harflerin orijinal metnin anlamını koruyacağı ve tanıma görevini öngörmeye yaklaştırdığı (anlambilimin eğilimleri temsil ettiği ) daha uygun olduğu söylenebilir . Ancak, ECDSA-anahtarının (daha fazla entropi -> daha az tahmin) ekran görüntüsü gibi bir şeyi tanımaya çalışıyorsanız - verileri dengesiz tutmak yardımcı olmaz. Yani, yine, bağlı.
En önemli ayrım, doğruluk tahmininin kendisinin önyargılı olması (dengeli alfabe örneğinde de görebileceğiniz gibi) olmasıdır, bu nedenle modelin davranışının en nadir veya en sık görülen noktalardan nasıl etkilendiğini bilmiyorsunuz.
PS Dengesiz sınıflandırma performansını her zaman önce Precision / Recall metrikleri ile izleyebilir ve dengeleme ekleyip eklememe gerekip gerekmediğine karar ver.
p ( xben| θ)p ( xben| θ^)θ^ben- θbenbazen sınıfın popülasyonun kendisine veya daha büyük bir örnekten bilinen parametrelere göre yeniden dengelenmesi önerilir (bu nedenle daha iyi tahmin edicidir). Ancak, uygulamada her adımda önyargılı veri alma riski nedeniyle (daha büyük örneklemin) aynı şekilde dağıtılmadığının garantisi yoktur (diyelim ki bütün kitaplıktan kurguya ve teknik kitapçıktan toplanan İngilizce harfler diyelim).
Bu cevap ayrıca dengeleme için uygulanabilirlik kriterlerini netleştirmelidir:
Sınıf dengesizliği problemi, azınlık sınıfına ait yeterli örüntü bulunmamasından, kendi başına olumlu ve olumsuz örüntülerin oranından kaynaklanmamaktadır. Genellikle yeterli veriye sahipseniz, "sınıf dengesizliği sorunu" ortaya çıkmaz
Sonuç olarak, eğer eğitim seti yeterince büyükse yapay dengeleme nadiren kullanışlıdır. Aynı şekilde dağıtılmış daha geniş bir numuneden istatistiki veri olmaması da yapay dengelemeye (özellikle tahmin için) gerek olmadığını gösterir, aksi takdirde tahmin edicinin kalitesi "bir dinozorla buluşma olasılığı" kadar iyidir:
Sokakta bir dinozorla buluşma olasılığı nedir?
1/2 ya bir dinozorla tanışırsınız ya da bir dinozorla tanışmazsınız