Son zamanlarda makine / istatistik öğreniminde "sınıf dengesizliği sorunu" hakkında çok fazla düşündüm ve neler olup bittiğini anlamadığım bir duyguyu daha da derinleştiriyorum.
İlk önce, terimlerimi tanımlamama (veya tanımlamaya çalışmama) izin verin:
Sınıf dengesizliği bir sorun makinesi / istatistiksel öğrenme 1 sınıflara 0 sınıfların oranı çok eğik olduğu zaman, bazı ikili sınıflandırma (*) algoritmaları iyi performans bu gözlemdir.
Yüzlük olsaydı Yani, yukarıdaki örneğin, her için sınıfları sınıfında, ben sınıf dengesizlik olduğunu söyleyebilirim ile veya .
Gördüğüm problemin çoğu ifadesi, yeterli nitelik olarak ne düşündüğümden (hangi modellerin mücadele ettiği, ne dengesizlik olduğu) eksiktir ve bu benim kafamın bir kaynağıdır.
Makine / istatistiksel öğrenmedeki standart metinlerin araştırılması az miktarda ortaya çıkıyor:
- İstatistiksel Eğilme Öğeleri ve İstatistiksel Öğrenmeye Giriş , endekste "sınıf dengesizliği" içermemektedir.
Tahmini Veriler İçin Makine Öğrenmesi Analytics, aynı zamanda dizinde "sınıf dengesizliği" içermiyor.
Murphy Machine Learning: A Olasılık Perspektif yapar endeksinde * "sınıfı dengesizliği ihtiva referans aşağıdaki kabartan yorum bulunamadı SVM en konulu bir bölüme etmektir.:
Tüm bu zorlukların ve bunları düzeltmek için önerilen buluşsal bolluğun temelde ortaya çıktığını hatırlamakta fayda var, çünkü SVM'ler olasılıkları kullanarak belirsizliği modellemediğinden, çıktı puanları sınıflar arasında karşılaştırılamaz.
Bu yorum, sezgilerime ve deneyimlerime göre artıyor: önceki işimde, lojistik gerilemelere ve gradyanı yükseltilmiş ağaç modellerine (binom log log olasılığını en aza indirmek için) dengesiz verilere ( % sınıf dengesizliği sırasına göre) rutin olarak uyardık. performansta bariz sorunlar.
Sınıflandırma ağacı temelli modellerin (kendileri ve rastgele ormanlar) sınıf dengesizliği probleminden de muzdarip olduğunu okudum (bir yerlerde) . Bu, suları biraz karışır, ağaçlar bir anlamda olasılıkları geri getirir: ağacın her bir terminal düğümündeki hedef sınıf için oylama kaydı.
Öyleyse sarmak için, gerçekten peşimde olan şey (eğer varsa) sınıf dengesizliği sorununa yol açan güçlerin kavramsal olarak anlaşılmasıdır .
- Kötü seçilmiş algoritmalar ve tembel varsayılan sınıflandırma eşikleriyle kendimize yaptığımız bir şey mi?
- Her zaman uygun puanlama kriterlerini optimize eden olasılık modellerine uyursak ortadan kaybolur mu? Farklı bir şekilde söylendiği gibi, sebep basitçe zayıf bir kayıp fonksiyonudur, yani bir modelin zorlu sınıflandırma kurallarına ve genel doğruluğa dayalı tahmin gücünü değerlendirmek mi?
- Öyleyse, uygun puanlama kurallarını optimize etmeyen modeller sonra işe yaramaz (veya en azından daha az faydalı) mı?
(*) Sınıflandırmaya göre , ikili cevap verisine uygun herhangi bir istatistiksel modeli kastediyorum. Ben am değil yine de o değil amacım, tek sınıf veya diğer sert bir atama olduğunu varsayarsak.
poor choice of loss function
. Peki, bunun kayıp puanlama fonksiyonları olarak uygun puanlama kuralları için bile doğru olduğunu düşünüyor musunuz?