Veri kümesini ne zaman dengesiz olarak değerlendirmeliyiz?


10

Veri kümesindeki olumlu ve olumsuz örneklerin sayısının dengesiz olduğu bir durumla karşı karşıyayım.

Benim sorum, veri kümesinde bir tür dengelemeyi zorlamak için büyük kategoriyi ne zaman alt örneklememiz gerektiğini bize gösteren herhangi bir başparmak kuralı var.

Örnekler:

  • Olumlu örneklerin sayısı 1.000 ve negatif örneklerin sayısı 10.000 ise, sınıflandırıcımı tam veri kümesinde eğitmeli miyim yoksa negatif örnekleri alt örneklemeli miyim?
  • Aynı soru 1000 pozitif örnek ve 100.000 negatif için.
  • Aynı soru 10.000 pozitif ve 1.000 negatif için.
  • vb...

Kendi başına mükemmel bir şekilde bölünmeyen veri kümelerinde yanlış bir şey yoktur. Hangi modelleme tekniğini kullanıyorsunuz? Teknik "dengeli" verilere dayanıyorsa, yanlış tekniği kullanıyor olabilirsiniz.
D3C34C34D

1
Nina Zumel burada dengelemenin farklı tahmin ediciler üzerindeki etkilerini inceliyor , bu başkalarına da yardımcı olabilir. Rasgele ormana, SVM'ye ve logit tahminine bakar.
CFM

Yanıtlar:


9

Ben alt örnekleme (alt örnekleme) temel düzeyde sınıf dengesizliğini kontrol etmek için popüler bir yöntem olduğunu düşünüyorum, yani sorunun kökünü giderir. Tüm örnekleriniz için, sınıfın çoğunluğunun 1000'ini rastgele seçmek her seferinde işe yarayacaktır. Hatta 10 model yapmakla (1000 azınlığa karşı 1.000 çoğunluğun 10 katı) veri oynayarak tüm veri setinizi kullanacaksınız. Bu yöntemi kullanabilirsiniz, ancak yine de bazı topluluk yöntemlerini denemediğiniz sürece 9.000 örneği atıyorsunuz. Kolay düzeltme, ancak verilerinize göre en uygun modeli elde etmek zor.

Sınıf dengesizliği için kontrol etmeniz gereken derece büyük ölçüde hedefinize bağlıdır. Saf sınıflandırmayı önemsiyorsanız, dengesizlik çoğu teknik için% 50 olasılık kesimini etkileyecektir, bu yüzden altörneklemeyi düşünürüm. Yalnızca sınıflandırmaların sırasına önem veriyorsanız (genellikle negatiflerden daha yüksek pozitifler istiyorsanız) ve AUC gibi bir ölçü kullanıyorsanız, sınıf dengesizliği sadece olasılıklarınızı saptırır, ancak göreceli sıralama çoğu teknik için makul derecede kararlı olmalıdır.

Lojistik regresyon, sınıf dengesizliği için iyidir, çünkü azınlık sınıfından> 500'e sahip olduğunuz sürece, parametrelerin tahminleri yeterince doğru olacaktır ve tek etki kesişme üzerinde olacaktır, eğer bu bir şeyse düzeltilebilir istemek. Lojistik regresyon sadece sınıflardan ziyade olasılıkları modeller, böylece ihtiyaçlarınızı karşılamak için daha fazla manuel ayar yapabilirsiniz.

Sınıflandırma tekniklerinin çoğunda azınlık sınıfına daha fazla odaklanmanıza yardımcı olacak bir sınıf ağırlığı argümanı da vardır. Gerçek bir azınlık sınıfının özlü bir sınıflandırmasını cezalandıracak, bu nedenle genel accucracy'niz biraz acı çekecek, ancak doğru sınıflandırılmış daha azınlık sınıflarını görmeye başlayacaksınız.


"500'den azınlık sınıfına sahip olduğunuz sürece" rehberliğinizi genişletebilir misiniz? Bu 500 sayısını nereden buldun? Deneyiminize mi dayanıyor? Cevabınızdan bir yüzde bekliyordum.
Jas

2

Dengesizlik resmi olarak tanımlanmamıştır, ancak 1 ile 10 arasında bir oran genellikle dengeleme tekniğinden faydalanacak kadar dengesizdir.

Göreceli ve mutlak olmak üzere iki tür dengesizlik vardır. Göreceli olarak, çoğunluk ve azınlık sınıfları arasındaki oranlar dengesizdir. Mutlak olarak az sayıda azınlık örneğiniz de vardır. Dengesizlik oranı ne kadar yüksek olursa, mutlak dengesizliğe de ulaşma olasılığınız o kadar artar.

Doğrudan alt örneklemenin dengesiz veri kümesiyle başa çıkmanın en iyi yolu olmadığını lütfen unutmayın. Çünkü orijinal veri kümenizde iyi performans gösterecek bir sınıflandırıcı oluşturmanız gerekir. Dengesiz veri kümelerinde sınıflandırıcılar oluşturmak için bir teknik için buraya bakın . Sınıflandırıcıyı değerlendirmek için buraya bakın .


2

Veri dengesizliği sorunu ?? Teorik olarak, sadece sayılarla ilgilidir. Fark 1 örnek olsa bile veri dengesizliği

Pratikte, bunun bir veri dengesizliği problemi olduğunu söylemek üç şey tarafından kontrol edilir: 1. Elinizdeki Örneklerin sayısı ve dağılımı 2. Aynı sınıftaki varyasyon 3. Farklı sınıflar arasındaki benzerlikler

Son iki nokta, sorunumuzu düşünme şeklimizi değiştiriyor.

Bunu açıklamak için bir örnek vereyim: Sınıf A = 100 numune Sınıf B = 10000

B sınıfı içindeki değişim çok düşükse Aşağı örnekleme yeterli olacaktır, veri dengesizliği sorunu yoktur

Sınıf b'de varyasyon çok yüksekse, aşağı örnekleme bilgi kaybına neden olabilir Ve aşağı örnekleme uygulamak tehlikelidir

Başka bir nokta, çok sayıda örneğe sahip olmak (özellikle azınlık sınıfı için) veri dengesizliği problemini gevşetecek ve başa çıkmayı kolaylaştıracaktır

Ör 10: 100. Vs. 1000: 10000

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.