Yüksek derecede dengesiz veri setlerinin eğitimi için hızlı rehber


29

Eğitim setinde yaklaşık 1000 pozitif ve 10000 negatif örnek ile bir sınıflandırma problemim var. Yani bu veri seti oldukça dengesiz. Düz rastgele ormanlar sadece tüm test örneklerini çoğunluk sınıfı olarak işaretlemeye çalışıyor.

Alt örnekleme ve ağırlıklı rastgele ormanlarla ilgili bazı iyi cevaplar burada verilmiştir: Çok taraflı veri kümeleriyle bir Ağaç Topluluğu eğitimi için çıkarımlar nelerdir?

RF dışında hangi sınıflandırma yöntemleri sorunu en iyi şekilde ele alabilir?


Yanıtlar:


19
  • Max Kuhn, bu kuyuyu Uygulamalı Tahmini Modelleme'nin Ch16'sında kapsar .
  • Bağlantılı iş parçasında belirtildiği gibi, dengesiz veriler esasen maliyete duyarlı bir eğitim sorunudur. Bu nedenle maliyete duyarlı herhangi bir yaklaşım dengesiz veriye uygulanabilir.
  • Bu tür çok sayıda yaklaşım var. Hepsi R: C50'de uygulanmaz, ağırlıklı SVM'ler seçeneklerdir. Jous-boost. Rusboost bence sadece Matlab kodu olarak mevcut.
  • Weka kullanmıyorum, ancak çok sayıda maliyete duyarlı sınıflandırıcı olduğuna inanıyorum.
  • Dengesiz veri kümelerinin ele alınması: Bir inceleme : Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas '
  • Sınıf Dengesizliği Sorunu Üzerine : Xinjian Guo, Yilong Yin, Dong'a Kalan, Gongping Yang, Guangtong Zhou

16

Çoğunluk sınıfını anlamak genellikle böyle durumlarda gitmenin yoludur.

Pozitif sınıfın çok az örneğine sahip olduğunuzu düşünüyorsanız, örneğin nn veri kümesinden değiştirilen örneklerle 5n örnekleri örnekleme yapabilirsiniz.

Uyarılar:

  • Bazı yöntemler sınıf dağılımındaki değişikliklere karşı hassas olabilir, örneğin Naive Bayes için - önceki olasılıkları etkiler.
  • Aşırı örnekleme aşırı uydurma yol açabilir

Ya da belki bazı kümeleme algoritmalarını deneyin ve küme merkezlerini kullanın.
Leela Prabhu

Dengelenmiş veri kümeleriyle ilgilenmek için bu bağlantıyı aşırı örnekleme ve diğer yöntemler için kontrol edebilirsiniz .
janpreet singh

11

Degrade yükseltme de burada iyi bir seçimdir. Örneğin gradci artırma sınıflandırıcısını bilim-kit öğrenmede kullanabilirsiniz. Degrade yükseltme, yanlış sınıflandırılmış örneklere dayanan ardışık eğitim setleri oluşturarak sınıf dengesizliği ile başa çıkma prensipli bir yöntemdir.


1
Anladığım kadarıyla, gradyan artırma dengesiz verilerle uğraşırken RF ile aynı sınırlamalardan muzdarip: sci2s.ugr.es/keel/pdf/algorithm/articulo/…
charles

1
Güçlendirme, dengesizliği doğrudan gideren ormanı inşa etmek için attığınız ilave bir adımdır. Bağladığınız kağıt, intro belirleme artırmasında bunu not eder; dengesizliğin olmadığı durumlarda bile yardımcı olur. Ve bu makale, artırmanın önemli ölçüde yardımcı olduğu sonucuna varıyor. Öyleyse, RF ile güçlendirme arasındaki denkliğin nerede gösterildiğinden emin değil misiniz?
cwharland

1

Burada verilen cevaplara ek olarak, eğer pozitif örneklerin sayısı, negatif örneklerle karşılaştırıldığında çok küçükse, o zaman pozitif örneklerin anomaliler olduğu bir anormallik tespit problemine yaklaşır.

Tüm noktaları modellemek için çok değişkenli gauss dağılımını kullanmaktan sonra anormallikleri saptamak ve daha sonra ortalamadan 2 veya 3 adım uzakta olanları seçmek için çok çeşitli yöntemlere sahipsiniz.

Düşünce için başka bir yiyecek - Her iki sınıfın da aynı olması için olumsuz örnekleri rastgele örnekleyen daha fazla örnekle gördüm. Tamamen elimizdeki soruna bağlı, onların dengelenmesini isteyip istemediğimize bağlı.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.