Dengesiz sınıflarla başa çıkma yaklaşımlarının sınıflandırılması


8

Dengesizlik sınıf problemiyle başa çıkmak için geliştirilen yaklaşımları sınıflandırmanın en iyi yolu nedir?

Bu makale onları şu kategorilere ayırır:

  1. Önişleme: aşırı örnekleme, düşük örnekleme ve hibrit yöntemleri içerir,
  2. Maliyete duyarlı öğrenme: İkincisinin eşikleme ve örneklemeye daha da bölündüğü doğrudan yöntemleri ve meta öğrenmeyi içerir,
  3. Topluluk teknikleri: maliyete duyarlı toplulukları ve topluluk öğrenimi ile birlikte veri önişlemini içerir.

İkinci sınıflandırma:

  1. Veri Ön İşleme: dağıtım değişikliğini ve veri alanının ağırlıklandırılmasını içerir. Bir sınıfta öğrenme dağıtım değişikliği olarak kabul edilir.
  2. Özel Amaçlı Öğrenme Yöntemleri
  3. Tahmin Son işlem: eşik yöntemi ve maliyete duyarlı son işlem içerir
  4. Hibrit Yöntemler:

Üçüncü makale :

  1. Veri seviyesi yöntemleri
  2. Algoritma düzeyinde yöntemler
  3. Hibrit yöntemler

Son sınıflandırma, çıktı düzenlemesini bağımsız bir yaklaşım olarak görür.

Şimdiden teşekkürler.


4
Çok kısa cevap: hepsi en iyisi ve hepsi en kötüsü! Sınıflandırma ve veri madenciliği genel olarak içeriğe duyarlıdır. Bu etki alanındaki tüm çözümlere uyan tek bir boyut yoktur. Bu arada, çok genel anlamda en iyi yaklaşım, genellikle özellik çıkarmadan değerlendirme şemasına kadar farklı düzeylerde en iyi kararların bir kombinasyonudur.
mok

@mok Teşekkürler. Lütfen sklearn sınıflandırıcılarındaki sınıf ağırlığını bildirir misiniz, örneğin lojistik regresyon hangi kategoride sınıflandırılır?
ebrahimi

@ebrahimi, algoritma seviyesine düşmelidir, çünkü sadece ağırlıklar geçen bir sözlüğe göre ayarlanır veya y (sınıf) değerlerine göre hesaplanır (çıkarılır) ve veriler dokunulmadan kalır.
Sanjay Krishna

@SanjayKrishna Çok teşekkürler. İlk kategorizasyon durumunda, maliyete duyarlı öğrenmeye girer, değil mi? Ayrıca, ikinci sınıflandırma durumunda, üçüncü kategoriye, yani maliyete duyarlı son işlemlere de sınıflandırılır. bu doğru mu? Bunun ikinci cevabı: stackoverflow.com/questions/32492550/… da faydalıdır.
ebrahimi

Yanıtlar:


5

Gördüğüm şekilde, her üç kategorileştirme de pek çok konuda hemfikir. Örneğin, üçünün de ön işleme adımları için bir kategorisi vardır.

Daha genel ve daha çok şeyi kapsadığı için çoğunlukla üçüncü kategorizasyon üzerinde anlaşmaya varım.

  • Veri düzeyinde kategorisi (örnekleme / altında örneğin içinde) sınıfı dengesizliği ile ilgili herhangi bir ön işlem aşamaları kapsamaktadır.
  • Algoritma düzeyinde ilk iki makale ikinci kategoriye dahil olarak kabul edilebilir. Sınıf dengesizliği ile ilgili algoritmada yapılan herhangi bir değişiklik buraya (örneğin sınıf ağırlığı) gider.
  • Son olarak, ikisini birleştirmek için hibrit bir kategori.

İlk iki makalede eksik olan tek şey, dürüst olmak gerekirse, pratikte diğeri kadar kullanılmayan işlem sonrası adımlardır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.