Dengesizlik sınıf problemiyle başa çıkmak için geliştirilen yaklaşımları sınıflandırmanın en iyi yolu nedir?
Bu makale onları şu kategorilere ayırır:
- Önişleme: aşırı örnekleme, düşük örnekleme ve hibrit yöntemleri içerir,
- Maliyete duyarlı öğrenme: İkincisinin eşikleme ve örneklemeye daha da bölündüğü doğrudan yöntemleri ve meta öğrenmeyi içerir,
- Topluluk teknikleri: maliyete duyarlı toplulukları ve topluluk öğrenimi ile birlikte veri önişlemini içerir.
İkinci sınıflandırma:
- Veri Ön İşleme: dağıtım değişikliğini ve veri alanının ağırlıklandırılmasını içerir. Bir sınıfta öğrenme dağıtım değişikliği olarak kabul edilir.
- Özel Amaçlı Öğrenme Yöntemleri
- Tahmin Son işlem: eşik yöntemi ve maliyete duyarlı son işlem içerir
- Hibrit Yöntemler:
Üçüncü makale :
- Veri seviyesi yöntemleri
- Algoritma düzeyinde yöntemler
- Hibrit yöntemler
Son sınıflandırma, çıktı düzenlemesini bağımsız bir yaklaşım olarak görür.
Şimdiden teşekkürler.
4
Çok kısa cevap: hepsi en iyisi ve hepsi en kötüsü! Sınıflandırma ve veri madenciliği genel olarak içeriğe duyarlıdır. Bu etki alanındaki tüm çözümlere uyan tek bir boyut yoktur. Bu arada, çok genel anlamda en iyi yaklaşım, genellikle özellik çıkarmadan değerlendirme şemasına kadar farklı düzeylerde en iyi kararların bir kombinasyonudur.
—
mok
@mok Teşekkürler. Lütfen sklearn sınıflandırıcılarındaki sınıf ağırlığını bildirir misiniz, örneğin lojistik regresyon hangi kategoride sınıflandırılır?
—
ebrahimi
@ebrahimi, algoritma seviyesine düşmelidir, çünkü sadece ağırlıklar geçen bir sözlüğe göre ayarlanır veya y (sınıf) değerlerine göre hesaplanır (çıkarılır) ve veriler dokunulmadan kalır.
—
Sanjay Krishna
@SanjayKrishna Çok teşekkürler. İlk kategorizasyon durumunda, maliyete duyarlı öğrenmeye girer, değil mi? Ayrıca, ikinci sınıflandırma durumunda, üçüncü kategoriye, yani maliyete duyarlı son işlemlere de sınıflandırılır. bu doğru mu? Bunun ikinci cevabı: stackoverflow.com/questions/32492550/… da faydalıdır.
—
ebrahimi