He ve Garcia'nın (2009) dengesiz sınıf problemlerinde öğrenmenin yararlı bir incelemesi olduğunu gördüm . Dikkate alınması gereken kapsamlı olmayan birkaç şey:
Veri tabanlı yaklaşımlar:
Çoğunluk sınıfının altı, azınlık sınıfının çok az örneği olabilir. (Breiman bunun resmi olarak muntazam olmayan yanlış sınıflandırma maliyetlerini atamaya eşdeğer olduğuna dikkat çekti.) Bu sorunlara neden olabilir: Örnekleme, öğrencinin çoğunluk sınıfının yönlerini gözden kaçırmasına neden olabilir; aşırı örnekleme, aşırı takılma riskini artırır.
Bu sorunları azaltan "bilinçli örnekleme" yöntemleri vardır. Bunlardan biri , çoğunluk sınıfından bağımsız olarak birkaç altkümeyi örnekleyen ve her altkümeyi tüm azınlık sınıfı verileriyle birleştirerek birden fazla sınıflandırıcı yapan EasyEnsemble'dır .
SMOTE (Sentetik Azınlık Aşırı Örnekleme Tekniği) veya SMOTEBoost (SMOTE'yi güçlendirmeyle birleştirerek) özellik alanında en yakın komşuları yaparak azınlık sınıfının sentetik örneklerini oluşturur. SMOTE, DMwR paketinde ( Luis Torgo'nun “R ile Veri Madenciliği, vaka çalışmaları ile öğrenme” CRC Press 2016 kitabıyla birlikte) R'de uygulanmaktadır .
Model uydurma yaklaşımları
Kayıp fonksiyonunuza sınıfa özgü ağırlıklar uygulayın (azınlık vakaları için daha büyük ağırlıklar).
Ağaç temelli yaklaşımlar için Hellinger mesafesini , Cieslak ve ark. "Hellinger mesafe karar ağaçları sağlam ve eğimsizdir" ( Weka kodu burada .)
Bir kullan tek sınıf sınıflandırıcı , (modele bağlı olarak) bir sınıf için olasılık yoğunluğunu veya sınırını öğrenin ve diğer sınıfı aykırı değerler olarak ele alın.
Elbette, model oluşturma için doğruluğu bir metrik olarak kullanmayın. Cohen'in kappa'sý makul bir alternatif.
Model değerlendirme yaklaşımları
Modeliniz tahmin edilen olasılıkları veya diğer puanları döndürürse, hatalarda uygun bir ödünleşime neden olan bir karar kesmeyi seçin (eğitim ve testten bağımsız bir veri kümesi kullanarak). R'de, OptimalCutpoints paketi, bir kesintiye karar vermek için maliyete duyarlı olanlar da dahil olmak üzere bir dizi algoritma uygular.