Sınıf dengesizliği sorunları, maliyete duyarlı öğrenme veya yeniden örnekleme ile ele alınabilir. Maliyete duyarlı öğrenmeye karşı örnekleme ve aşağıda kopyalanan avantajların dezavantajlarını görün :
{1}, maliyete duyarlı öğrenmeye karşı örneklemenin avantaj ve dezavantajlarının bir listesini verir:
2.2 Örnekleme
Eğitim verilerinin sınıf dağılımını değiştirmek için aşırı örnekleme ve örnek alma kullanılabilir ve sınıf dengesizliği ile başa çıkmak için her iki yöntem de kullanılmıştır [1, 2, 3, 6, 10, 11]. Eğitim verilerinin sınıf dağılımını değiştirmenin nedeni, yüksek derecede eğriltilmiş veri kümeleriyle öğrenmeye yardımcı olması, üniform olmayan yanlış sınıflandırma maliyetlerini etkin bir şekilde dayattığıdır. Örneğin, eğer biri eğitim setinin sınıf dağılımını değiştirirse, pozitif örneklerin negatif örneklere oranı 1: 1'den 2: 1'e giderse, o zaman bir kişi 2: 1 oranında yanlış sınıflandırma maliyet oranı etkin bir şekilde tayin eder. Eğitim verilerinin sınıf dağılımını değiştirmek ve yanlış sınıflandırma maliyet oranını değiştirmek arasındaki bu eşdeğerlik iyi bilinmektedir ve resmen Elkan tarafından tanımlanmıştır [9].
Maliyete duyarlı öğrenmeyi uygulamak için örneklemenin kullanımıyla ilgili bilinen dezavantajlar vardır.
Undersampling ile dezavantajı, yararlı veriler atar olmasıdır . Aşırı örneklemenin temel dezavantajı , bizim açımızdan, mevcut örneklerin tam kopyalarını alarak , aşırı yüklenmeyi muhtemel kılmasıdır . Aslında, aşırı örneklemeyle, öğrencinin tek, kopyalanmış bir örneği ele almak için bir sınıflandırma kuralı oluşturması oldukça yaygındır. Aşırı örneklemenin ikinci bir dezavantajı, eğitim örneklerinin sayısını arttırması, böylece öğrenme zamanını arttırmasıdır .
2.3 Neden Örnekleme Kullanmalı?
Örneklemenin dezavantajları göz önüne alındığında, çarpık bir sınıf dağılımı ve tek tip olmayan sınıflandırma maliyetleriyle veri ile uğraşırken maliyete duyarlı bir öğrenme algoritması yerine neden birisinin bunu kullanacağını sormaya değer. Bunun birkaç nedeni var. Bunun en belirgin nedeni, tüm öğrenme algoritmalarının maliyete duyarlı uygulamaları olmaması ve bu nedenle örneklemeyi kullanan sarmalayıcı tabanlı bir yaklaşımın tek seçenektir. Bugün kesinlikle geçmişte olduğundan daha az doğru olsa da, birçok öğrenme algoritması (örneğin, C4.5) hala öğrenme sürecindeki maliyetleri doğrudan karşılamıyor.
Örneklemeyi kullanmanın ikinci bir nedeni, çok sayıda eğri veri setinin muazzam olması ve öğrenmenin uygulanabilir olması için eğitim setinin boyutunun azaltılması gerektiğidir. Bu durumda, örnek alma makul ve geçerli bir strateji gibi görünmektedir. Bu yazıda eğitim seti boyutunu küçültme gereğini düşünmüyoruz. Bununla birlikte, eğer bir eğitim verisinin atılması gerekiyorsa, eğitim setinin boyutunu istenen boyuta düşürmek için çoğunluk sınıfı örneklerinden bazılarını atmanın faydalı olabileceğini ve sonra da maliyet kullanacağını belirtmek isteriz. Hassas öğrenme algoritması, böylece atılan eğitim verilerinin miktarı en aza indirgenir.
Maliyete duyarlı bir öğrenme algoritmasından ziyade örneklemenin kullanımına katkıda bulunabilecek nihai bir sebep, yanlış sınıflandırma maliyetlerinin çoğu zaman bilinmemesidir. Bununla birlikte, bu örnekleme ile örnekleme ile ortaya çıktığından, örnekleme maliyet açısından duyarlı bir öğrenme algoritması üzerinden örnekleme kullanmak için geçerli bir neden değildir - nihai eğitim verilerinin sınıf dağılımı ne olmalıdır? Bu maliyet bilgisi bilinmiyorsa, sınıflandırma performansını ölçmek için ROC eğrisinin altındaki alan gibi bir ölçüm kullanılabilir ve her iki yaklaşım da ampirik olarak uygun maliyet oranını / sınıf dağılımını belirleyebilir.
Ayrıca sonuçsuz bir dizi deney yaptılar:
Tüm veri setlerinin sonuçlarına dayanarak, maliyete duyarlı öğrenme, aşırı örnekleme ve örnekleme arasında kesin bir kazanan yoktur.
Daha sonra veri kümelerinde hangi kriterlerin hangi tekniğin daha iyi uyduğunu ima edebileceğini anlamaya çalışırlar.
Ayrıca, SMOTE'nin bazı yenilikler getirebileceğini de belirtiyorlar:
İnsanların örneklemenin etkinliğini arttırmak için yaptıkları çeşitli geliştirmeler var. Bu geliştirmelerden bazıları [5 -> SMOTE] örneklemesinde aşırı örnekleme yapılırken yeni “sentetik” örnekler sunmayı, örnekleme yaparken [11] daha az kullanışlı çoğunluk sınıfı örnekleri silmeyi ve her bir örnek için örnekleme yapılırken en az bir örneklemde çoklu alt örnekleri kullanmayı içerir alt örnek [3]. Bu teknikler aşırı örnekleme ve örnekleme ile karşılaştırılmış olmasına rağmen, genellikle maliyete duyarlı öğrenme algoritmalarıyla karşılaştırılmamıştır. Bu gelecekte çalışmaya değer.
{1} Weiss, Gary M., Kate McCarthy ve Bibi Zabar. "Maliyete duyarlı öğrenme ve örnekleme: Dengesiz sınıfları eşit olmayan hata maliyetleriyle ele almak için en iyisi hangisidir?" DMIN 7 (2007): 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=tr&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf