Nadir olay tahmin modelleri için aşırı örnekleme ile torbalama


13

Aşağıdakilerin tanımlanıp tanımlanmadığını ve (her iki şekilde) çok dengesiz bir hedef değişkeni olan öngörülü bir modeli öğrenmek için makul bir yöntem gibi geldiğini bilen var mı?

Genellikle veri madenciliğinin CRM uygulamalarında, olumlu olayın (başarı) çoğunluğa (negatif sınıf) göre çok nadir olduğu bir model ararız. Örneğin, yalnızca% 0,1'inin pozitif ilgi sınıfında olduğu 500.000 örneğim olabilir (örneğin, satın alınan müşteri). Öngörülü bir model oluşturmak için bir yöntem, tüm pozitif sınıf örneklerini ve yalnızca negatif sınıf örneklerinin bir örneğini koruduğunuz verileri örneklemektir, böylece pozitif sınıfın negatif sınıfa oranı 1'e yakın olabilir (belki% 25) % 75 pozitif - negatif). Aşırı örnekleme, yetersiz örnekleme, SMOTE vb. Literatürdeki yöntemlerdir.

Merak ettiğim şey, yukarıdaki temel örnekleme stratejisini ancak negatif sınıfın torbalanması ile birleştirmektir.

  • Tüm pozitif sınıf örneklerini saklayın (örneğin 1.000)
  • Dengeli bir örnek oluşturmak için negatif classe örneklerini örnekleyin (örn. 1.000).
  • Modele uyun
  • Tekrar et

Bunu daha önce duyan var mı? Torbalama olmadan ortaya çıkan sorun, 500.000 olduğunda negatif sınıfın sadece 1.000 örneğini örneklemenin, yordayıcı alanının seyrek olacağı ve olası yordayıcı değerleri / kalıplarının bir temsiline sahip olamayacağınızdır. Torbalama buna yardımcı görünüyor.

Ben rpart baktım ve hiçbir örnek "bir" bir yordayıcı için tüm değerlere sahip olmadığında hiçbir şey "kırmak (daha sonra bu tahmin değerleri ile örnekleri tahmin ederken kırılmaz:

library(rpart)
tree<-rpart(skips ~ PadType,data=solder[solder$PadType !='D6',], method="anova")
predict(tree,newdata=subset(solder,PadType =='D6'))

Düşüncesi olan var mı?

GÜNCELLEME: Gerçek bir dünya veri seti aldım (doğrudan posta yanıt verilerinin pazarlanması) ve rastgele eğitim ve validasyona böldüm. 618 öngörücü ve 1 ikili hedef vardır (çok nadir).

Training:
Total Cases: 167,923
Cases with Y=1: 521

Validation:
Total Cases: 141,755
Cases with Y=1: 410

Tüm pozitif örnekleri (521) eğitim setinden ve dengeli bir örnek için aynı büyüklükte negatif örneklerin rastgele bir örneğini aldım. Bir rpart ağacına uyuyorum:

models[[length(models)+1]]<-rpart(Y~.,data=trainSample,method="class")

Bu işlemi 100 kez tekrarladım. Daha sonra bu 100 modelin her biri için validasyon örneği vakalarında Y = 1 olasılığı tahmin edildi. Son tahmin için 100 olasılık ortalamasını aldım. Doğrulama setindeki olasılıkları belirledim ve her ondalıklıkta Y = 1 (modelin sıralama yeteneğini tahmin etmek için geleneksel yöntem) olan vakaların yüzdesini hesapladım.

Result$decile<-as.numeric(cut(Result[,"Score"],breaks=10,labels=1:10)) 

İşte performans: resim açıklamasını buraya girin

Bunun torbalanmaya kıyasla nasıl olduğunu görmek için, doğrulama örneğini sadece ilk örnekle (tüm pozitif vakalar ve aynı boyutta rastgele bir örnek) tahmin ettim. Açıkça, örneklenen veriler, ayırma validasyonu örneği üzerinde etkili olamayacak kadar seyrek veya fazla kullanıldı.

Nadir bir olay ve büyük n ve p olduğunda torbalama rutininin etkinliğinin önerilmesi.

resim açıklamasını buraya girin

Yanıtlar:


7

Her bir torbaya aynı pozitif sınıf örneklerinin dahil edilmesi dışında, bu, S ^ 3Bagging: Alt Örnekleme ve Torbalama ile Hızlı Sınıflandırıcı İndüksiyon Yöntemi'nde açıklandığı gibi S ^ 3Bagging'dir . (Bu makaleyi derinlemesine gözden geçirmedim, sadece gözden kaçırdım.)

Yaklaşımınızla teorik olarak yanlış hiçbir şey görmüyorum, ancak torbalamadan daha fazla artışla birlikte alt örneklemenin daha sık görüldüğünü görüyorum.

Bu, sorunuzu tam olarak ele almayabilir, ancak dengesiz verilerle başa çıkmanın farklı yollarıyla ilgili mükemmel bir makale Dengesiz Verilerden Öğrenme'dir . Maliyete duyarlı öğrenme gibi dikişler sizin durumunuzda daha uygun olabilir. Karar Ormanları kullandığınız için, Bölüm 3.2.3 Maliyete Duyarlı Karar Ağaçları muhtemelen yardımcı olacaktır. Belirtir,

Karar ağaçları ile ilgili olarak, maliyete duyarlı montaj üç şekilde olabilir: birincisi, karar eşiğine maliyete duyarlı düzenlemeler uygulanabilir; ikincisi, her bir düğümdeki bölünmüş kriterlere maliyete duyarlı düşünceler verilebilir; ve son olarak, ağaca maliyete duyarlı budama şemaları uygulanabilir

Karar eşiğinde maliyete duyarlı ayarlamalar temel olarak karar eşiğinizi ROC veya Hassas Geri Çağırma Eğrisi performansına göre seçmek anlamına gelir. PRC performansı özellikle dengesiz verilere dayanıklıdır.

Maliyete duyarlı ayrılma kriterleri, dengesiz verilerle başa çıkmak için safsızlık işlevinizi değiştirmeye kadar gelir. Yukarıda belirtilen bildiriler,

[63] 'te üç spesifik safsızlık fonksiyonunun, Gini, Entropy ve DKM'nin doğruluk / hata oranı taban çizgisine kıyasla gelişmiş maliyet duyarsızlığına sahip olduğu gösterilmiştir. Ayrıca, bu ampirik deneyler ayrıca DKM işlevini kullanmanın genellikle Gini ve Entropy ile karşılaştırılabilir daha kötü doğruluklar sağlayan daha küçük, budanmamış karar ağaçları ürettiğini göstermiştir. Bu ampirik sonuçların sonuçlarını açıklayan ayrıntılı bir teorik temel, daha sonra herhangi bir tükürme kriteri seçimi için karar ağacı büyümesinin etkilerini genelleyen [49] 'da kurulmuştur.

Budama ile ilgili olarak,

Bununla birlikte, dengesiz verilerin varlığında, budama prosedürleri azınlık kavramını tanımlayan yaprakları kaldırma eğilimindedir. Dengesiz verilerden kaynaklanan budama ağaçlarının performansı engelleyebileceği, ancak bu gibi durumlarda budanmamış ağaçların kullanılmasının performansı artırmayacağı gösterilmiştir [23]. Sonuç olarak, budamanın olumlu etkilerle uygulanabileceği şekilde daha temsili karar ağacı yapılarının geliştirilmesi için her bir düğümdeki sınıf olasılık tahmininin iyileştirilmesine dikkat edilmiştir. Bazı temsili çalışmalar, olasılık tahmininin Laplace yumuşatma yöntemini ve Laplace budama tekniğini içerir [49].

[23] N. Japkowicz ve S. Stephen, “Sınıf Dengesizliği Sorunu: Sistematik Bir Çalışma,” Akıllı Veri Analizi, cilt. 6, hayır. 5, sayfa 429-449,2002.

[49] C. Elkan, “Maliyete Duyarlı Öğrenmenin Temelleri,” Proc. Uluslararası Ortak Kon. Yapay Zeka, s. 973-978, 2001.

[63] C. Drummond ve RC Holte, “Karar Ağacı Bölme Kriterlerinin Maliyet (In) Hassasiyetinin Kullanılması” Proc. Uluslararası Konf. Makine Öğrenimi, s. 239-246, 2000.


0

Bu çok ilginç. Son zamanlarda, nadir olaylardaki validasyonun iyi performans gösterdiği benzer bir duruma sahip bir projem var, öngörülmeyen en düşük aralıktaki (0.0 - 0.1 gibi) olay olmayan validasyonlar aydan aylara göre sabit bir şekilde gerçekleştirildi. Bahsettiğiniz gibi, olay olmayan nüfusun büyük olması nedeniyle, eğitim setlerine daha fazla örnek eklemek daha iyidir, böylece çeşitli değişken kombinasyonlarını kapsayacak kadar örnek vardır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.