Aşırı Örneklenmiş Dengesizlik Verilerinde Sınıflandırmanın Test Edilmesi


19

Ciddi dengesiz veriler üzerinde çalışıyorum. Literatürde, yeniden örnekleme (aşırı veya düşük örnekleme) kullanarak verileri yeniden dengelemek için çeşitli yöntemler kullanılmaktadır. İki iyi yaklaşım:

  • SMOTE: Sentetik Azınlık Aşırı Örnekleme Teknikleri ( SMOTE )

  • ADASYN: Dengesiz Öğrenme için Uyarlanabilir Sentetik Örnekleme Yaklaşımı ( ADASYN )

ADASYN'i uyarladım çünkü uyarlanabilir yapısı ve çok sınıflı problemlere genişleme kolaylığı.

Benim sorum ADASYN tarafından üretilen aşırı örneklenmiş verilerin (veya başka bir aşırı örnekleme yönteminin) nasıl test edileceğidir. Bahsedilen iki makalede deneylerini nasıl gerçekleştirdikleri açık değildir. İki senaryo vardır:

1- Tüm veri kümesini aşırı örnekleyin, ardından eğitim ve test setlerine (veya çapraz doğrulamaya) bölün.

2- Orijinal veri kümesini böldükten sonra, yalnızca eğitim setinde aşırı örnekleme yapın ve orijinal veri test setini test edin (çapraz doğrulama ile gerçekleştirilebilir).

İlk durumda, sonuçlar aşırı örneklemeden çok daha iyidir, ancak aşırı sığdırma varsa endişeliyim. İkinci durumda, sonuçlar aşırı örneklemeden biraz daha iyi ve ilk durumdan çok daha kötü. Ancak ikinci durumla ilgili endişe, tüm azınlık sınıfı örneklerinin test setine gitmesi durumunda, aşırı örneklemeyle hiçbir fayda sağlanamayacağıdır.

Bu tür verileri test etmek için başka ayarlar olup olmadığından emin değilim.

Yanıtlar:


18

Birkaç yorum:

Seçenek (1) çok kötü bir fikirdir. Aynı noktanın kopyaları hem eğitim hem de test setlerinde sonuçlanabilir. Bu, sınıflandırıcının hile yapmasına izin verir, çünkü test seti üzerinde tahminler yapmaya çalışırken sınıflandırıcı, tren setinde zaten aynı noktaları görmüş olacaktır. Bir test seti ve bir tren setine sahip olmanın tüm amacı, test setinin tren setinden bağımsız olması gerektiğidir.

k


Cevabınız için teşekkürler Stefan. Ama bir noktayı açıklığa kavuşturmak istiyorum: Bahsettiğim yöntemler, verilerin "sentetik" örneklerini oluşturur, orijinaliyle tam olarak aynı değildir. Yani aynı eğitim verilerini test ediyor gibiyim. Ancak, seçenek 1'in geçerli bir yaklaşım olup olmadığından hala emin değilim.
Ücretler

Tamam anladım! (1) ile ilgili sorun, "sentetik" veriler oluştursanız bile, yine de devam etmektedir, çünkü sentetik veriler genellikle taklit ettiği orijinal verilere çok benzerdir.
Stefan Wager

@StefanWager Test setinin dağılımı ne olacak? Orijinal veri kümesiyle aynı mı olmalı?
wannik

2
bu iddiayı desteklemek için herhangi bir makale referansı?
girl101

@ stefan'ın yaklaşımı doğrudur, asla doğrulama setinizi arttırmaz veya sentezlemezsiniz, çünkü modelinizin nasıl öğrendiğine dair kanıtınız (test), bunu yapmak için orijinal verilere ihtiyacınız vardır
M090009

9

İkinci (2) seçenek bunu yapmanın doğru yoludur. Aşırı örnekleme teknikleri ile oluşturduğunuz sentetik örnekler gerçek örnekler değil, sentetiktir. Bunlar, eğitim için hala uygunken test amacıyla geçerli değildir. Algoritmayı değiştirmeden sınıflandırıcının davranışını değiştirmeyi amaçlamaktadırlar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.