Bir Ağaç Topluluğu'nu yüksek önyargılı veri kümeleriyle eğitmenin sonuçları nelerdir?


14

Oldukça önyargılı bir ikili veri setim var - Negatif sınıfın pozitif sınıftan 1000 kat daha fazla örneği var. Bu veriler üzerinde bir Ağaç Topluluğu (Ekstra Rastgele Ağaçlar veya Rastgele Orman gibi) eğitmek istiyorum, ancak pozitif sınıfın yeterli örneklerini içeren eğitim veri kümeleri oluşturmak zor.

Pozitif ve negatif örneklerin sayısını normalleştirmek için tabakalı örnekleme yaklaşımı yapmanın sonuçları ne olurdu? Başka bir deyişle, örneğin, eğitim setindeki pozitif sınıf örneklerinin sayısını yapay olarak şişirmek (yeniden örnekleyerek) kötü bir fikir midir?

Yanıtlar:


10

Evet, sorunlu. Azınlığı fazla örneklerseniz, aşırı takılma riskiyle karşı karşıya kalırsınız. Çoğunluğu örnek alırsanız, çoğunluk sınıfının eksik yönlerini göze alırsınız. Tabakalı örnekleme, btw, muntazam olmayan yanlış sınıflandırma maliyetlerini atamaya eşdeğerdir.

Alternatifler:

(1) Çoğunluk sınıfından birkaç altkümeyi bağımsız olarak örneklemek ve @Debasis'in cevabında önerildiği ve bu EasyEnsemble belgesinde açıklanan her bir altkümeyi tüm azınlık sınıfı verileriyle birleştirerek birden fazla sınıflandırıcı yapmak ,

(2) Özellik alanında en yakın komşuları yaparak azınlık sınıfının sentetik örneklerini oluşturmak için SMOTE (Sentetik Azınlık Aşırı Örnekleme Tekniği) veya SMOTEBoost (SMOTE'yi güçlendirmeyle birleştirerek) . SMOTE, DMwR paketindeki R'de uygulanır .


11

Verilerinizin daha dengeli alt kümeleri hakkında eğitim almanızı öneririm. Benzer sayıda negatif örnekle rastgele seçilen pozitif örnek setleri üzerinde rastgele orman eğitimi. Özellikle, ayrımcı özellikler çok fazla sapma gösterirse, bu oldukça etkili olacaktır ve fazla oturmayı önleyecektir. Bununla birlikte, tabakalaşmada dengeyi bulmak önemlidir, çünkü aşırı uyum ne olursa olsun bir sorun haline gelebilir. Modelin tüm veri seti ile nasıl yapıldığını görmeyi ve ardından eşit bir orana yaklaşan pozitif / negatif örneklerin oranını kademeli olarak artırmayı ve bazı temsili tutma verilerindeki performans metriğinizi en üst düzeye çıkaranı seçmenizi öneririm.

Bu makale http://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf adresinde oldukça ilgili görünmektedir ve weighted Random Forestbunlardan azınlık sınıfının yanlış sınıflandırılmasını daha ağır cezalandırmaktadır.


4

Bu dengesizliğe yaklaşmanın hızlı, kolay ve etkili bir yolu, daha büyük sınıfı (sizin durumunuzda negatif sınıftır) rastgele alt örneklemek, iki sınıftaki üyelerle (biri dolu ve diğeri) sınıflandırma N sayısını çalıştırmak olacaktır. ortalama metrik değerleri rapor edin ve ortalama N (1000) yinelemeleri üzerinden hesaplanan ortalama metrik değerlerini rapor edin.

Daha metodik bir yaklaşım, OSVM veya SVDD gibi bir sınıf sınıflandırıcı yardımıyla güçlü negatif örneklerin bir alt kümesinin tanımlanmasını içeren Eşleme Yakınsama (MC) algoritmasını yürütmek ve daha sonra kümede yinelemeli olarak yürütmek olacaktır. negatif ve pozitif örneklerin. MC algoritmasının daha fazla detayını bu makalede bulabilirsiniz .


0

Yukarıda belirtildiği gibi, en iyi yol, çoğunluk sınıfı N kez (değiştirmeden örnekleme) tekrar tekrar örneklemektir ve her seferinde negatif sınıfın boyutu, pozitif sınıfın boyutuna eşit olmalıdır. Şimdi, N farklı sınıflandırıcı eğitilebilir ve ortalama değeri değerlendirmek için kullanılabilir.

Başka bir yol, önyükleme tekniğini kullanmaktır. Bu aşırı takmaya neden olabilir, ancak denemeye değer ve daha sonra gerekli olması durumunda aşırı takılmayı önlemek için modeli düzenleyebilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.