Nadir rastlanan karşı olgusal olaylardan kaynaklandığı zaman “nadir” olaylarla denetimli öğrenme

13

Bir pazardaki alıcılar ve satıcılar arasında "eşleşmeleri" gözlemlediğinizi varsayalım. Ayrıca, gelecekteki maçları tahmin etmek ve pazarın her iki tarafına önerilerde bulunmak için kullanmak istediğiniz alıcıların ve satıcıların özelliklerini de gözlemleyebilirsiniz.

Basitlik için, N alıcı ve N satıcı olduğunu ve her birinin bir eşleşme bulduğunu varsayalım. N ve (N-1) (N-1) eşleşmeyen maçlar var. Her şey dahil eğitim veri kümesinde N + (N-1) * (N-1) gözlemleri vardır ve bunlar büyük ölçüde geniş olabilir. Görünüşe göre (N-1) (N-1) eşleşmeden rastgele örnekleme ve bu azaltılmış veriler üzerinde bir algoritma eğitimi daha verimli olabilir. Sorularım:

(1) Bir eğitim veri seti oluşturmak için eşleşmeyenlerden örnekleme, bu sorunla başa çıkmak için makul bir yöntem midir?

(2) Eğer (1) doğruysa, (N-1) (N-1) yığınının ne kadar büyük olduğuna karar vermenin titiz bir yolu var mı?

machine-learning

— John Horton
kaynak

11

Doğru anlarsam, pozitif sınıfın (eşleşmelerin) nadir olduğu iki sınıflandırma probleminiz vardır. Birçok sınıflandırıcı böyle bir sınıf dengesizliği ile mücadele eder ve daha iyi performans elde etmek için çoğunluk sınıfını alt örneklemek yaygın bir uygulamadır, bu nedenle ilk sorunun cevabı "evet" tir. Bununla birlikte, çok fazla alt örnekleme yaparsanız, azınlık pozitif sınıfını aşırı tahmin eden bir sınıflandırıcıyla karşılaşırsınız, bu nedenle yapılacak en iyi şey, performansı en üst düzeye çıkarmak için belki de çapraz Test verilerinin alt örneklenmemiş olduğu doğrulama hatası , böylece operasyonel performansın iyi bir göstergesini elde edersiniz.

Sınıf memebership olasılığı hakkında bir tahmin veren olasılıklı bir sınıflandırıcı varsa, bir set daha iyi gidebilir ve eğitim setinde ve operasyonda sınıf frekansları arasındaki farkı telafi etmek için çıktıyı işleyebilir. Bazı sınıflandırıcılar için en uygun yaklaşımın, çapraz doğrulama hatasını optimize ederek hem alt örnekleme oranını hem de çıktıya yapılan düzeltmeyi optimize etmekten şüpheleniyorum.

Alt örneklemeden ziyade, bazı sınıflandırıcılar (örn. SVM'ler) için pozitif ve negatif kalıplara farklı ağırlıklar verebilirsiniz. Kullanılan alt-örneklem nedeniyle sonuçlarda herhangi bir değişkenlik olmadığı için bunu alt örneklemeye tercih ederim. Bunun mümkün olmadığı durumlarda, her yinelemede çoğunluk sınıfının farklı bir alt örneğinin kullanıldığı torbalanmış bir sınıflandırıcı yapmak için bootstrapping kullanın.

Söyleyeceğim diğer bir şey, yaygın olarak büyük bir sınıf dengesizliği, yanlış negatif hatalar ve yanlış pozitif hatanın eşit derecede kötü olmadığı ve bunu sınıflandırıcı tasarımına (alt - her sınıfa ait örnekleme veya ağırlıklandırma kalıpları).

— Dikran Keseli
kaynak

3

(+1), ancak ben sıralama (ölçü: AUC) ve iki sınıf ayırma (ölçü: Doğruluk) hedefi arasında dinguish gerektiğini düşünüyorum. Önceki durumda, Naive Bayes gibi olasılıklı bir sınıfçı göz önüne alındığında, dengesizliğin daha az rol oynadığını düşünüyorum. Yoksa bu durumda da endişelenmeli mi? Başka bir soru: "Çıktı sonrası işlem" ile ne demek istiyorsun? Skorları gerçek olasılıklara dönüştürme?

— steffen

@Steffen Sezgim, sınıf dengesizliği sorununun sıralama için daha az sorun olduğu, ancak tamamen ortadan kalkmayacağıdır (bu sorun hakkında bir kağıt üzerinde çalışıyorum, bu yüzden çözülmeye değer bir şey). Sonradan işleme ile, çıktıları operasyonel ve eğitim seti sınıf frekansları ile çarpmak ve daha sonra yeniden normalleştirmek, böylece tüm olası sonuçların olasılıkları bire çarpmak istedim. Bununla birlikte, uygulamada gerçek optimal ölçeklendirme faktörü biraz farklı olabilir - bu nedenle XVAL ile optimize edin (ancak yine de normalleştirin).

— Dikran Marsupial

1

İlgili (1). Anlamlı sonuçlar elde etmek istiyorsanız olumlu ve olumsuz gözlemler yapmalısınız.
(2) Verilerinizde herhangi bir önyargınız yoksa, tekdüze dağılımdan daha akıllı bir alt örnekleme yöntemi yoktur.

— Ugo
kaynak

Teşekkürler Ugo - kabul edildi, kesinlikle eğitim verilerinde hem maçların hem de maçların olmaması gerekiyor. Soru, (N-1) (N-1) eşleşmesinin kaç tanesinin gerekli olduğu ile ilgilidir. Kısım (2) için, kesinlikle tüm gözlemler üzerinden eşit ağırlıkta örnek alacağım.

— John Horton

Verilerinizde apriori yoksa, verileri örneklemenin makul bir yolu yoktur. Yani tek tip örnekleme yapmak zorundasınız ve bu durumda ne kadar çok alırsanız o kadar iyidir. Bununla birlikte, örneklemenin getirdiği hatayı tahmin edebilirsiniz, ancak bu noktada size yardımcı olacak bilgileri burada kaçırıyoruz.

— Ugo

Bana öyle geliyor ki hata kullanılan sınıflandırıcı türüne bağlı olacaktır. Her neyse, her zaman farklı örnek hızında tahmin etmeye çalışabilir ve ortaya çıkan hatanın tatmin edici olduğunu düşündüğünüz bir eşiği düzeltebilirsiniz.

— Ugo