Sadece bir sınıf için sınıflandırıcı

10

Basit bir sınıflandırmada iki sınıfımız vardır: sınıf-0 ve sınıf-1. Bazı verilerde yalnızca sınıf-1 için değerler var, bu nedenle sınıf-0 için hiçbiri yok. Şimdi sınıf-1'in verilerini modellemek için bir model yapmayı düşünüyorum. Dolayısıyla, yeni veriler geldiğinde, bu model yeni verilere uygulanır ve yeni verilerin bu modele ne kadar uygun olduğunu belirten bir olasılık bulur. Sonra bir eşik ile karşılaştırıldığında, uygunsuz verileri filtreleyebilirim.

Sorularım:

Bu tür sorunlarla çalışmak için iyi bir yol var mı?
Bu durumda bir RandomForest sınıflandırıcısı kullanılabilir mi? Sınıflandırıcının gürültü olarak değerlendirdiğini umduğum sınıf 0 için yapay veriler eklemem gerekir mi?
Başka bir fikir bu soruna yardımcı olabilir mi?

machine-learning one-class

— Büyük Veri Lover
kaynak

9

Bu, bazı yaklaşımlar kullanılarak mümkündür ve kesinlikle geçerli bir yaklaşımdır. Yine de rastgele ormanların bunu yapıp yapamayacağından emin değilim.

Yapay veri üretmek, fazladan varsayımlarda bulunmak demektir, eğer gerekmiyorsa bunu yapmayın.

Bakmak isteyebileceğiniz tekniklerden biri, tek sınıf SVM'dir. Tam olarak aradığınızı yapar: eğitim noktalarını kabul eden ve diğer dağıtımlardan gelen puanları reddeden bir model oluşturmaya çalışır.

Tek sınıf SVM ile ilgili bazı referanslar:

Schölkopf, Bernhard ve ark. "Yüksek boyutlu bir dağıtımın desteğini tahmin etmek." Sinirsel hesaplama 13.7 (2001): 1443-1471. Bu makale yaklaşımı tanıttı.
Tax, David MJ ve Robert PW Duin. "Destek vektör veri açıklaması." Makine öğrenimi 54.1 (2004): 45-66. Aynı şeyi yapmanın farklı bir yolu, muhtemelen daha sezgisel.

Bu yaklaşımların her ikisinin de eşdeğer olduğu gösterilmiştir. Birincisi, tüm egzersiz verilerini özellik alanındaki başlangıç noktasından maksimum mesafeyle ayıran bir hiper düzlemi tahmin eder. İkincisi, eğitim örneklerini içeren özellik alanında minimum yarıçapa sahip bir hipersferi tahmin eder.

Tek sınıf SVM, libsvm , scikit-learn (Python) ve kernlab (R) dahil olmak üzere birçok SVM paketinde mevcuttur .

— Marc Claesen
kaynak

3

: - Vergileri en Doktora tezi "Tek sınıf sınıflandırma karşı örneklerin yokluğunda Kavram öğrenme" de mevcuttur homepage.tudelft.nl/n9d04/thesis.pdf

— SX ile cbeleites mutsuz

Kısa ve kesin! (+1) "Bu yaklaşımların her ikisinin de eşdeğer olduğu gösterilmiştir." - bunun için bir referans / alıntı belirtebilir misiniz? O mi scholar.google.de/...

— Boern

6

Biraz daha olasılık ekleyeyim:

Genel fikir, sınıftan uzaklığa bir eşik ayarlamanın, bir numunenin o sınıfa ait olup olmadığına ve başka sınıflar olup olmadığına bakılmaksızın karar verebilmenizdir.

Mahalanobis-Uzaklık => QDA
SIMCA (Sınıf Analojilerinin Yumuşak Bağımsız Modellemesi) PCA skor uzayında mesafeleri kullanır.
SIMCA, kemometrik literatürde yaygındır (ancak nadiren gerçekten tek bir sınıfta kurulmuştur).
(SVM'ler zaten @Marc Claesen'in cevabında tedavi edilmektedir)

Richard G. Brereton: Örüntü Tanıma için Kemometri'nin (Wiley, 2009) tek sınıflı sınıflandırma hakkında bütün bir bölümü vardır.

— SX ile mutsuz cbeleites
kaynak