RandomForest-sklearn'de sınıflandırma eşiği


9

1) Sklearn'deki RandomForest'te sınıflandırma eşiğini (varsayılan olarak 0,5 olduğunu düşünüyorum) nasıl değiştirebilirim?

2) sklearn'de nasıl yetersiz numune alabilirim?

3) RandomForest sınıflandırıcısından şu sonucu aldım: [[1635 1297] [520 3624]]

         precision    recall  f1-score   support

class 0       0.76      0.56      0.64      2932
class 1       0.74      0.87      0.80      4144

ort / toplam 0,75 0,74 0,73 7076

ilk olarak, veriler dengesizdir (sınıf-0'dan% 30 ve sınıf-1'den% 70). Bu yüzden, sınıflandırıcının sınıf-1 için önyargılı olması daha muhtemel olduğunu düşünüyorum, yani sınıf-0'dan sınıf-1'e biraz taşıyın (sınıf-0 için 1297 yanlış sınıflandırma, ancak sınıf-1 için 520 yanlış sınıflandırma vardır). Bunu nasıl düzeltebilirim? altörnekleme yardımcı olabilirse? veya sınıflandırma eşiğini değiştirme?

Güncelleme: sınıf-0 nüfusun% 40'ını oluştururken sınıf-1% 60'tır. Bununla birlikte, sınıf-0'dan sınıf-1'e (1297) sapma yüksektir, ancak bunun düşük olmasını istiyorum.

Yanıtlar:


7

Rastgele ormanı , iç rastgele ormanın yöntemini predictçağıran bir yöntem predict_probave yalnızca özel bir eşik değerinden daha yüksekse sınıf 1 çıktısını alabileceğiniz bir sınıfa sarıp sarmalayabilirsiniz .

Alternatif sample_weightolarak, azınlık sınıfından örnekler için daha yüksek bir değer ileterek eğitim algoritmasını saptırabilirsiniz.


Teşekkürler. Küçük sınıf için kilo artırmayı düşünüyordum. Ancak, RandomForest sınıflandırıcısında hiçbir şey göremiyorum (SGDclassifier'da var)
Büyük Veri Lover

Sığdırma yöntemi sample_weight, çok esnek olan ve simüle etmeyi mümkün kılan class_weight(hedef sınıf başına bir ağırlık ) bir param (parametre başına bir ağırlık) kabul eder .
ogrisel

Teşekkürler. clf = clf.fit (X, Y, sample_weight = preprocessing.balance_weights (y) kullandığımda bana ValueError veriyor: işlenenler şekillerle birlikte yayınlanamadı. y ikili 0/1
Big Data Lover

Şekli nedir y? Neden farklı Yve y?
ogrisel
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.