Rastgele Ormanlar için hangi eğitim hatası rapor edilir?


16

Şu anda randomForestR'de paketi kullanarak bir sınıflandırma sorunu için rastgele ormanlar uyuyorum ve bu modeller için eğitim hatasını nasıl bildireceğinden emin değilim .

Komutla aldığım tahminleri kullanarak hesapladığımda eğitim hatam% 0'a yakın:

predict(model, data=X_train)

X_traineğitim verileri nerede .

İlgili bir soruya yanıt olarak, rastgele ormanlar için eğitim hatası metriği olarak torba dışı (OOB) eğitim hatasını kullanması gerektiğini okudum . Bu miktar, komutla elde edilen tahminlerden hesaplanır:

predict(model)

Bu durumda, OOB eğitim hatası% 11 olan ortalama 10-CV test hatasına çok daha yakındır.

Merak ediyorum:

  1. OOB eğitim hatasını rastgele ormanlar için eğitim hatası ölçüsü olarak bildirmek genellikle kabul edilir mi?

  2. Geleneksel eğitim hatası ölçüsünün yapay olarak düşük olduğu doğru mu?

  3. Geleneksel eğitim hatası ölçüsü yapay olarak düşükse, RF'nin aşırı uyup uymadığını kontrol etmek için hangi iki ölçüyü karşılaştırabilirim?

Yanıtlar:


11

@Soren H. Welling'in cevabına eklemek için.

1. Genel olarak OOB eğitim hatasını rastgele ormanlar için eğitim hatası ölçüsü olarak bildirmek kabul edilir mi?

Hayır. Eğitimli modeldeki OOB hatası, egzersiz hatasıyla aynı değildir. Bununla birlikte, tahmin doğruluğunun bir ölçüsü olarak hizmet edebilir.

2. Geleneksel eğitim hatası ölçüsünün yapay olarak düşük olduğu doğru mu?

Varsayılan ayarları kullanarak bir sınıflandırma sorunu çalıştırıyorsak bu doğrudur. Kesin süreç, R'deki paketi muhafaza eden Andy Liaw'un bir forum gönderisinderandomForest şu şekilde açıklanmaktadır:

Çoğunlukla, eğitim setindeki performans anlamsızdır. (Çoğu algoritma için, ancak özellikle RF için durum budur.) Varsayılan (ve önerilen) ayarda, ağaçlar maksimum boyuta büyütülür, yani çoğu terminal düğümünde sadece bir veri noktası ve terminal düğümlerindeki tahmin, düğümdeki çoğunluk sınıfı veya yalnız veri noktası tarafından belirlenir. Her zaman böyle olduğunu varsayalım; yani, tüm ağaçlarda tüm terminal düğümleri sadece bir veri noktasına sahiptir. Belirli bir veri noktası ormandaki ağaçların yaklaşık% 64'ünde "torbada" olacaktır ve bu ağaçların her biri bu veri noktası için doğru tahminlere sahiptir. Bu veri noktalarının kullanıma hazır olduğu tüm ağaçlar yanlış tahmin vermiş olsa bile, tüm ağaçların oy çokluğu ile, sonunda hala doğru cevabı alırsınız. Dolayısıyla temel olarak RF için ayarlanmış trende mükemmel bir tahmin "tasarım gereğidir".

Bu davranışı önlemek için, nodesize > 1(ağaçların maksimum boyuta büyütülmemesi için) ve / veya set sampsize < 0.5N(ağaçların% 50'sinden daha azının belirli bir nokta içermesi muhtemel olabilir.(xi,yi) .

3. Geleneksel eğitim hatası ölçüsü yapay olarak düşükse, RF'nin aşırı uyup uymadığını kontrol etmek için hangi iki ölçüyü karşılaştırabilirim?

RF'yi nodesize = 1ve ile çalıştırırsak, RF'nin sampsize > 0.5eğitim hatası her zaman 0'a yakın olacaktır. Bu durumda, modelin fazla takılıp takılmadığını anlamanın tek yolu bazı verileri bağımsız bir doğrulama seti olarak tutmaktır. Daha sonra 10-CV test hatasını (veya OOB test hatasını) bağımsız doğrulama setindeki hatayla karşılaştırabiliriz. 10-CV test hatası, bağımsız doğrulama setindeki hatadan çok daha düşükse, model aşırı uyuyor olabilir.


2

[düzenlendi 21.7.15 08:31 CEST]

Sanırım sınıflandırma için RF kullandınız. Çünkü bu durumda, algoritma sadece bir hedef sınıfın saf terminal düğümlerine sahip tamamen büyümüş ağaçlar üretir.

predict(model, data=X_train)

Bu kodlama dizisi kendi kuyruğunu kovalayan bir köpek gibidir. Herhangi bir eğitim örneğinin tahmini, eğitim örneğinin kendisidir. Regresyon için, düğümde 5 veya daha az örnek varsa veya düğüm safsa RF durur. Burada tahmin hatası küçük olacak, ancak% 0 olmayacak.

Makine öğreniminde genellikle büyük hipotez uzaylarıyla çalışırız. Bu, eğitim setimizin veri yapısına her zaman henüz tahrif edilmemiş birçok hipotez / açıklama / model olacağı anlamına gelir. Klasik istatistiklerde hipotez alanı genellikle küçüktür ve bu nedenle doğrudan model uyumu bazı varsayılan olasılık teorisine göre bilgilendiricidir. Makine öğreniminde doğrudan uyum eksikliği önyargı ile ilgilidir modelin . Önyargı, modelin "esnek olmayanlığı" dır. O değilher halükarda genelleme gücünün (yeni olayları tahmin edebilme) yaklaşık olarak sağlanmasını sağlar. Algoritmik modeller için çapraz validasyon, hiçbir teori formüle edilmediğinden genelleme gücüne yaklaşmak için en iyi araçtır. Bununla birlikte, bağımsız örneklemenin model varsayımları başarısız olursa, başka türlü önerilmiş iyi bir çapraz geçerlilik doğrulaması olsa bile model bir şekilde işe yaramayabilir. Sonunda, en güçlü kanıt, çeşitli kökenlere sahip bir dizi harici test setini tatmin edici bir şekilde tahmin etmektir.

CV'ye geri dön: Torbalı çanta genellikle kabul edilen bir CV türüdür. Şahsen OOB-CV'nin 5-kat-CV ile benzer sonuçlar verdiğini düşünüyorum, ancak bu çok küçük bir sıkıntı. Karşılaştırma yapmak gerekirse RF'yi SVM ile diyelim, OOB-CV normalde SVM'yi torbalamaktan kaçınacağımız için yararlı değildir. Bunun yerine, hem SVM hem de RF, aynı çapraz validasyon şemasına gömülebilir, örneğin her bir tekrar için eşleşen bölümlerle 10 kat 10 tekrar. Herhangi bir özellik mühendisliği adımının sıklıkla çapraz doğrulanması da gerekecektir. İşleri temiz tutmak için tüm veri hattı CV'ye gömülebilir.

Modelinizi test setinizle (veya çapraz doğrulamayla) ayarlarsanız tekrar hipotez alanınızı şişirirsiniz ve onaylanmış tahmin performansı muhtemelen aşırı iyimserdir. Bunun yerine, ayarlamak için bir kalibrasyon setine (veya kalibrasyon CV-döngüsüne) ve son optimal modelinizi değerlendirmek için bir test doğrulama kümesine (veya doğrulama CV-döngüsüne) ihtiyacınız olacaktır.

Aşırı anlamda, doğrulama puanınız yalnızca bu sonuç üzerinde asla hareket etmediğinizde, gördüğünüzde tarafsız olacaktır. Doğrulama paradoksudur, çünkü neden sadece üzerinde hareket etmezseniz doğru olan bir bilgi edinelim. Uygulamada topluluk, rasgele aşırı iyimser bir geçerliliğe sahip araştırmacıların yayınlanma olasılığının aşırı kötümser bir geçerliliğe sahip olanlardan daha fazla olduğu bazı yayın yanlılıklarını isteyerek kabul eder. Bu yüzden bazen neden başka modeller üretemiyoruz.


Bunun için teşekkür ederim. İki soru: (1) Herhangi bir eğitim örneğinin tahmini, eğitim örneği sınıfının kendisidir? Çoğunluk oylama prosedüründe kullanılan eğitim örneğini kullanmayan ağaçlar olmalı? (2) Peki bir RF önleminin aşırı uyup uymadığını nasıl değerlendirirsiniz?
Berk

(1) evet evet orada biraz hızlıydım, cevabı düzenledim. Herhangi bir örnek inbag olacak ağaçların ~% 66%. Eğer bir ağaçtaki bir örnek eğitim sırasında inbag ise, ~% 66 tahmin sırasında aynı düğümde sonuçlanır ve bu her seferinde çoğunluk oyu kazanmak için yeterlidir. Örneklemeyi tren örneklerinin% 30'una düşürerek bunu onaylayın ve% 0 sınıflandırma hatasından bir artış fark edin. (2) Sanırım buna cevap verdim. RF gereğinden fazla uymaz, ancak ayarlama sırasında aşırı iyimser bir OOB-CV sonucu alacağınız bir bağlam oluşturabilirsiniz. Kesin olarak bilmek için tüm sürecinizi yeni bir CV'ye gömün.
Soren Havelund Welling
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.