Çanta Dışı Hatası Rastgele Ormanlarda CV'yi gereksiz kılıyor mu?


15

Rastgele ormanlarda oldukça yeniyim. Geçmişte, hep doğruluğunu karşılaştırdık testi vs oturması karşı trenle vs oturması herhangi overfitting algılamak için. Ama burada sadece şunu okudum :

"Rasgele ormanlarda, test seti hatasının tarafsız bir tahminini elde etmek için çapraz validasyona veya ayrı bir test setine gerek yoktur. Dahili olarak, çalışma sırasında tahmin edilir ..."

Yukarıdaki küçük paragraf Torbadaki (oob) hata tahmini Bölümü altında bulunabilir. Bu Çanta Dışı Hatası kavramı benim için tamamen yeni ve biraz kafa karıştırıcı olan şey, modelimdeki OOB hatasının nasıl% 35 (veya% 65 doğruluk) olduğu, ancak yine de verilerime çapraz doğrulama uygularsam (sadece basit bir kısıtlama) yöntem) ve her iki karşılaştırma testi karşı uyum karşı tren karşı uyum I sırasıyla% 65 akıcı ve% 96 doğruluk elde. Benim tecrübelerime göre, bu aşırı uydurma olarak kabul edilir, ancak OOB, tıpkı test ve test hatasım gibi% 35 hata tutar . Aşırı takılıyor muyum? Rastgele ormanlarda aşırı sığdırma olup olmadığını kontrol etmek için çapraz doğrulama kullanmalı mıyım?

Kısacası, benim uyum vs tren benim aşırı uydurma gösterdiğinde test seti hatası tarafsız bir hata almak için OOB güvenmek gerekir emin değilim!


Hiper parametrelerin belirlenmesi için OOB kullanılabilir. Bunun dışında, benim için, bir modelin performansını tahmin etmek için çapraz doğrulama kullanılmalıdır.
Metariat

@Matemattica hiper parametreler hakkında konuşurken tam olarak neden bahsediyorsunuz?
Konudaki

her yinelemede rastgele seçilen ağaç ve özellik sayısı
Metariat

Bu tamamen farklı bir soru biliyorum ama her yinelemede ağaç sayısını ve özellik örneğini bir hatadan nasıl belirliyorsunuz?
jgozal

1
Bu yardımcı olabilir: stats.stackexchange.com/a/112052/78313 Genel olarak RF'de hiç böyle bir fark görmedim!
Metariat

Yanıtlar:


21
  • eğitim hatası (olduğu gibi predict(model, data=train)) genellikle işe yaramaz. Ağaçları (standart olmayan) budama yapmadığınız sürece, algoritmanın tasarımı ile 0'ın çok üzerinde olamaz . Rastgele orman, kötü bir şekilde fazla olduğu bilinen karar ağaçlarının bootstrap toplanmasını kullanır. Bu, 1'e en yakın komşu sınıflandırıcı için eğitim hatası gibidir.

  • 1e

    Bu nedenle, çantadan çıkma hatası, çapraz doğrulama hatası ile tam olarak aynı değildir (toplama için daha az ağaç, daha fazla eğitim vakası kopyası), ancak pratik amaçlar için yeterince yakındır.

  • Aşırı takmayı tespit etmek için bakmak mantıklı olan şey, çantadan çıkma hatasını harici bir doğrulama ile karşılaştırmaktır. Ancak, verilerinizdeki kümelemeyi bilmiyorsanız, "basit" çapraz doğrulama hatası, çantadan çıkma hatasıyla aynı iyimser önyargıya eğilimli olacaktır: ayırma işlemi çok benzer ilkelere göre yapılır.
    Bunu algılamak için iyi tasarlanmış bir test denemesi için torbadan çıkmış veya çapraz doğrulamayı hatalı olarak karşılaştırmanız gerekir.


11

Torbadan çıkma hatası kullanışlıdır ve diğer performans tahmini protokollerinin (çapraz doğrulama gibi) yerini alabilir, ancak dikkatli kullanılmalıdır.

Çapraz doğrulama gibi, torbalı olmayan numuneler kullanılarak yapılan performans tahmini, öğrenme için kullanılmayan veriler kullanılarak hesaplanır. Veriler, numuneler arasında bilgi aktaracak şekilde işlenmişse, tahmin (muhtemelen) taraflı olacaktır. Akla gelen basit örnekler, özellik seçimi veya eksik değer saptama işlemidir. Her iki durumda da (ve özellikle özellik seçimi için) veriler, tüm veri kümesindeki bilgiler kullanılarak dönüştürülür ve tahminde bulunulur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.