Rastgele Ormanlarla modelleme çapraz doğrulama gerektirir mi?


10

Gördüğüm kadarıyla, bu konuda görüşler farklı. En iyi uygulama, çapraz doğrulamayı kullanmayı dikte eder (özellikle RF'leri aynı veri kümesindeki diğer algoritmalarla karşılaştırırsanız). Öte yandan, orijinal kaynak, model eğitimi sırasında OOB hatasının hesaplandığının test seti performansının bir göstergesinin yeterli olduğunu belirtir. Trevor Hastie bile, nispeten yakın tarihli bir görüşmede "Rastgele Ormanlar ücretsiz çapraz doğrulama sağlıyor" diyor. Sezgisel olarak, eğer bir veri seti üzerinde bir RF tabanlı modeli eğitiyor ve geliştirmeye çalışıyorsam, bu bana mantıklı geliyor.

Bu konudaki fikriniz nedir?


3
bu sorunun ana noktasını ele almıyor - ancak yine de muhtemelen ikincil parametreleri (ağaçların derinliği gibi) çapraz doğrulamak istersiniz
Wouter

RF'yi kullanabilir veya eğitim setindeki performans açısından diğer yaklaşımlarla karşılaştırabilir veya performansı test etmek için bağımsız / veri alt kümesini kullanabilirsiniz. Bu sizin hipotezinizin bir sorusudur: sonuçları daha büyük bir nüfusa genelleştirmeye mi yoksa RF'nin bir özelliği yerine sadece eldeki verileri sınıflandırmaya mı çalışıyorsunuz?
katya

Yanıtlar:


3

OOB hatası, her bir gözlem için, sadece önyükleme örneklerinde bu özel gözlemi olmayan ağaçlar kullanılarak hesaplanır; bu ilgili soruya bakın . Bu, belirli bir gözlemin belirli bir önyükleme örneğindeki olma olasılığı olduğu için kabaca iki kat çapraz doğrulamaya çok eşdeğerdir.1-(1-1N-)N-1-e-10.6

@Wouter'ın işaret ettiği gibi, muhtemelen parametre ayarı için çapraz doğrulama yapmak isteyeceksiniz, ancak test seti hatasının tahmini olarak OOB hatası iyi olmalıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.