Rastgele Ormanlar tahmin yanlılığı gösterir mi?

12

Bence bu basit bir soru, ancak neden ya da neden olmasın ardındaki mantık olmayabilir. Sormamın nedeni, yakın zamanda bir RF uygulamamı yazdım ve iyi performans göstermesine rağmen beklediğim kadar iyi performans göstermiyor ( Kaggle Fotoğraf Kalitesi Tahmin yarışması veri setine, kazanan puanlara ve bazılarına dayanarak) hangi tekniklerin kullanıldığı hakkında mevcut olan sonraki bilgiler).

Bu gibi durumlarda yaptığım ilk şey modelim için çizim tahmin hatasıdır, bu nedenle verilen her tahmin değeri için ortalama önyargı (veya sapma) doğru hedef değerden uzağa belirlerim. Benim RF için bu arsa var:

Doğru hedef değerden sapmaya karşı tahmin değeri

Bunun RF için yaygın olarak gözlenen bir önyargı deseni olup olmadığını merak ediyorum (eğer değilse, belki de veri setine ve / veya uygulamama özgü bir şey olabilir). Elbette bu çizimi önyargıyı telafi etmek için kullanarak tahminleri iyileştirmek için kullanabilirim, ancak RF modelinin kendisinde ele alınması gereken daha temel bir hata veya eksiklik olup olmadığını merak ediyorum. Teşekkür ederim.

== EK ==

İlk araştırmam bu blog girişinde Rastgele Orman Yanlılığı - Güncelleme

algorithms random-forest cart

— redcalx
kaynak

2

Verilerinizin bir özelliği olabilir; bu etkiyi yeniden üretip üretmediğini görmek için aynı veri kümesinde başka RF uygulamaları çalıştırmayı denediniz mi?

4

( Uzman olmaktan çok uzaktayım . Bunlar sadece farklı, ama benzer şekilde benzeyen konularla ilgilenen genç bir istatistikçiden gelenler. Cevabım bağlam dışında olabilir.)

Öngörülecek yeni bir örnek ve çok daha büyük bir eğitim setine erişimi olan bir kehanet göz önüne alındığında , belki de "en iyi" ve en dürüst tahmin, bunun bunun Red sınıfına değil, Red sınıfına ait olduğunu% 60 olasılıkla tahmin ediyorum. Mavi sınıf ".

Daha somut bir örnek vereceğim. Çok büyük eğitim setimizde, yeni örneğimize çok benzeyen çok sayıda örnek olduğunu hayal edin. Bunların% 60'ı mavi,% 40'ı kırmızıdır. Ve Blues'u Kırmızı'dan ayıracak hiçbir şey yok gibi görünüyor. Böyle bir durumda, aklı başında bir kişinin yapabileceği tek tahmin% 60 /% 40 olduğu açıktır.

Tabii ki, böyle bir kehanetimiz yok, bunun yerine çok sayıda ağacımız var. Basit karar ağaçları bu% 60 /% 40 tahminlerini yapamaz ve bu nedenle her ağaç ayrı bir tahmin yapar (Kırmızı veya Mavi, aralarında hiçbir şey yoktur). Bu yeni örnek karar yüzeyinin Kırmızı tarafına düştüğünden, neredeyse tüm ağaçların Mavi yerine Kırmızı'yı tahmin ettiğini göreceksiniz. Her ağaç olduğundan daha kesin gibi davranır ve önyargılı bir tahminde iz bırakmaya başlar.

Sorun şu ki, kararı tek bir ağaçtan yanlış yorumlama eğilimindeyiz. Kırmızı sınıfta tek bir ağaç koyar bir düğüm, biz ne zaman değil ağacından% 100 /% 0 tahmin olarak yorumlamak. (Sadece bunun kötü bir tahmin olduğunu 'bildiğimizi' söylemiyorum. Daha güçlü bir şey söylüyorum, yani ağacın tahmini olarak yorumladığımız konusunda dikkatli olmalıyız). Bunu nasıl düzelteceğimi kısaca anlayamıyorum. Ancak, tek bir ağacın belirsizliği konusunda daha dürüst olmasını teşvik etmek için, bir ağaç içinde nasıl daha 'bulanık' bölünmeler oluşturulacağına ilişkin istatistik alanlarından fikir almak mümkündür. Daha sonra, bir ağaç ormanından tahminleri anlamlı bir şekilde ortalamak mümkün olmalıdır.

Umarım bu biraz yardımcı olur. Değilse, herhangi bir yanıttan öğrenmeyi umuyorum.

— Aaron McDaid
kaynak

Bulanık, aşırı RF ruhuna böler (ama muhtemelen çok aşırı değil mi?). Açıklamanız bana mantıklı geldiği için bunu deneyeceğim. Teşekkürler.

— redcalx

[Rastgele Orman - Önyargı Sorunu Üzerine Düşünceler] ( the-locster.livejournal.com/134241.html ) "O zamanki anahtar (sanırım), hepsi bir dizi olacak şekilde eşit olmayan bir rastgele [ birleştirildiğinde bölme noktaları y = f (x) 'i yeniden oluşturur ve RF'deki DT'lerin sayısı sonsuza doğru meyilli olduğu için y = f (x)' in mükemmel bir temsiline yaklaşır. "

— redcalx

% 60/40 tahminleri bir regresyon ağacı tarafından ele alınmaz mı? Güven, bir yaprak bölümünde (eğitim seti için) sınıf oranı olacaktır. Belki de bu istatistiksel güçle başa çıkmak için genişletilebilir / genişletilebilir

— Alter

3

Evet. Çoğu ağacın kuyruklarında bir sapma vardır. Görmek:

Sürekli değişkenleri tahmin ederken karar ağacı bölünmeleri nasıl uygulanmalıdır?

"Ağaçlarla ilgili potansiyel bir sorun, kuyruklara zayıf şekilde uyum sağlama eğiliminde olmalarıdır. Eğitim setinin düşük aralığını yakalayan bir terminal düğümü düşünün. sonuç (ortalama olduğu için). "

— topepo
kaynak

Yorumun rastgele ormanlar için geçerli olduğunu sanmıyorum

— Zach

Rastgele ormanların referans uygulamasının, yanıt değişkeni sürekli olduğunda düğümlerde ~ 5 gözlem ile durduğuna inanıyorum. Eğer bölme değişkeni de sürekli olsaydı, bu hala az miktarda yanlılık yaratacaktır. LOESS'in genellikle desteğin kenarlarındaki ortalanmış hareketli bir ortalamadan daha iyi göründüğüne benzer ...

— Shea Parkes