Rastgele Orman Modelleri kullanılırken Değişkenleriniz Ne Zaman Günlüğe Kaydedilir / Artırılır?


13

Çeşitli özelliklere dayalı fiyatları tahmin etmek için Random Forests kullanarak regresyon yapıyorum. Kod Python'da Scikit-learn kullanılarak yazılır.

Regresyon modeline uyması için değişkenleri kullanmadan önce exp/ kullanmadan dönüştürüp dönüştürmemeye nasıl karar verirsiniz log? Rastgele Orman gibi bir Topluluk yaklaşımı kullanırken gerekli mi?



3
Rastgele orman / topluluk yönü nedeniyle bu sorudan biraz farklı olduğunu düşünüyorum, ancak soru belki de diğer gönderiye baktıktan sonra yeniden düzeltilebilir.
Peter Flom - Monica'yı eski durumuna döndürün

@PeterFlom soruyu yeniden yazmama yardım eder misiniz? Bu alanda yeteri kadar yetenekli değilim :)
Nyxynyx

Çoğu insanın "topluluk" RF terimini kullanma şekli, bir topluluğa sadece 1 potansiyel girdidir.
Hack-R

Yanıtlar:


16

Rastgele Ormanların inşa edilme şekli, bağımsız değişkenlerin monotonik dönüşümlerine değişmez. Bölmeler tamamen benzer olacaktır. Eğer sadece doğruluk hedefliyorsanız, herhangi bir gelişme görmezsiniz. Aslında, Rastgele Ormanlar karmaşık doğrusal olmayan (Neden bu doğrusal regresyon diyorsunuz?) İlişkileri ve değişken etkileşimleri anında bulabildiğinden, bağımsız değişkenlerinizi dönüştürürseniz, bu algoritmanın yapmasına izin veren bilgileri düzeltebilirsiniz. bu düzgün.

Bazen Rastgele Ormanlar kara bir kutu olarak ele alınmaz ve çıkarsama için kullanılır. Örneğin, sağladığı değişken önem ölçülerini yorumlayabilir veya bağımsız değişkeninizin bağımlı değişkeniniz üzerindeki marjinal etkilerini hesaplayabilirsiniz. Bu genellikle kısmi bağımlılık grafikleri olarak görülür. Bu son şeyin değişkenlerin ölçeğinden oldukça etkilendiğinden eminim, bu da Rasgele Ormanlardan daha açıklayıcı bir doğa hakkında bilgi edinmeye çalışırken bir sorundur. Bu durumda, kısmi bağımlılık grafiklerini karşılaştırılabilir hale getirebilecek değişkenlerinizi dönüştürmenize (standartlaştırmanıza) yardımcı olabilir. Bundan tam olarak emin değilim, düşünmek zorunda kalacak.

Çok geçmeden Rastgele Orman kullanarak sayım verilerini tahmin etmeye çalıştım, karekök ve bağımlı değişkenin doğal günlüğü gerileyerek biraz yardımcı oldu ve modeli tutmama izin vermedi.

Çıkarım yapmak için rastgele ormanları kullanabileceğiniz bazı paketler:

https://uc-r.github.io/lime

https://cran.r-project.org/web/packages/randomForestExplainer/index.html

https://pbiecek.github.io/DALEX_docs/2-2-useCaseApartmetns.html


6

Equing @JEquihua, Rastgele Orman tahmin doğruluğu artmayacak.

Ayrıca, hem orijinal öngörücüyü hem de dönüştürülmüş öngörücüyü tutarsanız (genellikle doğrusal regresyonda olduğu gibi) sorunlara neden olabilirsiniz. Çünkü RF, her ağacı büyütmek için değişkenlerin bir alt kümesini rastgele seçer ve dönüştürülmüş değişkeni iki kez koyarsınız. Eğer güçlü bir belirleyici ise, kullanılacaktır ve rastgele ormanlarınız olabilecekleri kadar ilişkisiz olmayacak ve daha yüksek varyansa yol açacaktır.


1
Hem dönüştürülmüş hem de dönüştürülmemiş bir öngörücüyü herhangi bir modele koymak korkunç bir fikirdir. Mükemmel bir şekilde doğrusaldırlar ve rastgele orman veya doğrusal regresyon olsun, modelinizi kesinlikle karıştırırlar.
mkt - Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.