«random-forest» etiketlenmiş sorular

Rastgele orman, birçok karar ağacının çıktılarını birleştirmeye dayanan bir makine öğrenme yöntemidir.

2
Çanta Dışı Hatası Rastgele Ormanlarda CV'yi gereksiz kılıyor mu?
Rastgele ormanlarda oldukça yeniyim. Geçmişte, hep doğruluğunu karşılaştırdık testi vs oturması karşı trenle vs oturması herhangi overfitting algılamak için. Ama burada sadece şunu okudum : "Rasgele ormanlarda, test seti hatasının tarafsız bir tahminini elde etmek için çapraz validasyona veya ayrı bir test setine gerek yoktur. Dahili olarak, çalışma sırasında tahmin …

1
Breiman'ın rastgele ormanı bilgi kazancı veya Gini endeksi kullanıyor mu?
Breiman'ın rastgele ormanının (R randomForest paketindeki rastgele orman) bir bölme kriteri (özellik seçimi için kriter) bilgi kazancı veya Gini endeksi olarak kullanılıp kullanılmadığını bilmek ister misiniz? Ben http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ve R'deki randomForest paketinin belgelerinde bulmaya çalıştım. Ama bulduğum tek şey Gini indeksinin değişken öneme sahip hesaplama.

1
Gini azalması ve çocuk düğümlerinin Gini safsızlığı
Rastgele orman için Gini özelliği önem ölçüsü üzerinde çalışıyorum. Bu nedenle, düğüm safsızlığında Gini azalmasını hesaplamam gerekiyor. İşte böyle yapıyorum, bu tanımla çatışmaya yol açıyor, bir yerde yanlış olmam gerektiğini gösteriyor ... :) Bir ikili ağaç için ve sol ve sağ çocukların olasılıkları göz önüne alındığında, düğümünün Gini safsızlığını hesaplayabilirim …

7
Rastgele orman aşırı uyuyor
Ben scikits-learn Rastgele Orman Regresyonu kullanmaya çalışıyorum. Sorun gerçekten yüksek bir test hatası alıyorum: train MSE, 4.64, test MSE: 252.25. Verilerim şöyle görünüyor: (mavi: gerçek veriler, yeşil: tahmin edilen): Eğitim için% 90, test için% 10 kullanıyorum. Bu, birkaç parametre kombinasyonunu denedikten sonra kullandığım kod: rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, …

1
Sürekli değişkenler tahmin edilirken karar ağacı bölünmeleri nasıl uygulanmalıdır?
Aslında Rastgele Ormanların bir uygulamasını yazıyorum ama sorunun karar ağaçlarına (RF'lerden bağımsız) özgü olduğuna inanıyorum. Yani bağlam, bir karar ağacında bir düğüm oluşturuyorum ve hem tahmin hem de hedef değişkenler süreklidir. Düğüm, verileri iki kümeye bölmek için bölünmüş bir eşik değerine sahiptir ve her kümedeki ortalama hedef değere dayalı olarak …

1
Etkileşim Terimlerini Rastgele Ormana Dahil Etme
Diyelim ki Y yanıtımız ve X1, ...., Xn tahmincileri var. Y'yi X1, ...., Xn'in doğrusal bir modeli aracılığıyla sığdırmaya çalışsaydık ve Y ve X1, ..., Xn arasındaki gerçek ilişki doğrusal değildi. X'leri bir şekilde dönüştürüp sonra modeli takarak modeli düzeltmek için. Dahası, X1, ..., XN'in diğer özelliklerden bağımsız olarak y'yi …

2
Scikit-öğrenme önyükleme işlevi neden test kümesini yeniden örnekliyor?
Model değerlendirmesi için bootstrapping kullanırken, her zaman kullanıma hazır örneklerin doğrudan bir test seti olarak kullanıldığını düşündüm. Ancak, bunun için durum olmadığı görülüyor kaldırılan scikit-öğrenmeBootstrap dışı torba veri alt kümeden değiştirme ile çizim test kümesi oluşturmak gibi görünüyor yaklaşımı,. Bunun arkasındaki istatistiksel mantık nedir? Bu tekniğin sadece torba dışı örnek …

1
Hangi torbalama algoritmaları Random Forest'ın ardıllarına layık?
Algoritmaları artırmak için, oldukça iyi geliştiklerini söyleyebilirim. 1995'in başlarında AdaBoost tanıtıldı, bir süre sonra Gradient Boosting Machine (GBM) oldu. Son zamanlarda, doğru, aşırı uyumu ele alan ve birden fazla Kaggle yarışmasının galibi haline gelen XGBoost 2015 civarında piyasaya sürüldü. 2017 yılında LightGBM Microsoft tarafından tanıtıldı, XGBoost'a kıyasla önemli ölçüde daha …

2
Caret ve basic randomForest paketi aracılığıyla randomForest'ten farklı sonuçlar
Biraz kafam karıştı: Eğitimli bir modelin şapka ile sonuçları orijinal paketteki modelden nasıl farklı olabilir? Caret paketi ile RandomForest FinalModel kullanarak tahmin öncesi önişlemenin gerekli olup olmadığını okudum ? ama burada herhangi bir ön işleme kullanmıyorum. Caret paketini kullanarak ve farklı mtry değerleri için ayarlayarak farklı Rastgele Ormanlar yetiştirdim. > …

3
Random Forest modelinde daha yeni verilerin ağırlıklandırılması
6 kategori arasında ayrım yapmak için Random Forest ile bir sınıflandırma modeli eğitimi alıyorum. İşlem verilerim yaklaşık 60k + gözlem ve 35 değişkene sahip. İşte yaklaşık olarak nasıl göründüğüne bir örnek. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | …

1
Rasgele ormanda LASSO kullanımı
Aşağıdaki işlemi kullanarak rastgele bir orman oluşturmak istiyorum: Bölmeleri belirlemek için bilgi kazancı kullanarak rastgele veri ve özellik örnekleri üzerinde bir ağaç oluşturun Bir yaprak düğümünü önceden tanımlanmış bir derinliği aşarsa YA DA herhangi bir ayrım, önceden tanımlanmış minimum değerden daha az bir yaprak sayısıyla sonuçlanır Her ağaç için bir …

1
RandomForest - MDS çizim yorumu
RandomForest'i 6 hayvan davranışını (örneğin Ayakta, Yürüme, Yüzme vb.) 8 değişkene (farklı vücut duruşları ve hareket) göre sınıflandırmak için kullandım. RandomForest paketindeki MDSplot bana bu çıktıyı verir ve sonucu yorumlamada sorun yaşıyorum. Aynı veriler üzerinde bir PCA yaptım ve zaten PC1 ve PC2'deki tüm sınıflar arasında güzel bir ayrım yaptım, …

2
Seçilen özellik sayısı azaldığında, rastgele orman OOB hata tahmini neden iyileşiyor?
1000 özellikli bilinen iki gruba ayrılan bir mikrodizi veri kümesine sınıflandırıcı olarak rastgele bir orman algoritması uyguluyorum. İlk çalıştırmadan sonra özelliklerin önemine bakıyorum ve 5, 10 ve 20 en önemli özellik ile ağaç algoritmasını tekrar çalıştırıyorum. Tüm özellikler için, ilk 10 ve 20'de OOB hata oranı tahmini% 1.19, burada ilk …



Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.