Random Forest çok küçük veri setleri için uygun mu?


13

24 sıra aylık veri içeren veri setim var. Bu özellikler GSYİH, havaalanı varış, ay ve diğer birkaç. Bağımlı değişken popüler bir turizm bölgesini ziyaret edenlerin sayısıdır. Rastgele Orman böyle bir soruna uygun mudur?

Veri herkese açık değil, bu yüzden bir örnek gönderemiyorum.


Genellikle rastgele ormandaki bir kısıtlama, özellik sayınızın oldukça büyük olması gerektiğidir - RF'nin ilk adımı, bir ağaç oluşturmak için 1 / 3n veya sqrt (n) özellikleri seçmektir (göreve, regresyona / sınıflandırmaya bağlı olarak). Bu nedenle, çok fazla özelliğiniz varsa, küçük veri kümesinde bile RF kullanın - küçük veri kümelerinde gerçekten iyi çalışan bir algoritma yoktur, böylece hiçbir şey kaybetmezsiniz.
Alman Demidov

Düşük aralıktasınız. RF işe yarayacaktır, ancak muhtemelen ham verilerde oynadıktan fark edebileceğinizden çok daha karmaşık şeyler öğrenmeyecektir. Verileriniz çok düşük gürültüyse yardımcı olur. 40-50 örnekten daha iyi olmaya başlar. 500 iyi. 5000 harika.
Soren Havelund Welling

regresyon için olası ağaç derinliği minnode = 5 ile sınırlıdır, bu nedenle örnekleriniz ortalama olarak 2 kattan fazla bölünmez [[24 -> (1) 12 -> (2) 6.]] Mtry sınırlaması da dahil olmak üzere, model herhangi bir etkileşim efektini veya hatta basit doğrusal olmayan etkiyi yakalamakta zorlanır. Minnode ve mtry ile uğraşabilirsiniz, ancak bunu sadece verileriniz pratik olarak gürültü azsa yapmalısınız. Belirlenmiş sonuçlar üzerinde potansiyel flipside olacaktır. Elde ettiğiniz model yapısı, kabaca düzgünleştirilmiş bir basamak işlevi gibi görünecektir.
Soren Havelund Welling


Küçük veri kümesi için Çapraz Doğrulama tekniğini kullanın. Daha fazla bilgi için stats.stackexchange.com/questions/19048/…
Asif Khan

Yanıtlar:


4

Rastgele orman temelde örnekler üzerinde önyükleme yeniden örnekleme ve karar ağaçları eğitimidir, bu nedenle sorunuzun cevabının bu ikisini ele alması gerekir.

Bootstrap yeniden örnekleme olduğu küçük örnekler için bir çare değil . Veri kümenizde yalnızca yirmi dört gözlem varsa, bu verilerle değiştirilerek alınan örneklerin her biri yirmi dört ayrı değerden fazla olmayacaktır. Vakaları karıştırmak ve bazılarını çizmemek, temeldeki dağıtım hakkında yeni bir şey öğrenme yeteneğiniz hakkında çok fazla değişiklik yapmaz. Yani küçük bir örnek olan bootstrap için bir sorun.

Karar ağaçları , en büyük ayrımcı güce sahip olan bu tür alt örnekleri bulmak için verileri her seferinde bir değişken olan öngörücü değişkenler üzerinde koşullu olarak bölerek eğitilir. Eğer sadece yirmi dört vakanız varsa, o zaman şanslıysanız ve tüm bölünmeler bile büyüklükteyse, iki bölünme ile altı vakanın dört grubuyla, ağaç bölünmesiyle, üç sekiz grubuyla sonuçlanacağınızı söyleyin. Örnekler üzerinde koşullu araçlar hesapladıysanız (regresyon ağaçlarındaki sürekli değerleri veya karar ağaçlarındaki koşullu olasılıkları tahmin etmek için) sonucunuzu yalnızca bu birkaç duruma dayandırırsınız! Dolayısıyla, karar vermek için kullanacağınız alt örnekler orijinal verilerinizden bile daha küçük olacaktır.

Küçük numunelerde genellikle basit yöntemler kullanmak akıllıca olur . Dahası, Bayesian ortamında bilgilendirici öncelikler kullanarak küçük bir sorunu yakalayabilirsiniz (sorun hakkında makul bir veri dışı bilginiz varsa), bu nedenle bazı özel Bayesian modeli kullanmayı düşünebilirsiniz.


1

Bir yandan, bu küçük bir veri kümesidir ve rastgele orman veriye açtır.

Öte yandan, belki bir şey hiç yoktan iyidir. "Deneyin ve görün" den başka bir şey yok. Belirli bir modelin "iyi" olup olmadığına karar vereceksiniz; ayrıca, herhangi bir modelin belirli bir amaca uygun olup olmadığını size söyleyemeyiz (ne de bizi istemezsiniz - yanılıyorsak bize hiçbir ücret yoktur!).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.