Doğrusal Regresyonlara Rastgele Orman Metodolojisi Uygulanabilir mi?


14

Rastgele Ormanlar, orijinal eğitim verilerinin önyükleme örneği (hem girdi değişkenlerinin hem de gözlemlerin örnekleri) kullanılarak her ağacın oluşturulduğu bir dizi karar ağacı oluşturarak çalışır.

Benzer bir süreç doğrusal regresyon için de uygulanabilir mi? Her k regresyonu için rastgele bir bootstrap örneği kullanarak k lineer regresyon modelleri oluşturun

"Rastgele regresyon" benzeri bir model oluşturmamamanın nedenleri nelerdir?

Teşekkürler. Temelde yanlış anladığım bir şey varsa lütfen bana bildirin.


Bootstrap ağaçları toplarken, genel regresyon fonksiyonu, eklenen her ağaçla birlikte giderek daha karmaşık hale gelir. Öte yandan, formun önyükleme doğrusal işlevlerini toplarken a_0 + a_1 * x_1 + ... + a_d * x_d, sonuçta elde edilen ortalama doğrusal işlev (önyükleme biriktirme işleminden sonra), hala başladığınızla aynı doğrusal işlev biçimine sahiptir (yani, 'temel öğrenci').
Andre Holzner

1
@Andre Holzner - doğru dediğin şey, ama, ama, ama, ama ... bu rastgele forresti yapmak, sırtlanmaya benzer bir sınıfta, bir çeşit düzenlileştirme biçimidir. Size bir sır vereceğim, bir regresyon ağacı aslında lineer bir modeldir - spline'a benzer bir sınıftır. Bayes şapkasını taktığımda, rastgele forrest düzenleyici muhtemelen Bayes bağlamında kullanılan “başak ve slab” önceliğine karşılık gelecektir.
olasılıklar

@probabilityislogic, açıklayabilir misiniz?
Simon Kuang

Ağaçları doğrusal modeli olarak düşünebilirsiniz . Z, T , her bir gözlem ağacı için ait uç düğümün gösteren bir tasarım matrisidir t ve θ t uç düğüm tahminler mukabil vektörüdür. Herhangi bir ağaç bu şekilde tarif edilebilir - bir ağaç seçimi Z t uzayında standart doğrusal model seçimine eşdeğerdir - bence 2 n olası "terminal düğümü" konfigürasyonu vardır ( n , eğitim örneği boyutudur). y=Ztθt+eZttθtZt2nn
olasılık

Yanıtlar:


5

Mevcut cevaplara kısmen katılmıyorum, çünkü metodoloji rastgele orman üzerine inşa edildi, onları bağımsız hale getirmek için varyans (bootstrapped örnekleri üzerine inşa edilmiş CART'lar + rastgele altuzay yöntemi) tanıtıldı. Ortogonal ağaçlarınız olduğunda, tahminlerinin ortalaması (birçok durumda) ortalama ağacın tahmininden daha iyi olma eğilimindedir (Jensen eşitsizliği nedeniyle). CART'ların bu tedaviye tabi olduklarında göze çarpan avantajları olmasına rağmen, bu yöntem kesinlikle herhangi bir model için geçerlidir ve doğrusal modeller istisna değildir. İşte tam olarak aradığınız şey olan bir R paketi. Onları nasıl ayarlayacağınız ve yorumlayacağınız ve konuyla ilgili bibliyografya hakkında güzel bir öğretici sunar: Rastgele Genelleştirilmiş Doğrusal Modeller .


14

@ Ziggystar'ın makine öğrenimi jargonu açısından tepkisini ortaya koymak için: Bootstrap toplama tekniklerinin (örn. Rastgele Ormanlar) arkasındaki fikir, bazı "rastgele" veya "istikrarsızlık" öğelerine sahip verilere çok düşük yanlılık, yüksek varyanslı modeller yerleştirmektir. Rastgele ormanlar durumunda, önyükleme ve ağacın her bir düğümünü ayırmak için rastgele bir özellik kümesi seçilerek kararsızlık eklenir. Bu gürültülü, ancak düşük önyargılara sahip olan ağaçlar, herhangi bir ağacın yüksek varyansını hafifletir.

Regresyon / sınıflandırma ağaçları "düşük sapmalı, yüksek sapmalı" modellerken, doğrusal regresyon modelleri tipik olarak tam tersidir - "yüksek sapmalı, düşük sapmalı". Dolayısıyla, lineer modellerde sıkça karşılaşılan sorun sapmayı azaltmak değil, sapmayı azaltmaktır. Önyükleme toplaması sadece bunu yapmak için yapılmaz.

Ek bir sorun, önyüklemenin tipik bir doğrusal modelde yeterli "rastgele" veya "kararsızlık" sağlayamamasıdır. Her bir yaprak tipik olarak sadece bir avuç veri noktası içerdiğinden, bir regresyon ağacının bootstrap örneklerinin rastgele olmasına daha duyarlı olmasını beklerim. Ek olarak, regresyon ağaçları, her bir düğümdeki rastgele bir değişken altkümesi üzerinde ağacın bölünmesiyle stokastik olarak büyütülebilir. Bunun neden önemli olduğuna dair önceki soruya bakın: Rastgele Ormanlar m rastgele özelliklere göre neden bölünür?

Tüm söylenenler, kesinlikle doğrusal modellerde önyükleme kullanabilirsiniz [LINK] ve bu bazı bağlamlarda çok yardımcı olabilir. Ancak, motivasyon önyükleme toplama tekniklerinden çok farklıdır.


Bağlantılar ve yanıt için teşekkürler. Rasgelelik yöntemi "düşük yanlılık, yüksek varyans" modelleri için faydalıysa, "yüksek yanlılık, düşük sapma" gibi ters modellerle başa çıkmak için herhangi bir yöntem var mı?
Rick

Düşük bir önyargıya, yüksek varyans modeline sahipseniz, torbalama gibi metodolojiler, sapmada hafif bir artışla varyansı azaltabilir. Yüksek yanlılığınız, düşük varyansınız varsa, polinom regresyonu veya daha genel olarak çekirdek yöntemleri gibi daha düşük yanlılık ve daha yüksek varyanslı bir model kullanın.
Joe

10

kk

İşte bu yüzden, doğrusal modellerle karar ağaçlarında olduğu gibi "rastgele" bir şey yapmak neden çekici değil:

Büyük bir örnekten oluşturulan büyük bir karar ağacının verilere uyması muhtemeldir ve rastgele orman yöntemi, birçok küçük ağacın oylamasına dayanarak bu etkiyle savaşır.

Öte yandan, doğrusal regresyon, aşırı sığmaya çok eğilimli olmayan ve bu nedenle başlangıçta tam numune üzerinde eğitilerek zarar görmeyen bir modeldir. Ve çok sayıda regresör değişkeniniz olsa bile, aşırı takma ile mücadele etmek için normalleştirme gibi diğer teknikleri de uygulayabilirsiniz.


0

k

X1,X2,...,XnBe(p)
p1p
θ=1{p>0}
Xi=1θ=1θθ
Bias bagging=Prob(in a bootstrap sample X(1)=...=X(n)=0)>0,
θ=1

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.