Rasgele ormanda LASSO kullanımı


14

Aşağıdaki işlemi kullanarak rastgele bir orman oluşturmak istiyorum:

  • Bölmeleri belirlemek için bilgi kazancı kullanarak rastgele veri ve özellik örnekleri üzerinde bir ağaç oluşturun
  • Bir yaprak düğümünü önceden tanımlanmış bir derinliği aşarsa YA DA herhangi bir ayrım, önceden tanımlanmış minimum değerden daha az bir yaprak sayısıyla sonuçlanır
  • Her ağaç için bir sınıf etiketi atamak yerine, yaprak düğümdeki sınıfların oranını atayın
  • Önceden tanımlanmış bir sayı oluşturulduktan sonra ağaç yapmayı durdurun

Bu, geleneksel rasgele orman sürecini iki şekilde bozar. Birincisi, sınıf etiketleri yerine oranlar atayan budanmış ağaçlar kullanır. Ve ikincisi, durdurma kriterleri bazı torba dışı hata tahmini yerine önceden belirlenmiş sayıda ağaçtır.

Sorum şu:

N ağaç veren yukarıdaki işlem için LASSO seçimi ile lojistik regresyon kullanarak bir modele uyabilir miyim? Rastgele Orman sınıflandırıcısı takma ve lojistik LASSO ile işleme sonrası deneyimi olan var mı?

ISLE çerçevesi, LASSO'nun regresyon problemleri için bir işlem sonrası adım olarak kullanıldığından, sınıflandırma problemlerinden bahsetmemektedir. Ayrıca, "Rastgele orman kement" i googling yaparken herhangi bir yararlı sonuç alamıyorum.


Kement, değişen kalitelerin çoğunda yararlı özellikler bulma / ağırlıklandırmada iyidir. Ormanınızdaki bireysel ağaçlar muhtemelen diğer ağaçlardan daha iyi veya daha kötü olmayacaktır, bu yüzden kementin size çok yardımcı olacağını düşünmüyorum.
rrenaud

Değiştirilmeden küçük bir kesri örnekleyerek ve ağaç derinliğini sınırlayarak, daha fazla çeşitlilik getirilir, bu yüzden bir çeşit düzenlileştirme gereklidir.
Zelazny7

Lojistik modele nasıl uyum sağlamayı planladığınız konusunda daha spesifik olabilir misiniz? Tahmin değişkenleri tam olarak nedir? Ayrıca - post-processing için motivasyonunuz nedir? Değişken seçimi yapmaya çalışıyorsanız, göz önünde bulundurmanız gereken başka yöntemler de vardır.
Alex Williams

Her ağacın tahminlerini çıkararak, yeni bir öngörücüler veri kümesi oluşturulur. Bu veri kümesi, LASSO regresyonunda ağaç tahminlerinin seyrek bir kombinasyonuna ulaşmak için kullanılabilir. Motivasyon, üretimde daha özlü ve daha hızlı çalışan modeller üretmektir.
Zelazny7

Son zamanlarda benzer sorunlarla karşılaştım ve Friedman'ın orijinal makalesinde , ikili sınıflandırma problemleri için bir kayıp fonksiyonu tasarladığını buldum . Umarım faydalı olur. Ayrıca, bunu çok sınıflı sınıflandırma problemlerine nasıl genişleteceğine dair bir fikriniz var mı? Veya çok sınıflı sınıflandırma problemlerine yaklaşımınız nedir?
Quan

Yanıtlar:


5

Bu biraz degrade ağacı güçlendirmek gibi geliyor. Güçlendirme fikri, bir model sınıfının en iyi doğrusal kombinasyonunu bulmaktır. Verilere bir ağaç sığdırırsak, sonuç değişkenini en iyi açıklayan ağacı bulmaya çalışıyoruz. Bunun yerine güçlendirmeyi kullanırsak, en iyi doğrusal ağaç kombinasyonunu bulmaya çalışıyoruz.

Bununla birlikte, rastgele ağaçlar koleksiyonumuz olmadığından, güçlendirmeyi kullanarak biraz daha verimliyiz, ancak henüz iyi tahmin edemediğimiz örnekler üzerinde çalışan yeni ağaçlar oluşturmaya çalışıyoruz.

Bununla ilgili daha fazla bilgi için, İstatistiksel Öğrenmenin Öğeleri'nin 10. bölümünü okumanızı öneririm: http://statweb.stanford.edu/~tibs/ElemStatLearn/

Bu, sorunuzun tam bir cevabı olmasa da, umarım yardımcı olur.


3
Teşekkürler. Bu soruyu başlangıçta gönderdiğimden beri R'nin GBM paketine çok aşina oldum. Benim sürecim şimdi 10.000 ağaçlık bir GBM modeli oluşturmayı ve daha sonra ağaçlarda LASSO regresyonu yapmak için 10.000 ağacın tümünü GLMnet üzerinden çalıştırmayı içeriyor. Bu, performans kaybı çok az olan veya hiç olmayan (ve bazen bir artış) sıkıştırılmış bir GBM modeliyle sonuçlanır.
Zelazny7

@ Zelazny7 Beklemede / test verisi zor durumda Peki iyi tahmin ediyor mu?
Josh

Evet, tüm testlerim geliştirmeyi hiçbir şekilde bilgilendirmeyen bir bekletme üzerinde yapılır. Çoğu durumda performans düşmez. Bazen biraz daha kötü, bazen iyileşir.
Zelazny7

1
@ Zelazny7 Aynı deneyime de (son işimde) aynı deneyimlerle katıldım.
Matthew Drury

Bir şey üzerinde olmalısın ... Hastie'nin kendisi rastgele ormandan sonra işlenen ağaçları veya LASSO'yu kullanarak güçlendirmeyi öneriyor. İçeride mi söz bu video 30:10 de.
Jonathan
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.