Ağaçların güçlendirilmesinde ayar parametreleri için en uygun değerler nasıl bulunur?


9

Artırıcı ağaçlar modelinde 3 ayar parametresi olduğunu, yani

  1. ağaç sayısı (yineleme sayısı)
  2. büzülme parametresi
  3. bölünme sayısı (her bir kurucu ağacın büyüklüğü)

Benim sorum: ayarlama parametrelerinin her biri için, optimal değerini nasıl bulabilirim? Hangi yöntem?

Şunu unutmayın: büzülme parametresi ve ağaç sayısı parametresi birlikte çalışır, yani büzülme parametresi için daha küçük bir değer, ağaç sayısı için daha yüksek bir değere yol açar. Ve bunu da dikkate almamız gerekiyor.

Özellikle bölünme sayısı için en uygun değeri bulma yöntemiyle ilgileniyorum. Arkasındaki model hakkında çapraz doğrulamaya mı yoksa alan bilgisine mi dayanmalıdır?

Ve bunlar gbmR'deki pakette nasıl yapılıyor ?

Yanıtlar:


6

Şapka R paket bunun için yapılan terzi.

Tren fonksiyonu, parametre değerleri ızgarasını alır ve çeşitli çapraz doğrulama veya önyükleme tatlarını kullanarak performansı değerlendirir. Paket yazarı şiddetle tavsiye edilen Applied öngörülü modelleme adlı bir kitap yazmıştır . Kitap boyunca 10 kat çapraz geçerliliğin 5 tekrarı kullanılmıştır.

Ağaç derinliğini seçmek için, önce sorun hakkında konu bilgisine gideceğim, yani herhangi bir etkileşim beklemiyorsanız - derinliği 1 ile sınırlayın veya esnek bir parametrik model (ki bu anlaşılması ve yorumlanması çok daha kolay) için gidin. Olduğu söyleniyor, genellikle konu bilgisi genellikle çok sınırlı olduğu için kendimi ağaç derinliğini ayarlarken buluyorum.

Ben gbm paketi ağaç derinliği ve büzülme sabit değerleri için ağaç sayısını ayarlar düşünüyorum.


Kitapta R kodu da var mı?
user1769197

Yani R kodu içeren çalışan bir örnek yani modellerin nasıl hesaplandığını ve bir veri kümesine nasıl uygulandığını
anlıyoruz

1
Evet öyle. Daha fazla bilgi için kitabın uyguladığı apppredictivemodeling.com adresini ziyaret edin.
ErikL

1

Artırılmış regresyon ağaçları ve gbm paketi için iki iyi kaynak var. BRT'nin açıklaması ve ağaç sayısının ( nt), öğrenme hızının ( lr) ve ağaç karmaşıklığının ( tc) optimizasyonu için bkz . Arttırılmış regresyon ağaçlarına yönelik bir çalışma kılavuzu Ekolojiye odaklanmasına rağmen BRT'ye daha iyi bir giriş bulamayacağınızı düşünüyorum .

BRT'nin gbm paketinde uygulanması için bkz . Ekolojik modelleme için Artırılmış Regresyon Ağaçları

Kısacası, bir kural, BRT modelinin en az 1000 ağaca sığmasını sağlayan bir öğrenme oranı seçmektir, bu nedenle bunu başarmak için düşük bir öğrenme oranına, belki 0.001'e ihtiyacınız olacaktır. Ancak verilerinizin boyutuna bağlıdır, bkz. Şek. 2 ve 3'te BRT Çalışma kılavuzunda. Bence olası bir yol, veri boyutuna göre BRT'de farklı modeller kurmak olabilir, örneğin farklı lr (0.1, 0.01, 0.001), tc (1, 3, 5, 7, 9, 20) farklı çanta ile birleştirin kesirler (0.5, 0.7, 0.9) ve en düşük sapmaya veya en yüksek ROC puanına göre en iyisini seçin. Belki yardımcı oldu.


1
Referans olarak, BRT_MODEL$self.statistics$correlation[[1]]testin iyi bir test metriği olan eğitim verileri ile korelasyonudur.
dez93_2000

bana istatistiksel bir deney tasarımı gibi geliyor. : P
EngrStudent
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.