Genelleştirilmiş bir artırılmış regresyon modelinde ağaç sayısı nasıl seçilir?


11

GBM'deki ağaç sayısını seçmek için bir strateji var mı? Özellikle, ntreesiçinde argüman Rbireyin gbmfonksiyonu.

Neden ntreesen yüksek değere ayarlamamanız gerektiğini anlamıyorum . Daha fazla sayıda ağacın birden fazla GBM'den elde edilen sonuçların değişkenliğini açıkça azalttığını fark ettim. Çok sayıda ağacın aşırı sığmaya yol açacağını düşünmüyorum.

Düşüncesi olan var mı?

Yanıtlar:


3

Bu GBM:

" Bence ... " pek çok cümlenin tehlikeli ilk kısmı.

Bir iyilik, bir değerlendirme listesi olmadan yeterince iyi anlamsızdır.

Başka herhangi bir yöntem için iyilik ölçüleri nelerdir?

  • Model ve veri arasındaki fark (sse, ...)
  • Bir dağıtım setinde Hata Farklılığı (egzersiz hatası ile test hatası)
  • Parametre sayısı - örnek sayısı oranı (parametre başına 5 örnek veya parametre başına 30 örnek gibi çoğu kişi)
  • Çapraz doğrulama (hata testlerinin diverjansına ilişkin topluluk yöntemleri)

Sinir ağı veya spline gibi, veriler üzerinde parçalı doğrusal enterpolasyon yapabilir ve genelleştirilemeyen bir model alabilirsiniz. Genel uygulanabilirlik - genelleme karşılığında "düşük hata" nın bir kısmını bırakmanız gerekir.

Diğer bağlantılar:


2

Sorun hakkında bir fikir buldum: http://cran.r-project.org/web/packages/dismo/vignettes/brt.pdf

gbm.stepFonksiyon ağaçların uygun sayısını belirlemek için kullanılabilir. Hala belirli sayıda ağaçtan sonra model sapmasının artmasına neden olan şeyden emin değilim, bu yüzden hala sorunun bu kısmını yanıtlayan bir yanıtı kabul etmeye hazırım!


2
Aşırı takma artışa neden olur. Çoğu iyi yöntem bir tutma seti oluşturur ve modeli test etmek için kullanır, ancak modeli güncellemek için kullanmaz. Bu, overfit başlangıcının saptanmasına izin verir.
EngrStudent

0

Bu, Elith ve ark.'nın güçlendirilmiş regresyon ağaçlarına yönelik çalışma rehberidir .: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full Çok yararlı!

En az 1000 ağaç kullanmalısın. Anladığım kadarıyla, öğrenme oranı, ağaç karmaşıklığı ve minimum tahmin hatasına ulaşan ağaç sayısı kombinasyonunu kullanmalısınız. Öğrenme hızının daha küçük değerleri, aynı sayıda yineleme için daha büyük eğitim riskine yol açarken, her yineleme eğitim riskini azaltır. Ağaç sayısı yeterince büyükse, risk keyfi olarak azaltılabilir (bakınız: Hastie ve ark., 2001, "İstatistiksel Öğrenme Unsurları, Veri Madenciliği, Çıkarım ve Tahmin" ).


Elith ve ark. 1000 kural kullanmak için genel bir kural olarak önermek. Bununla birlikte, bu, makalede kullanılan spesifik veri kümesi için tahmini kararlılığın ayrıntılı bir analizine dayanmaktadır. Aynı sayının olası herhangi bir veri kümesi için işe yaraması olası görünmemektedir. Belki de özellikle Ek S1'de yaptıkları analiz hakkında bazı ayrıntılar vererek cevabınızı biraz genişletebilirsiniz.
DeltaIV

0

Bazı makine öğrenimi algoritmalarında yaygın olarak olduğu gibi, Yükseltme, ağaçların sayısı ile ilgili sapma değişimine maruz kalır. Kısaca söylemek gerekirse, bu değiş tokuş şunları söyler: (i) zayıf modeller yüksek sapma ve düşük varyansa sahip olma eğilimindedir: eğitim veri kümesindeki değişkenliği yakalamak için çok katıdırlar, bu nedenle test setinde de iyi performans göstermeyeceklerdir (yüksek test (ii) çok güçlü modeller düşük sapma ve yüksek varyansa sahip olma eğilimindedir: çok esnektirler ve eğitim setinden daha fazla uyurlar, bu nedenle test setinde (veri noktaları eğitim setinden farklı olduğu için) iyi performans göstermezler (yüksek test hatası)

Ağaçları artırma kavramı, sığ ağaçlarla (zayıf modeller) başlamak ve önceki ağaçların zayıflıklarını düzeltmeye çalışan daha sığ ağaçlar eklemeye devam etmektir. Bu işlemi yaparken, test hatası düşme eğilimindedir (çünkü genel model daha esnek / güçlü hale gelir). Ancak, bu ağaçlardan çok fazla eklerseniz, egzersiz verilerinin üzerine sığmaya başlarsınız ve bu nedenle test hatası artar. Çapraz doğrulama, tatlı noktayı bulmaya yardımcı olur

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.