AdaBoost aşırı sığmaya daha az veya daha fazla eğilimli mi?


20

AdaBoost'un (veya diğer arttırıcı tekniklerin) diğer öğrenme yöntemlerine kıyasla daha az veya daha fazla uyuma eğilimli olup olmadığı konusunda çeşitli (görünüşte) çelişen ifadeler okudum.

Birine ya da diğerine inanmak için iyi nedenler var mı? Eğer bağlıysa, neye bağlıdır? AdaBoost'un aşırı sığmaya daha az / daha eğilimli olmasının nedenleri nelerdir?


1
Sezgim, rastgele bir ormandan daha fazla uymaya eğilimli olmasıdır. Bununla birlikte, algoritma aşırı sığmayı önlemek için tasarlanmıştır ve genellikle bir sorun gibi görünmemektedir. Bunu destekleyecek hiçbir referansım yok, ancak caretpaketi uyarlamayı çapraz doğrulamak için kullanabilirsiniz ve genellikle iyi bir şekilde genelleştirildiğini gördüm.
Zach

Yanıtlar:


17

Dediğiniz gibi, bu konuda çok tartışıldı ve onunla birlikte gittiğim ve asla tam olarak anlamadığımı itiraf etmem gereken oldukça ağır bir teori var. Benim pratik deneyimime göre AdaBoost aşırı takmaya karşı oldukça sağlam ve LPBoost (Doğrusal Programlama Artırımı) daha da fazla (çünkü nesnel işlev, bir kapasite kontrolü biçimi olan zayıf öğrenicilerin seyrek bir kombinasyonunu gerektiriyor). Onu etkileyen ana faktörler:

  • "Zayıf" öğrencilerin "gücü": Karar kütükleri (1 seviyeli karar ağaçları) gibi çok basit zayıf öğreniciler kullanırsanız, algoritmalar aşırı sığmaya daha az eğilimlidir. Ne zaman daha karmaşık zayıf öğreniciler (karar ağaçları ve hatta hiper uçaklar gibi) kullanmayı denediğimde, aşırı sığmanın çok daha hızlı gerçekleştiğini gördüm

  • Verilerdeki gürültü seviyesi: AdaBoost özellikle gürültülü veri setlerinde aşırı donmaya eğilimlidir. Bu ayarda düzenli formlar (RegBoost, AdaBoostReg, LPBoost, QPBoost) tercih edilir

  • Verilerin boyutsallığı: Genel olarak, yüksek boyutlu alanlarda ("boyutsallığın laneti") daha fazla takma deneyimi yaşadığımızı biliyoruz ve AdaBoost da sadece acı çeken sınıflandırıcıların doğrusal bir kombinasyonu olduğu için bu açıdan da acı çekebilir. sorundan. Diğer sınıflandırıcılar kadar eğilimli olup olmadığını belirlemek zordur.

Elbette , durdurma parametresini (veya farklı varyantlardaki diğer parametreleri) diğer herhangi bir sınıflandırıcı için yaptığınız gibi ayarlamak için doğrulama setleri veya -katlı çapraz doğrulama gibi sezgisel yöntemleri kullanabilirsiniz .k


9

Ben tdc yorumunda bahsedilen noktaların çoğuna katılıyorum. ancak, birkaç şey eklemek ve düzeltmek zorundayım.

  • Peter Bühlmann tarafından L2Boost'ta gösterildiği gibi, zayıf öğrenenlerin sayısı (artış turları) arttıkça, önyargı katlanarak hızlı bir şekilde birleşirken, varyans geometrik olarak azalan büyüklüklerle artar, yani: Diğer yöntemlerin çoğundan çok daha yavaş takılır.
  • Zach yorumunda, overfit açısından rastgele ormandan daha iyi olduğu yanlış belirtildi. Tamamen yanlış. Aslında, teoriye göre (Breiman'ın orijinal rastgele orman kağıdına bakın), Random Forest zayıf sınıflandırıcılar verilere uymadığı sürece aşırı donmaya karşı kesinlikle bağışıktır.
  • Tdc açıklamasında belirtilenden farklı olarak, artırma yöntemlerinin çoğu etiketleme gürültüsüne karşı oldukça duyarlıdır ve etiketleme gürültüsü varlığında kolaylıkla tersine dönebilir.
  • Bayes hata oranlarının 0'dan çok uzak olduğu veri kümelerinde (yani, özellikler yeterince ayrımcı değildir), artırma yöntemleri de kolayca geçebilir. Gerçekte optimal sınıflandırıcı olsa bile eğitim hatasını sıfıra indirmeye çalıştıkları için, yani Bayes sınıflandırıcı,% 40 hata oranına izin verir.
  • Son olarak ve bu, (bildiğim kadarıyla), artırıcı mermiler arttıkça genelleme hatasının artmadığı, ancak azalmadığı bir tür aşırı sığdırma olduğu herhangi bir yerde yayınlanmamıştır. Bu algoritma yerel bir optima sıkışmış demektir. Bu durumda, test hatası neredeyse sabit kalırken eğitim hatası sürekli azalır. Şimdiye kadar, bu fenomeni aşırı uymanın bir göstergesi olarak düşünmedik, ancak bunun aşırı uymanın bir işareti olduğuna inanıyorum ve daha karmaşık zayıf öğreniciler kullanarak (garip!) Aslında buna karşı çıkabiliriz (Bu son nokta dikkatle düşünülmelidir) : D)

1
Bu yanıta, hem AdaBoost hem de Random Forest ile bugün ikinci tür aşırı uyuşmayı deneyimlemiş olabileceğimi eklemeye değer. Çapraz validasyonda, katlanma dışı hata sadece 20 temel kestirimci ile bir sabit haline geldi ve daha sonra yüksek bir varyansla bu sabitin etrafında sıçradı. Şüphem tamamen aynıydı: açgözlü algoritmalar bir tür yerel optimumda sıkıştı. Bu olanların bir teyidi değil ama başka birinin de aynı düşünceye sahip olduğunu bilmek güzel.
shadowtalker

@ssdecontrol Yaptıklarınızı paylaşabilir misiniz? Sonuçları daha iyi anlamak için çoğaltmak istiyorum
Saurabh Agarwal

@saurabhagarwal Sanırım Kaggle Titanic projesi üzerinde çalışıyordum
shadowtalker
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.