Torbalamanın teorik garantileri nelerdir?


17

Şunu duydum (yaklaşık olarak):

torbalama, bir kestirimci / kestirimci / öğrenme algoritmasının varyansını azaltmak için bir tekniktir.

Ancak, bu ifadenin resmi matematiksel kanıtını hiç görmedim. Bunun neden matematiksel olarak doğru olduğunu bilen var mı? Bu kadar yaygın kabul gören / bilinen bir gerçek gibi görünüyor, buna doğrudan bir referans bekliyorum. Eğer olmayan varsa şaşırırdım. Ayrıca, bunun önyargı üzerindeki etkisini bilen var mı?

Herkesin bildiğini ve düşündüğünü ve paylaşmayı istediğini belirleyen yaklaşımların başka teorik garantileri var mı?

Yanıtlar:


21

Torbalamanın ana kullanım durumu, düşük eğilimli modellerin bir araya getirilmesiyle varyansı azaltmaktır. Bu, dönüm noktası makalesinde ampirik olarak çalışıldı " : ve Varyantlarını Arttırılması, Torbalama Oy Sınıflandırma Algoritmaların Ampirik Bir Karşılaştırma Bauer ve Kohavi tarafından" . Genellikle reklamı yapılan şekilde çalışır.

Bununla birlikte, yaygın inanışın aksine, torbalamanın varyansı azaltması garanti edilmez . Daha yeni ve (bence) daha iyi bir açıklama, torbalamanın kaldıraç noktalarının etkisini azalttığıdır. Kaldıraç noktaları, en az kareler regresyonundaki aykırı değerler gibi, ortaya çıkan modeli orantısız olarak etkileyen noktalardır. Kaldıraç noktalarının ortaya çıkan modelleri olumlu etkilemesi nadirdir, ancak bu durumda torbalama performansı azaltır. " Bir göz atın "Grandvalet'in Torbalama etkisini eşitler.

Nihayet sorunuzu cevaplamak için: torbalamanın etkisi büyük ölçüde kaldıraç noktalarına bağlıdır. Torbalamanın doğrusal olarak çanta boyutu açısından hesaplama süresini artırması dışında çok az teorik garanti mevcuttur! Bununla birlikte, hala yaygın olarak kullanılan ve çok güçlü bir tekniktir. Örneğin etiket gürültüsü ile öğrenirken, torbalama daha sağlam sınıflandırıcılar üretebilir .

Rao ve Tibshirani bir Bayesian yorumlanması verdik " modeli ortalama ve seçim için dışı bootstrap yöntemi " :

Bu anlamda, bootstrap dağılımı parametremiz için (yaklaşık) parametrik olmayan, bilgilendirici olmayan bir posterior dağılımı temsil eder. Ancak bu bootstrap dağılımı ağrısız bir şekilde elde edilir - bir önceliği resmi olarak belirtmek zorunda kalmadan ve posterior dağılımdan numune almak zorunda kalmadan. Bu nedenle, bootstrap dağılımını fakir bir adamın "Bayes posterior'u olarak düşünebiliriz.


1
'Kaldıraç noktaları' açıklaması torbalama için sıklıkla önerilen ağaçlar için nasıl geçerlidir? Doğrusal regresyon için yüksek kaldıraç noktalarının ne olduğu açık olsa da, ağaçlar için bu noktalar nelerdir?
DavidR

bu soruya başka bir referans buldum: quora.com/… ne düşünüyorsun? bu u teorik olarak varyansı azaltmadığını söyledi gerçeği ile çelişiyor mu?
Charlie Parker

Wikipedia'nın torbalamanın (aka bootstrap toplama) varyansı azalttığını söylediğini gördüm. Bunun için teorik bir kanıt yoksa, bu makalenin yanlış olduğu anlamına mı geliyor?
Charlie Parker

Çoğu durumda, torbalama varyansı azaltır, ancak bu gerçek mekanizması değildir. Grandvalet, varyansı artırdığı örnekleri gösterdi ve mekanizmanın, modeli en güçlü şekilde etkileyen veri noktalarının, en azından kareler regresyonundaki aykırtıcılar gibi, çoğu durumda varyansı azaltan, dengeleyici etkisiyle daha yakın olduğunu gösterdi.
Marc Claesen
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.