@ Ziggystar'ın makine öğrenimi jargonu açısından tepkisini ortaya koymak için: Bootstrap toplama tekniklerinin (örn. Rastgele Ormanlar) arkasındaki fikir, bazı "rastgele" veya "istikrarsızlık" öğelerine sahip verilere çok düşük yanlılık, yüksek varyanslı modeller yerleştirmektir. Rastgele ormanlar durumunda, önyükleme ve ağacın her bir düğümünü ayırmak için rastgele bir özellik kümesi seçilerek kararsızlık eklenir. Bu gürültülü, ancak düşük önyargılara sahip olan ağaçlar, herhangi bir ağacın yüksek varyansını hafifletir.
Regresyon / sınıflandırma ağaçları "düşük sapmalı, yüksek sapmalı" modellerken, doğrusal regresyon modelleri tipik olarak tam tersidir - "yüksek sapmalı, düşük sapmalı". Dolayısıyla, lineer modellerde sıkça karşılaşılan sorun sapmayı azaltmak değil, sapmayı azaltmaktır. Önyükleme toplaması sadece bunu yapmak için yapılmaz.
Ek bir sorun, önyüklemenin tipik bir doğrusal modelde yeterli "rastgele" veya "kararsızlık" sağlayamamasıdır. Her bir yaprak tipik olarak sadece bir avuç veri noktası içerdiğinden, bir regresyon ağacının bootstrap örneklerinin rastgele olmasına daha duyarlı olmasını beklerim. Ek olarak, regresyon ağaçları, her bir düğümdeki rastgele bir değişken altkümesi üzerinde ağacın bölünmesiyle stokastik olarak büyütülebilir. Bunun neden önemli olduğuna dair önceki soruya bakın: Rastgele Ormanlar m rastgele özelliklere göre neden bölünür?
Tüm söylenenler, kesinlikle doğrusal modellerde önyükleme kullanabilirsiniz [LINK] ve bu bazı bağlamlarda çok yardımcı olabilir. Ancak, motivasyon önyükleme toplama tekniklerinden çok farklıdır.
a_0 + a_1 * x_1 + ... + a_d * x_d
, sonuçta elde edilen ortalama doğrusal işlev (önyükleme biriktirme işleminden sonra), hala başladığınızla aynı doğrusal işlev biçimine sahiptir (yani, 'temel öğrenci').