Mükemmel İstatistiksel modellemeyi okuyarak : İki kültür (Breiman 2001) , geleneksel istatistiksel modeller (örneğin, doğrusal regresyon) ve makine öğrenme algoritmaları (örneğin, Torbalama, Rastgele Orman, Artırılmış ağaçlar ...) arasındaki tüm farkı ele geçirebiliriz.
Breiman, veri modellerini (parametrik) eleştirir, çünkü gözlemlerin, İstatistikçi tarafından reçete edilen, Doğayı zayıf bir şekilde taklit edebilecek bilinen, resmi bir model tarafından üretildiği varsayımına dayanır. Öte yandan, ML algos herhangi bir resmi model almaz ve giriş ve çıkış değişkenleri arasındaki ilişkileri doğrudan verilerden öğrenir.
Torbalama / RF ve Boosting'in de bir çeşit parametrik olduğunu fark ettim: örneğin, ntree , RF'de mtry , öğrenme oranı , torba fraksiyonu , Stokastik Degrade Boosted ağaçlarda ağaç karmaşıklığı ayar parametreleridir . Verileri bu parametrelerin en uygun değerlerini bulmak için kullandığımızdan, bu parametreleri verilerden de tahmin ediyoruz.
Peki fark nedir? RF ve Yükseltilmiş Ağaçlar parametrik modeller midir?