Rasgele Orman ve Yükseltme parametrik mi yoksa parametrik değil mi?


13

Mükemmel İstatistiksel modellemeyi okuyarak : İki kültür (Breiman 2001) , geleneksel istatistiksel modeller (örneğin, doğrusal regresyon) ve makine öğrenme algoritmaları (örneğin, Torbalama, Rastgele Orman, Artırılmış ağaçlar ...) arasındaki tüm farkı ele geçirebiliriz.

Breiman, veri modellerini (parametrik) eleştirir, çünkü gözlemlerin, İstatistikçi tarafından reçete edilen, Doğayı zayıf bir şekilde taklit edebilecek bilinen, resmi bir model tarafından üretildiği varsayımına dayanır. Öte yandan, ML algos herhangi bir resmi model almaz ve giriş ve çıkış değişkenleri arasındaki ilişkileri doğrudan verilerden öğrenir.

Torbalama / RF ve Boosting'in de bir çeşit parametrik olduğunu fark ettim: örneğin, ntree , RF'de mtry , öğrenme oranı , torba fraksiyonu , Stokastik Degrade Boosted ağaçlarda ağaç karmaşıklığı ayar parametreleridir . Verileri bu parametrelerin en uygun değerlerini bulmak için kullandığımızdan, bu parametreleri verilerden de tahmin ediyoruz.

Peki fark nedir? RF ve Yükseltilmiş Ağaçlar parametrik modeller midir?

Yanıtlar:


12

Parametrik modellerin veri dağıtımı ile ilgili parametreleri (çıkarımları) veya varsayımları bulunurken, RF, sinir ağları veya destekleyici ağaçlar algoritmanın kendisiyle ilgili parametrelere sahiptir, ancak veri dağıtımınızla ilgili varsayımlara veya verilerinizi teorik bir dağıtımda sınıflandırmaya ihtiyaç duymazlar. . Aslında hemen hemen tüm algoritmalar, optimizasyon ile ilgili iterasyonlar veya marj değerleri gibi parametrelere sahiptir.


5
Özetlemek gerekirse: 1) hem ML hem de parametrik model parametreleri, ML'deki verilere dayanarak ayarlanır / tahmin edilir, BUT 2), parametreler algoritmaların verilerden nasıl öğrendiğini kontrol eder (veriler hakkında herhangi bir varsayım yapmadan ve aşağı yönde parametrik modellerin parametreleri (a priori olduğu düşünülen modeller) , verileri ürettiği varsayılan mekanizmayı kontrol eder (nadiren pratikte tutulan gerçekçi olmayan birçok varsayımla). Bunun yeterli bir özet olduğunu düşünüyor musunuz? Herhangi bir şey ekler misiniz / değiştirir misiniz?
Antoine

4
Bence Breiman'ın makalesinden her şeyi özetleyen bir cümle "algoritmik modelleme, odağı veri modellerinden algoritmaların özelliklerine kaydırıyor".
Antoine

1
Bunu şöyle özetleyebilirsiniz, ancak .. parametrik modelleri hafife almayın. Bir çok problemi çözmek için gerekli ve optimal oldukları durumlar vardır. Ayrıca varsayımları o kadar gerçekçi değil. Birçok teorik dağılım, normalden binomiye, lognormal, geometrik vb. Pek çok şeyi açıklamak için geçerlidir.
D.Castro

4
Katılıyorum. Altta yatan fiziksel süreç iyi biliniyorsa, parametrik modeller uygundur. Breiman, altta yatan süreçler bilinmediğinde bilgi keşfi ve tahmini için parametrik modellerin kullanımını eleştiriyor
Antoine

1

Parametrik ve parametrik olmayan kriter şu şekildedir: parametre sayısının eğitim örneği sayısı ile artması. Lojistik regresyon ve svm için, özellikleri seçtiğinizde daha fazla eğitim verisi ekleyerek daha fazla parametre elde edemezsiniz. Ancak RF ve benzeri için, ağaç sayısı değişmese bile modelin ayrıntıları değişecektir (ağacın derinliği gibi).


ancak RF veya Yükseltme'de ağacın derinliğini artırmak parametre eklemez. Hala tree.complexityparametreniz var, sadece değerini değiştirin. Ayrıca, RF ve Boosting'de ormandaki / sıradaki ağaç sayısı örnek büyüklüğünüze bağlı olarak değişir
Antoine

Seçeneklerimde, ağacın derinliği değiştiğinde, ağaçta daha fazla bölünme var, bu yüzden daha fazla parametreniz var. Veri değiştikçe RF ve Yükseltme'de ağaç sayısı değiştiğinde, ancak model doğrusal model olduğunda bu gerçekleşmez.
Yu Zhang

1

İstatistiksel anlamda, parametreler verilere dayanarak öğrenilir veya çıkarılırsa model parametriktir. Bu anlamda bir ağaç parametrik değildir. Tabii ki ağaç derinliği algoritmanın bir parametresidir, ancak verilerden doğal olarak türetilmemiştir, daha ziyade kullanıcı tarafından sağlanması gereken bir giriş parametresidir.


Diyelim ki OLS ve ağaç tabanlı modelleri teknik olmayan bir kitleye sunmalısınız, birincisinin parametrik, ikincisinin parametrik olmadığını söyleyebilir misiniz?
Tanguy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.