Dolayısıyla, sorgunuz doğrusal regresyon ile rastgele ormanın değişkenlerin modelden türetilmiş öneminin karşılaştırmasıdır.
Kement, regülasyon uygulayarak doğrusal regresyon modeli katsayılarını bulur. Bir değişkenin önemini doğrusal regresyon modelinde sıralamak için popüler bir yaklaşım, her bir değişkene atfedilen katkılara ayırmaktır. Ancak değişkenler arasındaki korelasyonlar nedeniyle lineer regresyonda değişken önem açık değildir. Aşağıdaki referanslarda PMD yöntemini (Feldman, 2005) açıklayan belgeye başvurun.R2
Bir başka popüler yaklaşım, sıralamaların ortalamasını almaktır (LMG, 1980). LMG şu şekilde çalışır:
- her bir öngörücünün yarı-kısmi korelasyonunu bulun, örneğin değişken A için: . Modele değişken eklenirse ne kadar artacağını gösterir.SSa/SStotalR2a
- Değişkenin modele sokulduğu her bir sipariş için her değişken için bu değeri hesaplayın, örneğin, { }; { }; { }a,b,cb,a,cb,c,a
- Bu emirlerin her biri için yarı kısmi korelasyonların ortalamasını bulun. Bu, siparişlerin ortalamasıdır.
Rastgele orman algoritması birden çok ağaca uyar, ormandaki her ağaç veri kümesinden farklı özellikler rastgele seçilerek oluşturulur. Her ağacın düğümleri, maksimum varyans azaltımı sağlamak için seçilerek ve bölünerek oluşturulur. Test veri setini tahmin ederken, nihai çıktıyı elde etmek için tek tek ağaç çıktılarının ortalaması alınır. Tüm değişkenler arasında her bir değişkene izin verilir ve permütasyon öncesi ve sonrası örnekleme hatası arasındaki fark hesaplanır. En yüksek farklılığa sahip değişkenler en önemli olarak kabul edilir ve daha düşük değerlere sahip değişkenler daha az önemlidir.
Modelin eğitim verilerine uyma yöntemi, doğrusal regresyon modeli için rastgele orman modeline kıyasla çok farklıdır. Ancak her iki model de değişkenler arasında herhangi bir yapısal ilişki içermemektedir.
Bağımlı değişkenin doğrusal olmama durumu ile ilgili sorgunuzla ilgili olarak: Kement, temelde doğrusal olmayan bir süreç için ağaç tabanlı modellere kıyasla iyi tahminler veremeyecek doğrusal bir modeldir. Bunu bir kenara test seti üzerinde modellerin performansını doğrulayarak kontrol edebilmelisiniz, eğer rastgele orman daha iyi performans gösteriyorsa, alttaki süreç doğrusal olmayabilir. Alternatif olarak, kement modeline a, b ve c kullanılarak oluşturulan değişken etkileşim efektlerini ve daha yüksek dereceli değişkenleri dahil edebilir ve bu modelin yalnızca a, b ve c doğrusal bir kombinasyonuna sahip bir kementle karşılaştırıldığında daha iyi performans gösterip göstermediğini doğrulayabilirsiniz. Eğer öyleyse, altta yatan süreç doğrusal olmayabilir.
Referanslar: