rastgele orman ve doğrusal regresyon yoluyla özellik önemi farklıdır

Özellikleri sıralamak için Kement uygulandı ve aşağıdaki sonuçları aldı:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

Veri kümesinde 3 etiket bulunduğunu unutmayın. Farklı etiketler için özelliklerin sıralaması aynıdır.

Daha sonra aynı veri kümesine rastgele orman uygulandı:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

Sıralamanın Lasso'nun ürettiğinden çok farklı olduğuna dikkat edin.

Fark nasıl yorumlanır? Altta yatan modelin doğası gereği doğrusal olmadığı anlamına mı geliyor?

feature-selection random-forest linear-regression

— nevrit
kaynak

Bir özelliğin sırası, farklı sınıflandırıcılar arasında gerçekten tercüme edilmez. Modelin doğrusal olup olmadığını test etmek için buraya bakın örneğin: stats.stackexchange.com/questions/35893/…

— Alex R.

Özellik aktarımları yalnızca "buluşsal yöntem" e dayalı bir öneri niteliğindedir. Bazen güvenilmez olabilirler. Genellikle rastgele ormana Lasso'dan daha fazla güvenirim.

— Gerenuk

Dolayısıyla, sorgunuz doğrusal regresyon ile rastgele ormanın değişkenlerin modelden türetilmiş öneminin karşılaştırmasıdır.

Kement, regülasyon uygulayarak doğrusal regresyon modeli katsayılarını bulur. Bir değişkenin önemini doğrusal regresyon modelinde sıralamak için popüler bir yaklaşım, her bir değişkene atfedilen katkılara ayırmaktır. Ancak değişkenler arasındaki korelasyonlar nedeniyle lineer regresyonda değişken önem açık değildir. Aşağıdaki referanslarda PMD yöntemini (Feldman, 2005) açıklayan belgeye başvurun. $R^2$

Bir başka popüler yaklaşım, sıralamaların ortalamasını almaktır (LMG, 1980). LMG şu şekilde çalışır:

her bir öngörücünün yarı-kısmi korelasyonunu bulun, örneğin değişken A için: . Modele değişken eklenirse ne kadar artacağını gösterir. $SS_a/SS_{total}$ $R^2$ $a$
Değişkenin modele sokulduğu her bir sipariş için her değişken için bu değeri hesaplayın, örneğin, { }; { }; { } $a,b,c$ $b,a,c$ $b,c,a$
Bu emirlerin her biri için yarı kısmi korelasyonların ortalamasını bulun. Bu, siparişlerin ortalamasıdır.

Rastgele orman algoritması birden çok ağaca uyar, ormandaki her ağaç veri kümesinden farklı özellikler rastgele seçilerek oluşturulur. Her ağacın düğümleri, maksimum varyans azaltımı sağlamak için seçilerek ve bölünerek oluşturulur. Test veri setini tahmin ederken, nihai çıktıyı elde etmek için tek tek ağaç çıktılarının ortalaması alınır. Tüm değişkenler arasında her bir değişkene izin verilir ve permütasyon öncesi ve sonrası örnekleme hatası arasındaki fark hesaplanır. En yüksek farklılığa sahip değişkenler en önemli olarak kabul edilir ve daha düşük değerlere sahip değişkenler daha az önemlidir.

Modelin eğitim verilerine uyma yöntemi, doğrusal regresyon modeli için rastgele orman modeline kıyasla çok farklıdır. Ancak her iki model de değişkenler arasında herhangi bir yapısal ilişki içermemektedir.

Bağımlı değişkenin doğrusal olmama durumu ile ilgili sorgunuzla ilgili olarak: Kement, temelde doğrusal olmayan bir süreç için ağaç tabanlı modellere kıyasla iyi tahminler veremeyecek doğrusal bir modeldir. Bunu bir kenara test seti üzerinde modellerin performansını doğrulayarak kontrol edebilmelisiniz, eğer rastgele orman daha iyi performans gösteriyorsa, alttaki süreç doğrusal olmayabilir. Alternatif olarak, kement modeline a, b ve c kullanılarak oluşturulan değişken etkileşim efektlerini ve daha yüksek dereceli değişkenleri dahil edebilir ve bu modelin yalnızca a, b ve c doğrusal bir kombinasyonuna sahip bir kementle karşılaştırıldığında daha iyi performans gösterip göstermediğini doğrulayabilirsiniz. Eğer öyleyse, altta yatan süreç doğrusal olmayabilir.

Referanslar:

— Sandeep S. Sandhu
kaynak