Sklearn ile oluşturulmuş bir karar ağacı sınıflandırma modelinin karar sürecini tam olarak nasıl anlamaya çalışıyorum. Baktığım 2 ana yön, ağacın bir grafik temsili temsili ve özellik ithalatları listesidir. Anlamadığım şey, özellik öneminin ağaç bağlamında nasıl belirlendiğidir. Örneğin, özellik ithalatlarımın listesi:
Özellik sıralaması: 1. FeatureA (0.300237)
FeatureB (0.166800)
FeatureC (0.092472)
FeatureD (0.075009)
FeatureE (0.068310)
FeatureF (0.067118)
FeatureG (0.066510)
ÖzellikH (0.043502)
FeatureI (0.040281)
FeatureJ (0.039006)
FeatureK (0.032618)
ÖzellikL (0.008136)
FeatureM (0.000000)
Ancak, ağacın tepesine baktığımda şöyle görünüyor:
Aslında, "en önemli" olarak sıralanan özelliklerden bazıları ağacın aşağısına kadar görünmez ve ağacın tepesi en düşük sıralı özelliklerden biri olan FeatureJ'dir. Benim saf varsayımım, en önemli özelliklerin en büyük etkiyi elde etmek için ağacın tepesine yakın sıralanmalarıdır. Bu yanlışsa, bir özelliği "önemli" yapan nedir?