Birisi bana karar ağaçları için Gini safsızlığı ve bilgi kazancı ne zaman kullanılacağını açıklayabilir mi? Hangisini en iyi kullanacağımın durumlarını / örneklerini verebilir misiniz?
Birisi bana karar ağaçları için Gini safsızlığı ve bilgi kazancı ne zaman kullanılacağını açıklayabilir mi? Hangisini en iyi kullanacağımın durumlarını / örneklerini verebilir misiniz?
Yanıtlar:
Her ikisini de parametre ayarının bir parçası olarak denemelisiniz.
Teorik olarak Gini safsızlığı Brier skorunu en aza indirirken entropi / bilgi kazanımı log kaybını en aza indirir, böylece ilgilendiğiniz şeylerden bazıları fark yaratır. Bununla birlikte, her birinin, aynı zamanda şeylere oynayan tek değişkenli kişiler tarafından "dikkat dağılması" yerine, açgözlü ağaç büyümesinde çok değişkenli etkileri keşfetme olasılığı gibi diğer şeyler. Yani, her zaman "en iyi" bölümü seçmeyen bir safsızlık metriğinden daha iyi genelleme elde edebilirsiniz.
Pratikte (rf bağlamında, daha sonra sepeti) entropinin, daha karmaşık bir sinyale uymaya çalıştığınız temiz düşük boyutlu veri kümeleri için daha iyi çalıştığını ve gini gürültülü, oldukça boyutlu için daha iyi çalıştığını buldum birçok gürültülü potansiyel sinyal arasından basit bir sinyali ortaya çıkarmaya çalıştığınız. Bu sadece benim deneyimim ve neredeyse her durumda kesinlikle olmayacak.
Not: yorum olarak başlatıldı, ancak silindi ve bir konudaki genişletmeyi biçimlendirmek için cevaba taşındı.