Hangisi rastgele bir orman ağacı için daha iyi bir maliyet fonksiyonudur: Gini indeksi veya entropi?


12

Hangisi rastgele bir orman ağacı için daha iyi bir maliyet fonksiyonudur: Gini indeksi veya entropi?

Clojure'da rasgele orman uygulamaya çalışıyorum.

Yanıtlar:


9

Veri Madenciliğine Giriş bölümünde Tan. al:

Çalışmalar, safsızlık ölçümü seçiminin karar ağacı indüksiyon algoritmalarının performansı üzerinde çok az etkisi olduğunu göstermiştir. Bunun nedeni birçok safsızlık önleminin birbiriyle oldukça tutarlıdır [...]. Gerçekten de, ağacı budamak için kullanılan stratejinin, son ağaç üzerinde safsızlık ölçümü seçiminden daha büyük bir etkisi vardır.

Bu nedenle, CART gibi Gini dizinini veya C4.5 gibi Entropi'yi kullanmayı seçebilirsiniz.

Entropy'yi, daha özel olarak C4.5'in Kazanım Oranını kullanacağım çünkü Quinlan: C4.5'in Makine Öğrenimi Programları tarafından iyi yazılmış kitabı kolayca takip edebilirsiniz.


3
Küçük açıklama - entropi günlükleri kullanır, hesaplamalı bir zaman sorunu olabilir.

8
Bu söz, rastgele ormanlarla değil saf karar ağaçları ile ilgilidir. Genellikle rastgele bir ormanda bir ağaç budamazsınız çünkü en iyi ağacı kurmaya çalışmıyorsunuzdur. Bu nedenle, neyin daha önemli olduğu hakkında konuşmak yanıltıcı görünüyor: budama veya safsızlık ölçüsü. Amaç rastgele ormanla kullanılacak en iyi ağacı bulmaktır.
Chan-Ho Suh
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.