Karar ağacı öğrenme algoritmaları eksik değerlerle nasıl başa çıkar?


21

Karar ağacı öğrenme algoritmalarının eksik değerlerle başa çıkmak için kullandığı yöntemler nelerdir?

Kayıp denilen bir değeri kullanarak slotu dolduruyorlar mı?

Teşekkürler.

Yanıtlar:


24

Çeşitli karar ağaçları tarafından kullanılan çeşitli yöntemler vardır. Sadece eksik değerleri görmezden gelmek (ID3 ve diğer eski algoritmalar gibi) veya eksik değerleri başka bir kategori olarak ele almak (nominal bir özellik olması durumunda) eksik değerleri gerçek olarak ele almaz. Ancak bu yaklaşımlar karar ağacı gelişiminin ilk aşamalarında kullanılmıştır.

Eksik veriye yönelik gerçek ele alma yaklaşımları, bölünmenin değerlendirilmesinde eksik olan veri noktasını kullanmaz. Ancak, alt düğümler oluşturulduğunda ve eğitildiğinde, bu örnekler bir şekilde dağıtılır.

Eksik değer örneklerini alt düğümlere dağıtmak için aşağıdaki yaklaşımları biliyorum:

  • hepsi zaten en fazla sayıda örneğe sahip olan düğüme gider (CART, birincil kural değildir)
  • Tüm çocuklara dağıtın, fakat her çocuk düğümünden gelen örnek sayısı ile orantılı olarak azalan ağırlıklar (C45 ve diğerleri)
  • sonuçta kategorik bir dağılıma göre, yalnızca tek bir alt düğüme rastgele dağıtın (daha hızlı bir çalışma süresi için C45 ve CART'ın çeşitli uygulamalarında gördüm)
  • Örnekleri bir alt düğüme dağıtmak için yedekler oluşturmak, sıralamak ve kullanmak; buradaki öbekler, test özelliğinin sol veya sağ alt düğüme veri örnekleri gönderme biçimini en iyi şekilde gösteren girdi özellikleridir (eğer başarısız olursa, çoğunluk kuralı kullanılır)
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.