Aslında Rastgele Ormanların bir uygulamasını yazıyorum ama sorunun karar ağaçlarına (RF'lerden bağımsız) özgü olduğuna inanıyorum.
Yani bağlam, bir karar ağacında bir düğüm oluşturuyorum ve hem tahmin hem de hedef değişkenler süreklidir. Düğüm, verileri iki kümeye bölmek için bölünmüş bir eşik değerine sahiptir ve her kümedeki ortalama hedef değere dayalı olarak her alt küme için yeni bir tahmin oluşturuyorum. Bu doğru bir yaklaşım mı?
Sormamın nedeni, ikili değişkenleri tahmin ederken tipik (doğru?) Yaklaşımın, her alt kümedeki veri satırları üzerinde bir ortalama almadan verileri 0 ve 1 alt kümelerine bölmek olduğuna inanıyorum. Müteakip bölünmeler daha ince taneli alt kümelere bölünecek ve her bölünmüş sonuçta bir ortalama alacak ve ikili değişkenler yerine artık sürekli değişkenler üzerinde çalışan sonraki bölünmeler (karar ağacını aşağı indirin) (orijinal yerine artık hata değerleri üzerinde çalıştığımız için) hedefleri).
Yan soru: İki yaklaşım (ikili ve sürekli) arasındaki ayrım önemli mi - yoksa tam bir karar ağacı için aynı sonuçları verecek mi?