Sürekli değişkenler tahmin edilirken karar ağacı bölünmeleri nasıl uygulanmalıdır?


15

Aslında Rastgele Ormanların bir uygulamasını yazıyorum ama sorunun karar ağaçlarına (RF'lerden bağımsız) özgü olduğuna inanıyorum.

Yani bağlam, bir karar ağacında bir düğüm oluşturuyorum ve hem tahmin hem de hedef değişkenler süreklidir. Düğüm, verileri iki kümeye bölmek için bölünmüş bir eşik değerine sahiptir ve her kümedeki ortalama hedef değere dayalı olarak her alt küme için yeni bir tahmin oluşturuyorum. Bu doğru bir yaklaşım mı?

Sormamın nedeni, ikili değişkenleri tahmin ederken tipik (doğru?) Yaklaşımın, her alt kümedeki veri satırları üzerinde bir ortalama almadan verileri 0 ve 1 alt kümelerine bölmek olduğuna inanıyorum. Müteakip bölünmeler daha ince taneli alt kümelere bölünecek ve her bölünmüş sonuçta bir ortalama alacak ve ikili değişkenler yerine artık sürekli değişkenler üzerinde çalışan sonraki bölünmeler (karar ağacını aşağı indirin) (orijinal yerine artık hata değerleri üzerinde çalıştığımız için) hedefleri).

Yan soru: İki yaklaşım (ikili ve sürekli) arasındaki ayrım önemli mi - yoksa tam bir karar ağacı için aynı sonuçları verecek mi?


1
Sürekli bir değişkene bölme, sonuçta ortaya çıkan "modelin" verilere tam olarak uymamasını sağlayacaktır. Bir sürekli X ve bir sürekli Y varsa, lös parametrik olmayan daha pürüzsüz kullanmayı düşünün.
Frank Harrell

Şu anda üzerinde çalıştığım problemin birçok tahmin değişkeni (sürekli ve ikili bir karışım) ve tek bir hedef değişkeni var. Dolayısıyla RF'nin kabul edilebilir bir yaklaşım olduğuna inanıyorum.
redcalx

2
Büyük olasılıkla. Ancak rastgele bir orman, ağaçların bir karışımıdır (bir karar ağacı değildir), bu nedenle birden fazla bölünme yaparak ve aslında büzülmeyi kullanarak sürekli ilişkilere yaklaşır. Bu yüzden eğer anlarsam orijinal sorunuzun geçerli olduğunu düşünmüyorum.
Frank Harrell

Ben sürekli davanın Açıklamanızın (şeyler yapmanın yani standart yol) doğru olduğundan emin söylemek geliyor, ama sonra ikili değişken davanın Açıklamanızın uymuyorsa hiç benim ne kadar tesadüfi ormanların anlayışı (veya kararı ile ağaçlar) işe yarıyor, bu yüzden birimizin kafasının karıştığından endişeleniyorum.
joran

@joran. Yah, tahminleri 0 veya 1 olmaya zorlayarak, hatayı azaltabilecek tahminlerde (0 ile 1 arasında) ince ayarlamalar yapma yeteneğini kaybedersiniz (örn. Ortalama kare tahmin hatası). Bu nedenle, bu yaklaşımın daha düşük olduğundan şüpheleniyorum. Denedim ve bir karar ağacı oluşturma girişimlerinin çoğu, hatayı artıran tek bir bölünme bile bulamıyor.
redcalx

Yanıtlar:


10

Ağaçlarla ilgili potansiyel bir sorun, kuyruklara zayıf uyum sağlama eğilimindedir. Eğitim setinin düşük aralığını yakalayan bir terminal düğümü düşünün. Sonucu her zaman az tahmin edecek olan bu eğitim set noktalarının ortalamasını kullanmayı tahmin edecektir (ortalama olduğu için).

Model ağaçları deneyebilirsiniz [1]. Bunlar terminal düğümlerindeki lineer modellere uyacaktır ve (sanırım) regresyon ağaçlarından daha iyi bir iş çıkarır. Daha da iyisi, farklı yaklaşımları birleştiren (aşağıda [1] ve [2]) Cubist adlı daha gelişmiş bir versiyon kullanın.

Bu modeller aynı zamanda sürekli ve ayrık tahminörleri farklı şekilde ele alır. Kategorik değişkenler için çok yönlü böler yapabilirler. Bölme kriteri CART ağaçlarına çok benzer.

Model ağaçları RWeka paketinde ('M5P' olarak adlandırılır) R'de bulunabilir ve Kübist Kübist paketindedir. Tabii ki, Weka'yı da kullanabilirsiniz ve Cubist, RuleQuest web sitesinde C sürümüne sahiptir.

[1] Quinlan, J. (1992). Sürekli sınıflarla öğrenme. 5. Yapay Yapay Zeka Konferansı, 343-348.

[2] Quinlan, J. (1993). Örnek tabanlı ve model tabanlı öğrenmeyi birleştirir. Onuncu Uluslararası Makine Öğrenimi Konferansı Bildirileri, 236–243.


1
Kuyruklara kötü uyumu en aza indirmek için sadece daha derin ağaçlara sahip olamaz mıydın?
Jase
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.