Karar ağaçları neredeyse her zaman ikili ağaç mıdır?


21

Neredeyse karşılaştığım her karar ağacı örneği ikili bir ağaç oluyor. Bu oldukça evrensel mi? Standart algoritmaların çoğu (C4.5, CART, vb.) Yalnızca ikili ağaçları destekliyor mu? Topladığım kadarıyla, CHAID ikili ağaçlarla sınırlı değil, ama bu bir istisna gibi görünüyor.

Çocuklardan birine iki yönlü bir bölünme izleyen iki yönlü bir bölünme, üç yönlü bir bölünme ile aynı şey değildir. Bu akademik bir nokta olabilir, ancak en yaygın kullanım durumlarını anladığımdan emin olmaya çalışıyorum.

Yanıtlar:


18

Bu esas olarak teknik bir konudur: İkili seçimlerle sınırlı değilseniz, ağaçtaki bir sonraki bölünme için çok fazla olasılık vardır. Demek, sorunuzda belirtilen her konuda kesinlikle haklısınız.

Çoğu ağaç türü algoritmaların adım adım çalıştığını ve mümkün olan en iyi sonucu vermenin garanti edilmediğini bile unutmayın. Bu sadece bir ekstra uyarı.

Çoğu pratik amaç için, ağacın inşası / budaması sırasında olmasa da, birbirinden hemen sonra görünmeleri koşuluyla, iki bölme türü eşdeğerdir.


Sadece ilk noktanızı yükseltmek için: Olası ayrılmaların sayısı katlanarak artar. 1000 farklı değere sahip sürekli bir değişkende bölüyorsanız, 999 ikili bölme vardır, ancak 999 * 998 trinary bölme vardır.
Peter Flom - Eski Monica

2
@Peter Var , aslında, üçlü böler. (1000-13-1)=999*998/2
whuber

5

Çocuklardan birine iki yönlü bir bölünme izleyen iki yönlü bir bölünme, üç yönlü bir bölünme ile aynı şey değildir.

Burada ne demek istediğini anlamadım. Herhangi bir çok yönlü bölünme, iki yönlü bölünmeler dizisi olarak gösterilebilir. Üç yollu bir bölünme için, önce C ve A'yı B'ye bölüp sonra A'dan B'ye bölerek A, B ve C'ye bölebilirsiniz.

Verilen bir algoritma bu sekansı seçmeyebilir (özellikle, çoğu algoritmada olduğu gibi açgözlü ise), ancak kesinlikle olabilir. Ve rastgele ormanlarda veya yükseltilmiş ağaçlarda olduğu gibi herhangi bir rasgele ya da aşamalı prosedür yapılırsa, doğru ayrılmalar dizisini bulma şansı artar. Diğerlerinin de belirttiği gibi, çok yönlü bölmeler hesaplamalı olarak maliyetlidir, bu nedenle bu alternatifler göz önüne alındığında, çoğu araştırmacı ikili bölmeler seçmiş görünmektedir.

Bu yardımcı olur umarım


3
Evet, önce A, B ve C'nin önce A&B - C'ye bölüp sonra A'yı B'den bölerek elde edilebileceğini anlıyorum.
Michael McGowan,

2

Karar ağacının kullanımı ve bölünmesiyle ilgili olarak (aksi takdirde ikili), sadece ikili olmayan bölmelere sahip olan CHAID'i biliyorum, ancak muhtemelen başkaları da var. Benim için, ikili olmayan bir bölünmenin temel kullanımı, nominal bir değişkeni birçok seviye ile optimal olarak nasıl bağlayacağımı araştırdığım veri madenciliği alıştırmalarıdır. Bir dizi ikili bölme, CHAID tarafından yapılan bir gruplandırma kadar kullanışlı değildir.


Binicilikten bahsetmeniz komik, çünkü binicilik hakkında düşünmek bu soruyu merak etmeme neden oldu (nominal değişkenler yerine sayısal değişkenleri binmeyi düşünmeme rağmen).
Michael McGowan,

@Michael, Evet, bu da işe yarıyor ama siz bilgi çöpe atıyorsunuz. Nihai modelleme (sorunlarına neden lojistik regresyon veya SVM ve pek seyrek kukla değişkenleri söylemek) bir ağaç türü bir yaklaşım olmadan yapılacaktır zaman - ı nominal değişkenin seyrek seviyelerini birleştirmek gerektiğinde kullanırım
B_Miner

0

Lütfen okuyun bu

Pratik nedenlerden dolayı (kombinasyonel patlama) çoğu kütüphane, karar alanlarını ikili bölünmelerle uygular. Güzel olan şey, NP tamamlanmış olmalarıdır (Hyafil, Laurent ve Ronald L. Rivest. "Optimal ikili karar ağaçları oluşturmak NP tamamlanmıştır." Bilgi İşlem Mektupları 5.1 (1976): 15-17.)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.