Karar ağaçlarının zayıf tarafı nedir?

34

Karar ağaçları çok anlaşılabilir bir makine öğrenme yöntemi gibi görünüyor. Oluşturulduktan sonra, bazı uygulamalarda büyük avantaj sağlayan bir insan tarafından kolayca denetlenebilir.

Karar Ağaçlarının pratikte zayıf yanları nelerdir?

machine-learning nonparametric cart

— Lewukasz Lew
kaynak

37

İşte düşünebileceğim bir çift:

Verilerdeki küçük bozulmalara karşı aşırı duyarlı olabilirler: Hafif bir değişiklik, çok farklı bir ağaç oluşmasına neden olabilir.
Kolayca giyebilirler. Bu doğrulama yöntemleri ve budama ile ihmal edilebilir, ancak bu gri bir alandır.
Örnek dışı tahminlerde problemleri olabilir (bu onların düzgün olmamaları ile ilgilidir).

Bunlardan bazıları çoklu bağlanma problemi ile ilgilidir : iki değişken de aynı şeyi açıkladığında, karar ağacı açgözlülükle en iyisini seçer, oysa ki diğer birçok yöntem de ikisini kullanır. Rastgele ormanlar gibi topluluk yöntemleri bunu bir dereceye kadar ihmal edebilir, ancak anlayış kolaylığı kaybedersiniz.

Ancak en büyük sorun, benim açımdan en azından benimsemiş olduğum ilkeli bir olasılık çerçevesinin olmaması. Diğer pek çok yöntemde, bir modelin ne kadar iyi olduğu hakkında fikir veren güven aralıkları, arka dağılımlar vb. Gibi şeyler vardır. Bir karar ağacı, sonuçta hala çok yararlı olabilen geçici bir sezgiseldir, (veri işlemede hata kaynaklarını bulmak için mükemmeldirler), ancak insanların çıktıları "doğru" olarak ele alma tehlikesi var (benim deneyim, bu pazarlamada çok olur).

— Simon Byrne
kaynak

2

Bir ML açısından bakıldığında ağaçlar diğer herhangi bir sınıflandırıcı ile aynı şekilde test edilebilir (örneğin CV). Yine de, bunun yerine ağır bir kıyafetin olduğunu gösterir ;-) Ayrıca RF, çok topraklı olmasından ziyade topluluk olduğu için değil, ağaçlarının düşük kaliteli olması nedeniyle kaçar.

2

: (Url karar ağaçları olasılık çerçevesinde için Dtree bkz datamining.monash.edu.au/software/dtree/index.shtml , Machine Learning kağıt "Wallace CS & Patrick JD,` Karar Ağaçları Kodlama dayanmaktadır) , 11, 1993, sayfa 7-25 ".

— emakalic

2

Ayrıca, bootstrapping kullanarak CI (tahminler için) almak mümkün değil mi?

— Tal Galili

@Simon Byrne, yorumunuzla ilgili bir sorum var "Ancak en azından benim açımdan en büyük sorun ilkeli bir olasılık çerçevesinin olmayışı". Cehaletimi bağışla, ama lütfen beni pratik ilkelere dayalı olasılıksal çerçevelere (özellikle sınıflandırma bağlamında) işaret edebilir misin? Karar ağaçlarının bu şekilde sınırlandırılmasına büyük ilgi duyuyorum.

— Amelio Vazquez-Reina

2

@AmV, bir örnek lojistik regresyon olacaktır: her gözlemin güven / güvenilir aralıklar elde etmek ve modelin varsayımlarını kontrol etmek için bir binomdan geldiği gerçeğini kullanabiliriz.

— Simon Byrne

23

Bir dezavantaj, tüm terimlerin etkileşime girdiği varsayılmaktadır. Yani, bağımsız davranan iki açıklayıcı değişkeniniz olamaz. Ağaçtaki her değişken, ağacı yukarı doğru her değişkenle etkileşime girmeye zorlanır. Etkileşim olmayan veya zayıf olan değişkenler varsa, bu son derece verimsizdir.

— Rob Hyndman
kaynak

Bunun pratik bir sınırlama olup olmadığını merak ediyorum - sınıflandırmayı sadece zayıf bir şekilde etkileyen bir değişken için sezgim, Ağacı'nın muhtemelen bu değişkende bölünmeyeceği (yani, bir düğüm olmayacak) anlamına gelir. Karar Ağacı sınıflandırmasına göre görünmez.

— doug

Sınıflandırma üzerindeki zayıf etkilerden değil zayıf etkileşimlerden bahsediyorum. Bir etkileşim, iki değişken değişken arasındaki ilişkidir.

— Rob Hyndman

2

Bu verimsiz olabilir, ancak ağaç yapısı onu kaldırabilir.

Bu yüzden önyargılı ya da yanlış değil de verimsiz dedim. Çok fazla veri varsa, çok önemli değil. Ancak, bir ağaca varsayılan etkileşimlerden birkaç yüz gözlem gerçekleştirirseniz, tahmin doğruluğunu önemli ölçüde azaltabilirsiniz.

— Rob Hyndman

2

Anlaşmak; Sadece vurgulamak istedim. Yine de, öngörücü kesinliğin azaltılmasının uygun eğitim kullanılarak kaldırılabileceğini düşünüyorum; filogenetikte benzer problem (açgözlülük), maksimum olasılık olanları bulmak için mümkün olan ağaç alanın Monte Carlo taramasıyla azalır - İstatistikilerde benzer bir yaklaşım var, muhtemelen hiç kimse bu problemden rahatsız olmadı ölçüde.

12

Cevabım, bununla sınırlı olmadığını düşünmeme rağmen, CART'a (C 4.5 / C 5 uygulamaları) yöneliktir. Tahminime göre, OP'nin aklında ne var - bu genellikle "Karar Ağacı" deyince ne demek istediğidir.

Karar Ağaçlarının Sınırlamaları :

Düşük Performanslı

'Performans' derken, çözünürlüğü kastediyorum ama uygulama hızı değil . Zayıf olmasının nedeni, CART modelinizi (önceden eğitilmiş bir Ağaca göre sınıflandırılmış, daha sonra Ağaca eklemek istediğiniz) sınıflandırmak istediğiniz her seferinde güncellemek istediğinizde 'ağacı yeniden çizmeniz' gerekmesidir. antrenman veri noktası) antrenman dışı durumlardan başlamanızı gerektirir, diğer denetimli öğrenme algoritmalarının çoğunda olduğu gibi, artımlı olarak eklenemez. Belki de bunu söylemenin en iyi yolu, Karar Ağaçlarının çevrimiçi modda, sadece toplu modda eğitilemeyeceğidir. Açıklayıcı olarak sınıflandırıcınızı güncellemezseniz bu sınırlamanın farkına varamazsınız, ancak daha sonra çözünürlükte bir düşüş görmenizi beklerim.

Bu önemlidir, çünkü Çok Katmanlı Algılayıcılar için, örneğin bir kez eğitildiğinde, verileri sınıflandırmaya başlayabilir; bu veriler önceden eğitilmiş sınıflandırıcıyı ayarlamak için de kullanılabilir, ancak Karar Ağaçları ile tüm veri setini (eğitimde kullanılan orijinal veriler artı herhangi bir yeni örnek) tümüyle yeniden denemeniz gerekir.

Değişkenler Arasındaki Karmaşık İlişkilerle Verilerde Yetersiz Çözünürlük

Karar Ağaçları, bilinmeyen sınıftaki bir veri noktasının, o andaki bir düğümün, kök düğümden başlayıp bir terminal düğümle biten adım adım değerlendirilmesiyle sınıflandırılır. Ve her bir düğümde, sadece iki olasılık mümkün (soldan sağa), dolayısıyla Karar Ağaçlarının öğrenemediği bazı değişken ilişkiler var.

Sınıflandırma ile Pratik Olarak Sınırlı

Karar Ağaçları, bir sınıfa veri noktası atamak için eğitildiğinde en iyi şekilde çalışır - tercihen birkaç olası sınıftan biri. Regresyon modunda bir Karar Ağacı kullanarak herhangi bir başarıya sahip olduğuma inanmıyorum (yani, fiyat veya beklenen ömür boyu gelir gibi sürekli çıktı). Bu resmi veya içsel bir sınırlama değil, pratik bir sınırlamadır. Çoğu zaman, Karar Ağaçları faktörlerin veya ayrık sonuçların tahmininde kullanılır.

Sürekli Beklenti Değişkenleri ile Kötü Çözünürlük

Yine, ilke olarak, "indirme süresi" veya "önceki çevrimiçi satın alma işleminden bu yana geçen gün sayısı" gibi bağımsız değişkenlere sahip olmak sorun değil - yalnızca bölme ölçütünü varyansa (yalnızca ayrık değişkenler için Bilgi Entropisi veya Gini Kirliliği) değiştirin Deneyim Karar Ağaçları bu durumda nadiren iyi çalışır. İstisnalar, sürekli gözüken “öğrencinin yaşı” gibi durumlardır ancak pratikte değerler aralığı oldukça küçüktür (özellikle de tamsayı olarak bildirildiyse).

— Doug
kaynak

1

Genellikle yeterince oyun alamayan performans açısına iyi bir çağrı için +1. Karar Ağaçlarının, büyük veri kümeleri (SQL Server gibi) için tasarlanan çeşitli yazılım platformlarında, en azından diğer veri madenciliği yöntemlerine kıyasla performans sorunları yaşadığını gördüm. Bu, gündeme getirdiğiniz yeniden eğitme konusunun dışında. Aşırı uyarmanın gerçekleştiği durumlarda daha da kötüleşiyor (bununla birlikte birçok diğer madencilik algoritması için söylenebilir).

— SQLServerSteve

10

Burada iyi cevaplar var, ama bir şeyin vurgulanmamasına şaşırdım. CART, verilerle ilgili herhangi bir dağıtım varsayımı yapmaz, özellikle de cevap değişkeni. Buna karşılık, OLS regresyonu (sürekli cevap değişkenleri için) ve lojistik regresyon (belirli kategorik cevap değişkenleri için), örneğin, yok güçlü varsayımlarda; Özel olarak, OLS regresyonu cevabın şartlı olarak normal dağıldığını ve lojistik, cevabın binom veya multinom olduğunu varsayar.

CART'ın bu tür varsayımlarda bulunmaması, iki ucu keskin bir kılıçtır. Bu varsayımlar garanti edilmediğinde, bu yaklaşıma göreceli bir avantaj sağlar. Öte yandan, bu varsayımlar geçerli olduğunda, bu gerçekler göz önüne alınarak verilerden daha fazla bilgi elde edilebilir. Yani, varsayımlar doğru olduğunda standart regresyon yöntemleri CART'tan daha bilgilendirici olabilir.

— gung - Eski Monica
kaynak