R'deki ağaçların bölünmesi: parti vs. rpart


15

Ağaçları bölmeye baktığımdan beri bir süre geçti. Son kez böyle bir şey yaptım, R (Hothorn tarafından yaratılmış) partiyi seviyorum. Örnekleme yoluyla koşullu çıkarım fikri bana mantıklı geliyor. Ancak rpart'ın da itirazları vardı.

Mevcut uygulamada (ayrıntı veremiyorum, ancak büyük bir aresteste örneği arasında kimin hapse gireceğini belirlemeye çalışıyor) Rasgele ormanlar, torbalama, artırma vb.Gibi gelişmiş yöntemleri kullanamıyorum - Kolayca açıklanabilirim kural.

Zhang & Singer (2010) Özyinelemeli Bölümleme ve Uygulamalar'da önerildiği gibi, hangi düğümlerin ayrıldığı üzerinde bazı manuel kontrollere sahip olmak istiyorum . Bu kitapla birlikte verilen ücretsiz yazılım buna izin verir, ancak aksi takdirde kullanıcı girdisinde ilkeldir.

Herhangi bir öneriniz veya öneriniz var mı?

Yanıtlar:


8

@Iterator ile, metodolojinin rpart için açıklanmasının daha kolay olduğunu kabul ediyorum. Ancak, kolayca açıklanabilen kurallar arıyorsanız, parti (torbalı ağaçlar olmadan) tahmini açıklamakla ilgili bir şey kaybetmez - hala tek bir ağacınız var. Sonuç değişkeninin sürücülerine bakmakla da ilgileniyorsanız (sadece saf tahmin gücü değil), yine de partinin gitmenin yolu olduğunu düşünürüm - bir karar ağacının (rpart gibi) hangisini seçtiğine karşı oldukça önyargılı olabileceğini açıklamak değişkenler önemlidir ve nasıl böler oluşturur. Taraf, permütasyon testlerini kullanır ve hangi değişkenlerin en önemli olduğunu ve bölünmelerin nasıl yapıldığını istatistiksel olarak belirler. Bu nedenle, örneğin rpart gibi birçok seviyeye sahip kategorik değişkenlere eğimli olarak eğilmek yerine, parti en iyi yapıyı bulmak için istatistiksel testleri kullanır.


1
Güzel cevap. Partinin gelişmiş bir kitle için neden daha iyi olduğu ve parti kullanımını kabul etmelerine yardımcı olmak için kitleyi eğitmenin neden iyi bir fikir olduğunu düşünüyorum.
Iterator

4

[Not: Aşağıdaki 1. güncellemeye bakın.] Yönteminin rpartaçıklanmasından çok daha kolay olduğunu düşünüyorum party. Bununla birlikte, ikincisi çok daha karmaşıktır ve daha iyi modeller vermesi muhtemeldir. Bazen açıklama şeklimparty , yerel doğrusal (veya GLM) modeller üretmek için bir temel olarak konuşmaktır. Bunun için sonuçların rpartyaprak düğümüne düşen tüm elemanlar arasında sabit olduğunu, yani bölünmelerle sınırlanan kutu / bölgenin işaret ettiğini belirterim . Yerel modeller aracılığıyla iyileştirmeler olsa bile, sürekli bir tahminden başka bir şey elde edemezsiniz.

Buna karşılık, partybölgeler için modelleri potansiyel olarak optimize etmek için bölünmeler geliştirir. Aslında model tercihliliğinden farklı bir kriter kullanıyor, ancak iyi açıklayıp açıklayamayacağınızı belirlemek için farkı açıklamak için kendi kapasitenizi ölçmeniz gerekiyor. Bunun için kağıtlar bir araştırmacı için oldukça erişilebilir, ancak rastgele ormanlar, artırma, vb. Gibi daha basit yöntemleri düşünmek istemeyen biri için oldukça zor olabilir party. hem metodoloji hem de sonuçlar açısından açıklayabilir ve bunlar daha sofistike ağaç tabanlı modeller tanıtmak için iyi bir basamak taşı sağlar.

Kısacası, rpartnetlik için yapmanız gerektiğini ve partydoğruluk / performans için kullanabileceğinizi söyleyebilirim , ancak tanıtmadan partytanıtmayacağım rpart.


Güncelleme 1. Cevabımı partybir iki yıl önceki anlayışım üzerine kurdum . Biraz büyüdü, ancak cevabımı rpart, kısmi ve mirası için hala tavsiye edeceğimi söylemek için değiştiririm , "fantezi olmayan", müşteriniz / ortak çalışanınız için önemli bir kriter olmalı. Yine de, partybirisini tanıttıktan sonra, daha fazla işlevsellik kullanmaya geçmeye çalışacağım rpart. Çok daha fazla kavram içeren bir paket ve metodoloji sunmadan önce, kayıp fonksiyonlar, bölme kriterleri vb. İle küçük bir başlangıç ​​yapmak daha iyidir.


2
Sanırım partypaketin neler yapabileceği konusunda biraz kafa karıştırıyorsunuz . Saf partyfonksiyon rpart, yapraklarda çoğunluk oylaması gibi sadece tek bir basit ağaç yapar . Buradaki mobişlev party, yapraklarda daha karmaşık modellere sahip ağaçları inşa eden şeydir (ve parametre kararsızlığına göre bölünmeleri seçer.)
Shea Parkes

1
@SheaParkes Haklısın. Kısa bir süre oldu ve sadece kullandığımdan mobveya paketin geri kalanının biraz büyüdüğünden emin değilim - örneğin, daha önce rastgele ormanlar gördüğünü hatırlamıyorum. Cevabımı gözden geçireceğim ...
Iterator

2
Ve aslında, ben de unutmuştum. Bu var ctree, tek bir ağaç yapmak için cforestrasgele bir orman yapmak ve mobmodel bazlı yaprakları yapmak. Ve fyi, cforest eğlenceli, ama tahmin etmek çok yavaş.
Shea Parkes

Mafyaya bakacağım , parti kullandığımda bunun var olduğunu sanmıyorum . Orman uygulamaları bu sefer benim için değil.
Peter Flom - Monica'yı eski durumuna döndürün

Sanırım mobbaşından beri orada olabilir ya da en azından sonra geldi ctreesanırım. 2009'dan beri ya da daha önceydi. Her neyse, sadece SE'de yeni bir şeyler öğrenebileceğimizi gösteriyor. :)
Yineleyici
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.