CART modelleri oluşturmak için rpart () yordamında, ağacınızı budamak istediğiniz karmaşıklık parametresini belirtirsiniz. Karmaşıklık parametresini seçmek için iki farklı öneri gördüm:
Mümkün olan minimum çapraz doğrulanmış hatayla ilişkili karmaşıklık parametresini seçin. Bu yöntem Quick-R ve HSAUR tarafından önerilir.
Tahmini çapraz doğrulanmış hatası hala olası en düşük çapraz doğrulanmış hatanın SE'sinde olan en büyük karmaşıklık parametresini seçin. Bu diyor paket belgelerin benim yorumlanması, şudur: "budama için cp iyi bir seçim genellikle en soldaki değer olduğu yatay bir çizginin altında ortalama yalanlar" referans bu arsa .
Cp'nin iki seçeneği veri setimde oldukça farklı ağaçlar üretiyor.
İlk yöntemin her zaman daha karmaşık, potansiyel olarak aşırı donanımlı bir ağaç üreteceği görülüyor. Hangi yöntemin kullanılacağına karar verirken dikkate almam gereken başka avantajlar, dezavantajlar, öneriler vb. Var mı? Yararlı olursa özel modelleme sorunum hakkında daha fazla bilgi verebilirim, ancak bu soruyu başkalarıyla alakalı olacak kadar geniş tutmaya çalışıyorum.
party
önem testleri kullanan pakettir (genellikle önerdiğim bir şey değildir, ancak burada alakalı görünüyor). Her zaman olduğu gibi, en iyi test yararlılık ve duyumdur; özellikle açıklama ile ilgileniyorsanız bu özellikle doğrudur.