CART'ta karmaşıklık parametresini seçme


16

CART modelleri oluşturmak için rpart () yordamında, ağacınızı budamak istediğiniz karmaşıklık parametresini belirtirsiniz. Karmaşıklık parametresini seçmek için iki farklı öneri gördüm:

  1. Mümkün olan minimum çapraz doğrulanmış hatayla ilişkili karmaşıklık parametresini seçin. Bu yöntem Quick-R ve HSAUR tarafından önerilir.

  2. Tahmini çapraz doğrulanmış hatası hala olası en düşük çapraz doğrulanmış hatanın SE'sinde olan en büyük karmaşıklık parametresini seçin. Bu diyor paket belgelerin benim yorumlanması, şudur: "budama için cp iyi bir seçim genellikle en soldaki değer olduğu yatay bir çizginin altında ortalama yalanlar" referans bu arsa .

Cp'nin iki seçeneği veri setimde oldukça farklı ağaçlar üretiyor.

İlk yöntemin her zaman daha karmaşık, potansiyel olarak aşırı donanımlı bir ağaç üreteceği görülüyor. Hangi yöntemin kullanılacağına karar verirken dikkate almam gereken başka avantajlar, dezavantajlar, öneriler vb. Var mı? Yararlı olursa özel modelleme sorunum hakkında daha fazla bilgi verebilirim, ancak bu soruyu başkalarıyla alakalı olacak kadar geniş tutmaya çalışıyorum.


Çizimdeki yatay çizgi neyi temsil ediyor?
Bogdanovist

Mümkün olan en az çapraz doğrulanmış hatanın 1 SE üzerinde olduğunu düşünüyorum.
yarım geçiş

Yeterli veriye sahipseniz, bunları bir eğitim olarak ayırmayı ve ağaçlar için bile veri kümesini test etmeyi deneyebilirsiniz. Bu, özellikle tahminle ilgileniyorsanız faydalı olabilir, çünkü test veri seti bunun iyi bir tahminini verecektir. Başka bir seçenek, partyönem testleri kullanan pakettir (genellikle önerdiğim bir şey değildir, ancak burada alakalı görünüyor). Her zaman olduğu gibi, en iyi test yararlılık ve duyumdur; özellikle açıklama ile ilgileniyorsanız bu özellikle doğrudur.
Peter Flom - Monica'yı eski durumuna döndürün

Yavaş yanıt için özür dilerim. Açıklığa kavuşturmak için, farklı ağaç boyutlarında hatayı hesaplamak için çapraz doğrulamayı kullanarak, verileri tekrar tekrar etkili bir şekilde eğitim ve test setlerine ayırdığımı düşündüm. Bu durumda başka bir eğitim / test ayrımı yapmak gereksiz olur mu? Seni yanlış mı anlıyorum?
yarım geçiş

Tren / testteki verilerin bölünmesi ve sadece tren verilerini kullanarak cp parametresinin çapraz doğrulanması, gerçekçi bir tahmin testi (cp'yi tahmin etmek için gelecekteki verileri kullanamayacağınız) üretir. Yani ilk CV cp için olacak, genel model için tahmin hatası (tahmini cp dahil).
Robert Kubrick

Yanıtlar:


6

Uygulamada her iki yaklaşımı da gördüm ve bence genel olarak sonuçlarınızın her iki şekilde de farklı olması beklenmez.

Bununla birlikte, Hastie ve arkadaşları İstatistiksel Öğrenme Unsurlarında "tek standart hata" kuralını önermektedir ve ben de onların yargılarına güvenme eğilimindeyim (Bölüm 7.10, s. 244, versiyonumda). İlgili teklif:

Çoğunlukla "tek standart hata" kuralı kullanılır; burada hatası, en iyi modelin hatasının üzerinde bir standart hatadan fazla olmayan en değişken modeli seçeriz. "

Neden tek standart hata kuralını izleyeceğiniz konusundaki sezginiz doğrudur - bunu, verilerin üzerine sığacak bir model seçmekten kaçınmak için yaparsınız.


1

Önce argümanları minsplit=0ve cp=0(karmaşıklık parametresini) kullanarak başlamalı, sonra fonksiyonları kullanmalı plotcp(T.max)ve minimum göreceli hataya karşılık gelen printcp(T.max)değeri seçmeli cpve ağacı fonksiyonla budamalıprune.rpart(T.max, cp=....)

Bu, aşırı iyimser olma eğiliminde oldukları için size en uygun sınıflandırma ağacını almalıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.