Rpart () içindeki bölünme sayısı nasıl seçilir?


9

Ben kullandım rpart.controliçin minsplit=2ve aşağıdaki sonuçlar aldık rpart()fonksiyonu. Verilerin fazla sığmasını önlemek için bölme 3 veya bölme 7 kullanmam gerekir mi? Bölmeleri 7 kullanmamalı mıyım? Lütfen bana haber ver.

Ağaç yapımında kullanılan değişkenler:

[1] ct_a ct_b usr_a

Root node error: 23205/60 = 386.75

n= 60        

    CP nsplit rel error  xerror     xstd
1 0.615208      0  1.000000 1.05013 0.189409
2 0.181446      1  0.384792 0.54650 0.084423
3 0.044878      2  0.203346 0.31439 0.063681
4 0.027653      3  0.158468 0.27281 0.060605
5 0.025035      4  0.130815 0.30120 0.058992
6 0.022685      5  0.105780 0.29649 0.059138
7 0.013603      6  0.083095 0.21761 0.045295
8 0.010607      7  0.069492 0.21076 0.042196
9 0.010000      8  0.058885 0.21076 0.042196

1
Bunu, önceki Q'da yayınladığınız takipte cevapladım. Gelecekte referans olması için Q'ları takip etmemeniz gerektiğini söylemiştim !
Gavin Simpson

1
Gelecekte ilgili soruyu aramaktan kaçınmak için, önceki Q'nun bağlantısı: stats.stackexchange.com/questions/13446/… .
chl

Yanıtlar:


10

Kural, en iyi ağacın standart bir hatası içinde en iyi ağacı (en düşük çapraz doğrulamalı göreceli hata) veya en küçük (en basit) ağacı kullanmaktır. En iyi ağaç sıra 8'de (7 bölme), ancak sıra 7'deki (6 bölme) xerrorağaç etkili bir şekilde aynı işi yapar ( sıra 7 = 0.21761'deki xerrorağaç için , en iyi ağacın artı bir standart içinde) hatası,, xstd(0.21076 + 0.042196) = 0.252956) ve daha basittir, dolayısıyla 1 standart hata kuralı bunu seçer.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.