Sapma ve glm
Resmen, sapma iki olasılıklı model arasında bir çeşit mesafe olarak görülebilir; GLM bağlamında, iki iç içe model arasındaki olasılıkların günlük oranının iki katıdır. , "küçük" modeldir; yani, @ suncoolsu'nun dediği gibi , model parametreleri üzerindeki doğrusal bir kısıtlama (bkz. Neyman – Pearson lemması ). Bu nedenle, model karşılaştırması yapmak için kullanılabilir . Ayrıca, OLS tahmininde (ANOVA, regresyon) kullanılan RSS'in genelleştirilmesi olarak da görülebilir, çünkü null modelle karşılaştırıldığında değerlendirilen modelin uyum iyiliği ölçüsünü sağlar (sadece engelleme). LM ile de çalışır:ℓ1/ℓ0ℓ0
> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)
Artık SS (RSS) şu şekilde elde edilen olarak hesaplanır :ε^tε^
> t(residuals(lm.res))%*%residuals(lm.res)
[,1]
[1,] 98.66754
veya (düzeltilmemiş)R2
> summary(lm.res)
Call:
lm(formula = y ~ x)
(...)
Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175
F-statistic: 71.97 on 1 and 98 DF, p-value: 2.334e-13
çünkü burada toplam varyanstır. Bunun gibi bir ANOVA tablosunda doğrudan bulunduğunu unutmayın.R2=1−RSS/TSSTSS
> summary.aov(lm.res)
Df Sum Sq Mean Sq F value Pr(>F)
x 1 72.459 72.459 71.969 2.334e-13 ***
Residuals 98 98.668 1.007
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Şimdi, sapmaya bakın:
> deviance(lm.res)
[1] 98.66754
Aslında, doğrusal modeller için sapma RSS'e eşittir (böyle bir durumda OLS ve ML'nin çakışacağını tahmin edebilirsiniz).
Sapma ve CART
CART'ı zaten etiketli bireyleri (sınıflandırma bağlamında) keyfi sınıflara ayırmanın bir yolu olarak görebiliriz . Ağaçlar, bireylerin sınıf üyeliğine yönelik bir olasılık modeli olarak görülebilir. Yani, her düğüm at , bir olasılık dağılımı var sınıflar üzerinde. Burada önemli olan ağacın yaprakları bize rastgele bir numune vermek olduğunu tarafından belirtilmiş bir multinomial dağılımından . Böylece bir ağacın sapmasını, nin tüm yapraklarının toplamı olarak tanımlayabiliriz .nipiknikpikD
Di=−2∑kniklog(pik),
Venables ve Ripley'in notasyonlarını takiben ( MASS , Springer 2002, 4. basım). R kullanıcıları için bu temel referansa erişiminiz varsa (IMHO), böyle bir yaklaşımın düğümleri bölmek ve bir ağacı gözlenen verilere yerleştirmek için nasıl kullanılacağını kendiniz kontrol edebilirsiniz (s. 255 ff.); Temel olarak fikir, ağacı budayarak en aza indirmektir, burada ağacındaki düğümlerin sayısıdır . Burada maliyet karmaşıklığı değişiminin farkındayız . Burada , entropi veya bilgi kazancı ölçüsüne veya olarak tanımlanan Gini endeksine dayanan düğüm kirlilik kavramına (yani, belirli bir düğümdeki dağılımın heterojenliği)D+α#(T)#(T)TD1−∑kp2ik (bilinmeyen oranlar, düğüm oranlarından tahmin edilmiştir).
Bir regresyon ağacı ile, fikir oldukça benzerdir ve sapmayı tarafından bireyler için tanımlanan karelerin toplamı olarak kavramsallaştırabiliriz.j
Di=∑j(yj−μi)2,
tüm yapraklar üzerinde toplandı. Burada, her yaprağın içinde düşünülen olasılık modeli bir gauss . Venables ve Ripley'den alıntılar (s. 256), " , bir gaussian GLM için normal ölçekli sapmadır. Bununla birlikte, ağacın iç düğümlerindeki dağılım daha sonra normal dağılımların bir karışımıdır ve sadece yapraklarda uygundur. Ağaç yapım süreci, regresyondaki ileri değişken seçimine çok benzeyen olasılık modellerinin hiyerarşik bir düzeltmesi olarak görülmelidir . ” Bölüm 9.2, uygulama hakkında daha ayrıntılı bilgi sağlar , ancak işlevine zaten bakabilirsiniz.N(μi,σ2)DDirpart
residuals()
rpart
"sapma artıkları" eksi karenin kökü olarak hesaplanan nesnenin takılı modelin logaritmasının iki katı.
Atkinson ve Therneau tarafından rpart rutinlerini kullanarak özyinelemeli bölümlemeye giriş de iyi bir başlangıçtır. Daha genel bir inceleme için (torbalama dahil) tavsiye ederim