Belki de 15 olası lm modeline bakarak kademeli regresyonun nasıl yapıldığını anlamak daha kolay olurdu.
İşte tüm 15 kombinasyon için formül üretmek için bir quickie.
library(leaps)
tmp<-regsubsets(mpg ~ wt + drat + disp + qsec, data=mtcars, nbest=1000, really.big=T, intercept=F)
all.mods <- summary(tmp)[[1]]
all.mods <- lapply(1:nrow(all.mods, function(x)as.formula(paste("mpg~", paste(names(which(all.mods[x,])), collapse="+"))))
head(all.mods)
[[1]]
mpg ~ drat
<environment: 0x0000000013a678d8>
[[2]]
mpg ~ qsec
<environment: 0x0000000013a6b3b0>
[[3]]
mpg ~ wt
<environment: 0x0000000013a6df28>
[[4]]
mpg ~ disp
<environment: 0x0000000013a70aa0>
[[5]]
mpg ~ wt + qsec
<environment: 0x0000000013a74540>
[[6]]
mpg ~ drat + disp
<environment: 0x0000000013a76f68>
Her model için AIC değerleri şunlarla çıkarılır:
all.lm<-lapply(all.mods, lm, mtcars)
sapply(all.lm, extractAIC)[2,]
[1] 97.98786 111.77605 73.21736 77.39732 63.90843 77.92493 74.15591 79.02978 91.24052 71.35572
[11] 63.89108 65.90826 78.68074 72.97352 65.62733
Adım regresyonunuza geri dönelim. Lm (mpg ~ wt + drat + disp + qsec) için extractAIC değeri 65.63'tür (yukarıdaki listedeki model 15'e eşdeğerdir).
Model disp (-disp) öğesini kaldırırsa, lm (mpg ~ wt + drat + qsec) 63.891'dir (veya listedeki model 11).
Model hiçbir şeyi kaldırmazsa (hiçbiri), AIC hala 65.63
Model qsec'i (-qsec) kaldırırsa, lm (mpg ~ wt + drat + disp) 65.908'dir (model 12).
vb.
Temel olarak özet, bir terimin tüm modelinizden aşamalı olarak kaldırılmasını mümkün kılar ve extractAIC değerini, artan sırada listeleyerek karşılaştırır. Daha küçük AIC değerinin GERÇEK modele benzemesi daha muhtemel olduğundan, adım birinci adımda (-disp) modelini korur.
İşlem tekrarlanır, ancak tutulan (-disp) model başlangıç noktasıdır. Modellerin karşılaştırılmasına izin vermek için terimler çıkarılır ("geri") veya çıkarılır / eklenir ("her ikisi"). Karşılaştırmada en düşük AIC değeri hala (-disp) modeli olduğundan, işlem durdurma ve elde edilen modeller verilmiştir.
Sorgunuzla ilgili olarak: "Adım adım seçimde + disp'i tekrar ekleyerek ulaşmaya çalışan işlev nedir?", Bu durumda, gerçekten hiçbir şey yapmaz, çünkü 15 modelin en iyisi model 11'dir. , yani lm (mpg ~ wt + drat + qsec).
Bununla birlikte, çözmek için çok sayıda adım gerektiren çok sayıda öngörücüye sahip karmaşık modellerde, başlangıçta kaldırılan bir terimin geri eklenmesi, terimleri karşılaştırmanın en kapsamlı yolunu sağlamak için önemlidir.
Umarım bir şekilde yardım eder.