Bu yaklaşımın GAM'lara uydurma yapısının çıktısı, düzleştiricilerin doğrusal kısımlarını diğer parametrik terimlerle gruplandırmaktır. Bildirimin Private
ilk tabloda bir girişi vardır ancak ikinci tabloda girişi boştur. Bunun nedeni Private
kesinlikle parametrik bir terimdir; bir faktör değişkendir ve bu nedenle etkisini gösteren tahmini bir parametreyle ilişkilendirilir Private
. Yumuşak terimlerin iki tür etkiye ayrılmasının nedeni, bu çıktının yumuşak bir terimin olup olmadığına karar vermenize izin vermesidir
- doğrusal olmayan bir etki : parametrik olmayan tabloya bakın ve önemini değerlendirin. Önem varsa, düzgün doğrusal olmayan bir etki olarak bırakın. Önemsiz ise, doğrusal etkiyi göz önünde bulundurun (aşağıda 2.)
- doğrusal bir etki : parametrik tabloya bakın ve doğrusal etkinin önemini değerlendirin. Anlamlı ise, terimi tanımlayan formülde terimi düz
s(x)
-> haline getirebilirsiniz x
. Eğer önemsiz ise, terimi modelden tamamen çıkarmayı düşünebilirsiniz (ancak buna dikkat edin --- bu, gerçek etkinin == 0 olduğu güçlü bir ifadeye karşılık gelir).
Parametrik tablo
Buradaki girdiler, bu doğrusal modeli taktıysanız ve ANOVA tablosunu hesapladıysanız alacağınız gibidir, ancak ilişkili model katsayıları için tahmin gösterilmez. Tahmini katsayılar ve standart hatalar ve ilişkili t veya Wald testleri yerine, açıklanan varyans miktarı (karelerin toplamları açısından) F testleriyle birlikte gösterilir. Birden fazla ortak değişken (veya ortak değişkenlerin işlevleri) ile donatılmış diğer regresyon modellerinde olduğu gibi, tablodaki girişler modeldeki diğer terimlere / işlevlere bağlıdır.
Parametrik olmayan tablo
Parametrik olmayan etkiler donatılmış kenar şeritleri doğrusal olmayan parça ile ilgilidir. Bu doğrusal olmayan etkilerin, doğrusal olmayan etkisi hariç önemlidir Expend
. Doğrusal olmayan etkisinin bazı kanıtları vardır Room.Board
. Npar Df
Bunların her biri bir dizi parametrik olmayan serbestlik derecesi ( ) ile ilişkilidir ve yanıttaki miktarı bir F testi ile değerlendirilen bir varyasyon miktarını açıklar (varsayılan olarak, argümana bakınız test
).
Parametrik olmayan bölümdeki bu testler, doğrusal olmayan bir ilişki yerine doğrusal bir ilişkinin sıfır hipotezinin testi olarak yorumlanabilir .
Bunu yorumlayabilme şekliniz, yalnızca Expend
düzgün doğrusal olmayan bir etki olarak ele alınma emridir. Diğer düzeltmeler doğrusal parametrik terimlere dönüştürülebilir. Diğer düzeltmeleri Room.Board
doğrusal, parametrik terimlere dönüştürdüğünüzde düzgünleştirmenin parametrik olmayan bir etkisi olmaya devam ettiğini kontrol etmek isteyebilirsiniz ; etkisi Room.Board
biraz doğrusal olmayabilir , ancak bu modeldeki diğer düz terimlerin varlığından etkileniyor olabilir.
Bununla birlikte, bunun çoğu, birçok düzlemenin sadece 2 serbestlik derecesine izin verilmiş olmasına bağlı olabilir; neden 2?
Otomatik pürüzsüzlük seçimi
GAM'lerin takılmasına yönelik daha yeni yaklaşımlar, önerilen paket mgcv'de uygulandığı gibi Simon Wood'un cezalandırılmış spline yaklaşımı gibi otomatik pürüzsüzlük seçim yaklaşımları yoluyla sizin için pürüzsüzlük derecesini seçecektir :
data(College, package = 'ISLR')
library('mgcv')
set.seed(1)
nr <- nrow(College)
train <- with(College, sample(nr, ceiling(nr/2)))
College.train <- College[train, ]
m <- mgcv::gam(Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate), data = College.train,
method = 'REML')
Model özeti daha özlüdür ve düzgün işlevi doğrusal (parametrik) ve doğrusal olmayan (parametrik olmayan) katkılardan ziyade doğrudan bir bütün olarak değerlendirir:
> summary(m)
Family: gaussian
Link function: identity
Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8544.1 217.2 39.330 <2e-16 ***
PrivateYes 2499.2 274.2 9.115 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(Room.Board) 2.190 2.776 20.233 3.91e-11 ***
s(PhD) 2.433 3.116 3.037 0.029249 *
s(perc.alumni) 1.656 2.072 15.888 1.84e-07 ***
s(Expend) 4.528 5.592 19.614 < 2e-16 ***
s(Grad.Rate) 2.125 2.710 6.553 0.000452 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.794 Deviance explained = 80.2%
-REML = 3436.4 Scale est. = 3.3143e+06 n = 389
Şimdi çıktı yumuşak terimleri ve parametrik terimleri ayrı tablolara toplar, çıktı ise doğrusal bir modele benzer şekilde daha tanıdık bir çıktı alır. Yumuşak terimlerin tüm etkisi alt tabloda gösterilmiştir. Bunlar, gösterdiğiniz gam::gam
modelle aynı testler değildir ; null hipotezine karşı pürüzsüz etkinin düz, yatay bir çizgi, boş bir etki veya sıfır etki gösteren testlerdir. Alternatif, gerçek doğrusal olmayan etkinin sıfırdan farklı olmasıdır.
EDF'lerin 2'den büyük olduğuna dikkat edin, s(perc.alumni)
bu da gam::gam
modelin biraz kısıtlayıcı olabileceğini düşündürmektedir.
Karşılaştırma için uygun pürüzsüzler
plot(m, pages = 1, scheme = 1, all.terms = TRUE, seWithMean = TRUE)
hangi üretir
Otomatik pürüzsüzlük seçimi, terimlerin modelden tamamen çekilmesi için de seçilebilir:
Bunu yaptıktan sonra, model uyumunun gerçekten değişmediğini görüyoruz
> summary(m2)
Family: gaussian
Link function: identity
Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8539.4 214.8 39.755 <2e-16 ***
PrivateYes 2505.7 270.4 9.266 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(Room.Board) 2.260 9 6.338 3.95e-14 ***
s(PhD) 1.809 9 0.913 0.00611 **
s(perc.alumni) 1.544 9 3.542 8.21e-09 ***
s(Expend) 4.234 9 13.517 < 2e-16 ***
s(Grad.Rate) 2.114 9 2.209 1.01e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.794 Deviance explained = 80.1%
-REML = 3475.3 Scale est. = 3.3145e+06 n = 389
Tüm düzleştirmeler, yivlerin doğrusal ve doğrusal olmayan kısımlarını daralttıktan sonra bile biraz doğrusal olmayan etkiler önermektedir.
Şahsen, mgcv'den çıktıyı yorumlamak daha kolay buluyorum ve otomatik pürüzsüzlük seçim yöntemlerinin veriler tarafından destekleniyorsa doğrusal bir etkiye uyma eğilimi gösterdiği için.