Doğal (yani kısıtlı) kübik kamalar kullanıldığında, oluşturulan temel fonksiyonlar yüksek oranda eşbiçimlidir ve bir regresyonda kullanıldığında çok doğrusallık gösteren çok yüksek VIF (varyans enflasyon faktörü) istatistikleri üretiyor gibi görünmektedir. Tahmin amaçlı bir model söz konusu olduğunda, bu bir sorun mudur? Kama yapısının doğası nedeniyle her zaman böyle olacak gibi görünüyor.
İşte R'de bir örnek:
library(caret)
library(Hmisc)
library(car)
data(GermanCredit)
spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots
class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable
dat<-data.frame(cbind(spl_mat,class))
cor(spl_mat)
OUTPUT:
x
x 1.0000000 0.9386463 0.9270723 0.9109491
0.9386463 1.0000000 0.9994380 0.9969515
0.9270723 0.9994380 1.0000000 0.9989905
0.9109491 0.9969515 0.9989905 1.0000000
mod<-glm(class~.,data=dat,family=binomial()) #model
vif(mod) #massively high
OUTPUT:
x V2 V3 V4
319.573 204655.833 415308.187 45042.675
GÜNCELLEME:
R (ve diğerleri) içindeki Hmisc paketinin yazarı Dr.Harrell'e ulaştım ve algoritmanın birleştiği (örneğin lojistik regresyon) ve standart hataların patlamamış olduğu (Maarten aşağıda belirtildiği gibi) - ve model iyi uyuyor, en iyi test setinde gösteriliyor, o zaman bu eşbiçimlilikle ilgili bir sorun yok.
Ayrıca, kısıtlı kübik spline gibi cebirsel bir tarzda inşa edilen değişkenler arasındaki eşzamanlılığın sadece bu eşbiçimlilik numuneden numuneye değiştiğinde önemli olduğu için (ve bunun Mükemmel Regresyon Modelleme Stratejileri kitabının 65. sayfasında bulunmaktadır ) olduğunu belirtti.
rcsgen