Çoklu doğrusallık ve spline regresyonu ile ilgili bir problem var mı?


12

Doğal (yani kısıtlı) kübik kamalar kullanıldığında, oluşturulan temel fonksiyonlar yüksek oranda eşbiçimlidir ve bir regresyonda kullanıldığında çok doğrusallık gösteren çok yüksek VIF (varyans enflasyon faktörü) istatistikleri üretiyor gibi görünmektedir. Tahmin amaçlı bir model söz konusu olduğunda, bu bir sorun mudur? Kama yapısının doğası nedeniyle her zaman böyle olacak gibi görünüyor.

İşte R'de bir örnek:

library(caret)
library(Hmisc)
library(car)
data(GermanCredit)

spl_mat<-rcspline.eval(GermanCredit$Amount,  nk=5, inclx=TRUE) #natural cubic splines with 5 knots

class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable
dat<-data.frame(cbind(spl_mat,class))

cor(spl_mat)

OUTPUT:
              x                              
    x 1.0000000 0.9386463 0.9270723 0.9109491
      0.9386463 1.0000000 0.9994380 0.9969515
      0.9270723 0.9994380 1.0000000 0.9989905
      0.9109491 0.9969515 0.9989905 1.0000000


mod<-glm(class~.,data=dat,family=binomial()) #model

vif(mod) #massively high

OUTPUT:
x         V2         V3         V4 
319.573 204655.833 415308.187  45042.675

GÜNCELLEME:

R (ve diğerleri) içindeki Hmisc paketinin yazarı Dr.Harrell'e ulaştım ve algoritmanın birleştiği (örneğin lojistik regresyon) ve standart hataların patlamamış olduğu (Maarten aşağıda belirtildiği gibi) - ve model iyi uyuyor, en iyi test setinde gösteriliyor, o zaman bu eşbiçimlilikle ilgili bir sorun yok.

Ayrıca, kısıtlı kübik spline gibi cebirsel bir tarzda inşa edilen değişkenler arasındaki eşzamanlılığın sadece bu eşbiçimlilik numuneden numuneye değiştiğinde önemli olduğu için (ve bunun Mükemmel Regresyon Modelleme Stratejileri kitabının 65. sayfasında bulunmaktadır ) olduğunu belirtti.


1
Oluşturulan spline'ları her zaman rcsgen
dikeyleştirebilirsiniz

Yanıtlar:


7

Çoklu doğrusallık, böyle bir işlevi tahmin ederken sayısal problemlere yol açabilir. Bazılarının kısıtlı kübik spline'lar yerine B-spline'ları (veya bu temadaki varyasyonları) kullanmasının nedeni budur. Bu nedenle, kısıtlı kübik spline'ları daha büyük bir araç kutusunda potansiyel olarak yararlı bir araç olarak görme eğilimindeyim.


Merhaba Maarten, sayısal problemler derken yakınsamaya mı ihtiyacınız var? Regresyon yakınsamışsa ve bir test setinde iyi görünüyorsa - durumun bir sorun olmadığı sonucuna varıyor musunuz?
B_Miner

Sayısal problemler varsa, yakınsama eksikliği olası (ancak gerekli olmayan) bir sonuçtur. Gerçekçi olmayan katsayı tahminleri ve / veya gerçekçi olmayan yüksek standart hatalar diğer olası sonuçlardır.
Maarten Buis

1
QR ayrışması gibi yöntemler çok yardımcı oldu. Bununla birlikte, modern yazılımı hala kırabilirsiniz, bunu yapmak daha da zorlaştı.
Maarten Buis

1
Bu bir sorun olmayabilir. Ancak sayısal bir sorun varsa scale=TRUE, R rmspaketindeki bazı sığdırma işlevlerinin bağımsız değişkeni, uyumadan önce tüm sütunları standartlaştırır ve uydurduktan sonra katsayıları kullanıcının hesaba katmasına gerek kalmayacak şekilde standartlaştırır.
Frank Harrell

2
Bireysel katsayılara ve standart hatalara çok fazla bakmayın. Takılan tüm eğriye bakın.
Frank Harrell
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.