9 sürekli bağımsız değişken içeren bir veri kümem var. Bir modele tek bir yüzde (bağımlı) değişkene uyacak şekilde bu değişkenler arasından seçim yapmaya çalışıyorum Score
. Ne yazık ki, bazı değişkenler arasında ciddi bir eşliklilik olacağını biliyorum.
stepAIC()
Değişken seçimi için R'deki işlevi kullanmayı denedim , ancak bu yöntem garip bir şekilde değişkenlerin denklemde listelendiği sıraya duyarlı görünüyor ...
İşte R kodum (yüzde verileri olduğundan, Puan için logit dönüşümü kullanıyorum):
library(MASS)
library(car)
data.tst = read.table("data.txt",header=T)
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 +
Var8 + Var9, data = data.tst)
step = stepAIC(data.lm, direction="both")
summary(step)
Bazı nedenlerden dolayı, denklemin başında listelenen değişkenlerin stepAIC()
fonksiyon tarafından seçildiğini ve sonucun listelenerek değiştirilebileceğini öğrendim , örneğin Var9
ilk önce (tilde sonrasında).
Buradaki modele uymanın daha etkili (ve daha az tartışmalı) bir yolu nedir? Doğrusal regresyon kullanmaya gerçekten bağlı değilim: İstediğim tek şey, 9 değişkenden hangisinin değişkeni gerçekten tahrik ettiğini anlayabilmektir Score
. Tercihen, bu, bu 9 değişkende collinearity için güçlü potansiyeli dikkate alan bir yöntem olacaktır.
Score
; bu, fazlaca odaklanabileceğim bir cümledir. Güçlü bir toplulukluluğun varlığında, kement, en azından OP'nin görüşüne dair daha katı yorumlarda bu konuda yardımcı olmayacak.