9 sürekli bağımsız değişken içeren bir veri kümem var. Bir modele tek bir yüzde (bağımlı) değişkene uyacak şekilde bu değişkenler arasından seçim yapmaya çalışıyorum Score. Ne yazık ki, bazı değişkenler arasında ciddi bir eşliklilik olacağını biliyorum.
stepAIC()Değişken seçimi için R'deki işlevi kullanmayı denedim , ancak bu yöntem garip bir şekilde değişkenlerin denklemde listelendiği sıraya duyarlı görünüyor ...
İşte R kodum (yüzde verileri olduğundan, Puan için logit dönüşümü kullanıyorum):
library(MASS)
library(car)
data.tst = read.table("data.txt",header=T)
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 +
Var8 + Var9, data = data.tst)
step = stepAIC(data.lm, direction="both")
summary(step)
Bazı nedenlerden dolayı, denklemin başında listelenen değişkenlerin stepAIC()fonksiyon tarafından seçildiğini ve sonucun listelenerek değiştirilebileceğini öğrendim , örneğin Var9ilk önce (tilde sonrasında).
Buradaki modele uymanın daha etkili (ve daha az tartışmalı) bir yolu nedir? Doğrusal regresyon kullanmaya gerçekten bağlı değilim: İstediğim tek şey, 9 değişkenden hangisinin değişkeni gerçekten tahrik ettiğini anlayabilmektir Score. Tercihen, bu, bu 9 değişkende collinearity için güçlü potansiyeli dikkate alan bir yöntem olacaktır.
Score; bu, fazlaca odaklanabileceğim bir cümledir. Güçlü bir toplulukluluğun varlığında, kement, en azından OP'nin görüşüne dair daha katı yorumlarda bu konuda yardımcı olmayacak.