Lojistik regresyon modeline uyurken sayım verilerini ortak değişken olarak kullanmak istiyorum. Sorum şu:
- Bağımsız değişkenler olarak sayım, negatif olmayan tamsayı değişkenleri kullanarak lojistik (ve daha genel olarak genelleştirilmiş doğrusal model) varsayımlarını ihlal ediyor muyum?
Literatürde sıcak kullanım sayısı verilerinin sonuç olarak olduğu, fakat değişken olarak olmadığı konusunda birçok referans buldum; örneğin çok net bir makaleye bakınız: "NE Breslow (1996) Genelleştirilmiş Doğrusal Modeller: Varsayımları Kontrol Etme ve Sonuçları Güçlendirme, Congresso Nazionale Societa Italiana di Biometria, Cortona Haziran 1995", http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
Gevşek olarak, glm varsayımlarının aşağıdaki gibi ifade edilebileceği görülmektedir:
- iid kalıntıları;
- link işlevi bağımlı ve bağımsız değişkenler arasındaki ilişkiyi doğru bir şekilde temsil etmelidir;
- aykırı değerlerin olmaması
Herkes, ortak değişkenlerle başa çıkmak için başka bir tür model kullanmayı önerebilecek başka bir varsayım / teknik sorun olup olmadığını biliyor mu?
Son olarak, verilerimin nispeten az sayıda örnek (<100) içerdiğini ve sayı değişkenlerinin aralıklarının 3-4 büyüklük sırasına göre değişebileceğini (yani bazı değişkenlerin 0-10 aralığında değeri olduğunu, diğer değişkenlerin 0-10000).
Basit bir R örnek kodu şöyledir:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################