İkili sonuç ve bazı ortak değişkenler içeren verilerimiz var. Verileri modellemek için lojistik regresyon kullandım. Sadece basit bir analiz, olağanüstü bir şey değil. Nihai çıktının, belirli bir eş değişken için olasılığın nasıl değiştiğini gösterdiğimiz bir doz-yanıt eğrisi olması gerekiyordu. Bunun gibi bir şey:
Lojistik regresyonu seçmek için dahili bir gözden geçirenden (saf bir istatistikçi değil) bazı eleştiriler aldık. Lojistik regresyon, S-şekilli eğrinin olasılık ölçeğindeki bükülme noktasının olasılık 0.5'te olduğunu varsayar (veya tanımlar). Bükülme noktasının gerçekten de olasılık 0,5 olduğunu varsaymak için hiçbir neden olmayacağını savundu ve bükülme noktasının gerçek konum veriye dayalı olacak şekilde değişmesine izin veren farklı bir regresyon modeli seçmeliyiz.
İlk başta bu konu hakkında hiç düşünmediğim için argümanı yüzünden hazırlıksız yakalandım. Bükülme noktasının 0.5 olduğunu varsaymanın neden haklı olduğuna dair herhangi bir argümanım yoktu. Biraz araştırma yaptıktan sonra hala bu soruya bir cevabım yok.
Bükülme noktasının ek bir parametre olduğu 5 parametreli lojistik regresyonla karşılaştım, ancak bu regresyon modelinin genellikle sürekli bir sonuca sahip doz-yanıt eğrileri üretilirken kullanıldığı görülüyor. İkili yanıt değişkenlerine genişletilip genişletilemeyeceği ve nasıl genişletilebileceğinden emin değilim.
Sanırım ana sorum, neden ya da lojistik regresyonun bükülme noktasının 0,5 olduğunu varsaymak uygun olduğunda? Hatta önemi var mı? Hiçbir zaman lojistik regresyon modeline uyan ve büküm noktasının konusunu açıkça tartışan birini görmedim. Bükülme noktasının mutlaka 0.5'te olmadığı bir doz yanıt eğrisi oluşturmak için alternatifler var mı?
Sadece bütünlük için, yukarıdaki resmi oluşturmak için R kodu:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Düzenleme 1:
Sadece Scortchi'nin yorumlardan birine söylediklerine eklemek için: İnceleyen gerçekten de biyolojik olarak eğrilikteki değişimin 0.5'ten önce gerçekleşmesinin daha olası olabileceğini iddia etti. Bu nedenle, bükülme noktasının 0.5 olduğunu varsaymaya karşı direnci.
Düzenleme 2:
Frank Harrell'in yorumuna bir tepki olarak:
Örneğin, yukarıdaki modelimi kuadratik ve kübik bir terim içerecek şekilde değiştirdim gre
(bu örnekte "doz").
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
gre
Bu durumda kuadratik ve kübik bir terim eklemenin muhtemelen anlamlı olmamasına rağmen, doz-cevap eğrisinin biçiminin değiştiğini görüyoruz. Gerçekten de şimdi yaklaşık 0.25 ve 0.7'ye yakın iki bükülme noktası var.