Lojistik Regresyon ve Çekme Noktası


11

İkili sonuç ve bazı ortak değişkenler içeren verilerimiz var. Verileri modellemek için lojistik regresyon kullandım. Sadece basit bir analiz, olağanüstü bir şey değil. Nihai çıktının, belirli bir eş değişken için olasılığın nasıl değiştiğini gösterdiğimiz bir doz-yanıt eğrisi olması gerekiyordu. Bunun gibi bir şey:

resim açıklamasını buraya girin

Lojistik regresyonu seçmek için dahili bir gözden geçirenden (saf bir istatistikçi değil) bazı eleştiriler aldık. Lojistik regresyon, S-şekilli eğrinin olasılık ölçeğindeki bükülme noktasının olasılık 0.5'te olduğunu varsayar (veya tanımlar). Bükülme noktasının gerçekten de olasılık 0,5 olduğunu varsaymak için hiçbir neden olmayacağını savundu ve bükülme noktasının gerçek konum veriye dayalı olacak şekilde değişmesine izin veren farklı bir regresyon modeli seçmeliyiz.

İlk başta bu konu hakkında hiç düşünmediğim için argümanı yüzünden hazırlıksız yakalandım. Bükülme noktasının 0.5 olduğunu varsaymanın neden haklı olduğuna dair herhangi bir argümanım yoktu. Biraz araştırma yaptıktan sonra hala bu soruya bir cevabım yok.

Bükülme noktasının ek bir parametre olduğu 5 parametreli lojistik regresyonla karşılaştım, ancak bu regresyon modelinin genellikle sürekli bir sonuca sahip doz-yanıt eğrileri üretilirken kullanıldığı görülüyor. İkili yanıt değişkenlerine genişletilip genişletilemeyeceği ve nasıl genişletilebileceğinden emin değilim.

Sanırım ana sorum, neden ya da lojistik regresyonun bükülme noktasının 0,5 olduğunu varsaymak uygun olduğunda? Hatta önemi var mı? Hiçbir zaman lojistik regresyon modeline uyan ve büküm noktasının konusunu açıkça tartışan birini görmedim. Bükülme noktasının mutlaka 0.5'te olmadığı bir doz yanıt eğrisi oluşturmak için alternatifler var mı?

Sadece bütünlük için, yukarıdaki resmi oluşturmak için R kodu:

dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")

Düzenleme 1:

Sadece Scortchi'nin yorumlardan birine söylediklerine eklemek için: İnceleyen gerçekten de biyolojik olarak eğrilikteki değişimin 0.5'ten önce gerçekleşmesinin daha olası olabileceğini iddia etti. Bu nedenle, bükülme noktasının 0.5 olduğunu varsaymaya karşı direnci.

Düzenleme 2:

Frank Harrell'in yorumuna bir tepki olarak:

Örneğin, yukarıdaki modelimi kuadratik ve kübik bir terim içerecek şekilde değiştirdim gre(bu örnekte "doz").

logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+  gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")

resim açıklamasını buraya girin

greBu durumda kuadratik ve kübik bir terim eklemenin muhtemelen anlamlı olmamasına rağmen, doz-cevap eğrisinin biçiminin değiştiğini görüyoruz. Gerçekten de şimdi yaklaşık 0.25 ve 0.7'ye yakın iki bükülme noktası var.


2
Bu sadece öngörücülerin yanıtın log-olasılıkları ile doğrusal olmayan ilişkilerini araştırmak istemekle aynı şey değil mi?
Scortchi - Monica'yı eski durumuna getirin

Yanıtlar:


8

@Scortchi tarafından ele alındığı gibi, gözden geçiren, lojistik regresyon bağlamında öngörücülerin logit ölçeği üzerindeki doğrusal olmayan etkilerinin modellenmesinin mümkün olmadığı gibi yanlış bir izlenim altında çalışıyordu. Orijinal model, tüm öngörücülerin doğrusallığını almak için hızlıydı. Doğrusallık varsayımını gevşeterek, örneğin kısıtlı kübik spline'lar (doğal spline) kullanarak, eğrinin tüm şekli esnektir ve bükülme noktası artık bir sorun değildir. Tek bir öngörücü olsaydı ve bir regresyon spline kullanılarak genişletildiyse, lojistik modelin sadece gözlemlerin düzgünlüğü ve bağımsızlığı varsayımlarını yaptığını söyleyebilirdi.


Spline regresyonuna çok aşina olmadığımı itiraf etmeliyim. Bunu daha önce lojistik regresyonla birlikte (R'de) nasıl yapardım? Orijinal yazımı (değiştir 2), tahminçiye polinom terimlerini içerecek şekilde değiştirdim. Bunu spline yumuşatmaya alternatif olarak kullanabilir miyim? Elbette spline'larla aynı esnekliğe sahip değilim.
Francis

1
@Franco: Frank Harrell'in kendi Regresyon Modelleme Stratejileri - kitap , web sitesi , R paketi - gitmenizi sağlamalı. Regresyon spline'larının bazı avantajları hakkında kısa bir tartışma burada ; ama elbette polinomların bir alternatif olduğu konusunda haklısın.
Scortchi - Monica'yı eski durumuna döndürün

4

Bana öyle geliyor ki gözden geçiren sadece söyleyecek bir şey arıyordu. Belirtilen bükülme noktası gibi spesifikasyonun bu tür özelliklerini incelemeden önce , tahmin edilebilir bir modele ulaşmak için yaptığımız bir ton varsayım vardır. Hepsi sorgulanabilir ve tartışılabilir - lojistik işlevin kendisinin olası bir birincil hedef olması: bize temel hata teriminin koşullu dağılımının lojistik olduğunu kim söyledi? Kimse.

Sorun şu: eğrilik değişimi neyi ifade ediyor? İncelenen gerçek dünya fenomeni için ne kadar önemli, bu eğrilik değişikliğinin gerçekleştiği nokta olabilir, böylece onu "veri odaklı" yapmayı düşünürüz? Parsimony ilkesinden uzaklaşmak mı?

Soru "bükülme noktasının neden 0,5 olması gerekir?" Ancak "0.5 olarak bırakılırsa, sonuçlarımız için ne kadar yanıltıcı olabilir?".


2
Biraz hayırsever görünüyor. İnceleyenin, bu varsayımı meydan okumak için başkalarına göre meydan okumak için iyi bir nedeni olmadığını bilmiyoruz. Bir tarafa, bükülme noktaları ve lojistik regresyon ile ilgili olası bir yanlış anlama açısından garip bir yol bırakın ve modelin eğrinin neden eğilmesine ve esnemesine izin verdiğini, ancak bir cevabı hak edebilecek olduğunu soruyor.
Scortchi - Monica'yı eski durumuna getirin

@Scortchi "onu koymak için garip bir yol" ... "lojistik regresyon hakkında olası bir yanlış anlama" ... Eğer gözden geçirenin eleştirisini rasyonelleştirmek için gereken buysa, sonuçta makaleyi gözden geçirmemeliydi.
Alecos Papadopoulos

1
@Scortchi'de olduğu gibi bunu biraz fazla keskin buluyorum. Buradaki daha aktif insanların birçoğu ana akım istatistiklerden ziyade çeşitli bilimlerde geçmişe sahiptir. Bir istatistikçi, saf veya başka türlü, iyi tavsiye vermek için ne gerekli ne de yeterlidir (hemen hemen tüm durumlarda açıkça yardımcı olacaktır).
Nick Cox

@Nick Cox "Keskinliği" kabul ediyorum ve son cümlenimi bir fikir birliği işareti olarak sildim. Demek istediğim, bir modelin varsayımlarının genel bir şekilde sorgulanmasının değeri yoktur-modeller her zaman yanlıştır. Dolayısıyla, eğriliğin değişme olasılığı, incelenen gerçek dünya fenomeni için bir şekilde kritik ise, gözden geçiren gerçekten bu noktanın veriye dayalı hale gelmesini istemekte çok haklıydı. Ancak gözden geçiren "neden p = 0.5 ve başka bir yerde değil?" Yorumladı, bu yorum yapıcı değildir.
Alecos Papadopoulos

2
Bunun için teşekkürler. Genel duruşunuza katılıyorum: (a) farklı yaklaşımların esaslarının tartışılması ve (b) bunların her ikisinin de adil oyun olduğunu nasıl tartışmamız gerektiğinin tartışılması. Bireyler ve hatta gruplar hakkındaki yorumlar genellikle aksine yararlı değildir (ben de bazen abartıda çizgiyi geçmeme rağmen ...).
Nick Cox

0

Mho'da, logit regresyonu doz yanıtı için makul bir seçimdir. Tabii ki, probit, log-log, c-log-log bağlantısını kullanabilir ve uyumun iyiliğini (DEV, BIC, CAIC, vb.) Karşılaştırabilirsiniz. Ancak en basit logit regresyonu, LD50 = -b0 / b1 bükülme noktasının rahat bir resmi değerlendirmesini verir. Bunun asgari belirsizliği elde ettiğimiz belirli bir nokta olduğunu hatırlıyoruz (çapraz başvuru, LD16, LD84 ve diğerlerinin daha geniş bir CI'sine sahip olacak, bkz. Finney'in "Probit analizi", 1947, 1977). her zaman (?) Doz logaritmasını kullanmak ve daha sonra sadece% 95 CI'yi orijinal ölçekte dönüştürmek daha iyiydi.Modeldeki diğer ortak değişkenlerin doğası nedir? Çok modelli yaklaşım kullanma olasılığına işaret ediyorum ... Kesinlikle Spline'lar esnektir, ancak biçimsel parametreler daha kolay yorumlanır!

Bkz. Http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm


0

0.5 bükülme noktası daha büyük bir sorunun küçük bir parçasıdır: Lojistik denklem yapı simetriktir. Ve çoğu türevinde, modellenmiş etkinin simetrik olması için bir nedeni vardır. örneğin bir oyuncu kazandıkça diğer oyuncu kaybeder veya doygunluktan sorumlu etki ilk büyümeden sorumlu olan aynı fiziksel etkidir, vb .... Yani düşük X davranışının kökeninin aynı kökeninin bir nedeni varsa sağ el daha açık veya başka bir nedenden dolayı sorun simetrik olduğundan, gerekçeniz var.

değilse, belki de bir sonraki en basit model genelleştirilmiş lojistik denklemdir. daha fazla parametreye sahiptir ve tüm ücretsiz parametreler olmayacak şekilde bir kısıtlama eklemek isteyebilirsiniz. bu muhtemelen eklediğiniz kludge'lardan daha arzu edilir, çünkü bunlar ilk türevin ileri geri sallandığı raflar ekliyor - eğer bunun bir beklentisini optimize etmeye çalışıyorsanız, bu tür şeyler yerel dengenin kurgusal yanlış noktalarını yaratma eğilimindedir. dağılımı. genelleme formu simetriyi kıracak ama yumuşak bir şekilde.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.