Logitin doğrusallığının ihlaline karşı lojistik regresyonun sağlamlığının araştırılması


10

Ben ikili bir sonuç (başlangıç ​​ve başlangıç ​​değil) ile lojistik regresyon yürütüyorum. Öngörücüler karışımımın tamamı sürekli veya ikilik değişkenler.

Box-Tidwell yaklaşımını kullanarak, sürekli tahmincilerimden biri, logitin doğrusallığı varsayımını potansiyel olarak ihlal ediyor. Uyum iyiliği istatistiklerinden uyumun sorunlu olduğuna dair bir belirti yoktur.

Daha sonra, orijinal sürekli değişkeni ikame ile değiştirerek regresyon modelini tekrar çalıştırdım: birincisi, bir kare kök dönüşümü ve ikincisi, değişkenin iki boyutlu bir versiyonu.

Çıktı incelendiğinde, uyum iyiliğinin marjinal olarak iyileştiği, ancak artıkların sorunlu hale geldiği görülmektedir. Parametre tahminleri, standart hatalar ve nispeten benzer kalır. Verilerin yorumu, 3 model arasında hipotezim açısından değişmez.exp(β)

Bu nedenle, sonuçlarımın kullanışlılığı ve verilerin yorumlanması anlamında, regresyon modelini orijinal sürekli değişkeni kullanarak bildirmek uygun görünmektedir.

Bunu merak ediyorum:

  1. Lojistik regresyon, logit varsayımının doğrusallığının potansiyel ihlaline karşı ne zaman sağlamdır?
  2. Yukarıdaki örneğim göz önüne alındığında, modele orijinal sürekli değişkeni dahil etmek kabul edilebilir mi?
  3. Modelin, logitin potansiyel doğrusallığı ihlaline karşı sağlam olduğunu kabul etmenin ne zaman uygun olduğunu önermek için herhangi bir referans veya kılavuz var mı?

Yanıtlar:


16

Doğrusallık varsayımı, regresyonda o kadar yaygın bir şekilde ihlal edilir ki, bir varsayımdan ziyade bir sürpriz olarak adlandırılmalıdır. Diğer regresyon modellerinde olduğu gibi, doğrusal modelin yanlış olduğunu varsaydığınızda lojistik model doğrusal olmamaya dayanıklı değildir . Artıklar veya omnibus uyum iyiliği testlerini kullanarak doğrusal olmama durumunu tespit etmek yerine, doğrudan testler kullanmak daha iyidir. Örneğin, regresyon spline'larını kullanarak sürekli tahmin edicileri genişletin ve tüm doğrusal olmayan terimlerin birleşik testini yapın. Yine de terimleri test etmeyin ve sadece doğrusal olmamanızı bekleyin. Bu yaklaşım, karekök, kütük vb.Gibi farklı tek eğimli dönüşüm seçeneklerini denemekten çok daha iyidir, çünkü bu tür analizlerden sonra ortaya çıkan istatistiksel çıkarım yanlış olacaktır, çünkü yeterince büyük serbestlik derecesine sahip değildir.

İşte R'de bir örnek.

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests

Cevabınız fantastik bir anlam taşıyor - teşekkürler! SPSS'de sözdiziminin kullanılmasını önerebilir misiniz? Ne yazık ki R. kullanmak için erişimim (veya becerilerim) yok
Short Elizabeth

1
R'yi öğrenmek için kesinlikle zaman ayırmaya değer ve lojistik modelleme ve rms paketi ile ilgili çok sayıda el notum var. SPSS'de bunu yapmak zor olurdu.
Frank Harrell

@FrankHarrell: f <- lrm(y ~ ...Çizgi hata veriyor object 'y' not found- düzeltebilir misiniz?
arielf

1
Bu rmspaketim için benzersiz olmayan çok temel bir R hatası . Temel regresyon lmfonksiyonu için geniş kapsamlı materyalle başlayarak R'yi tanımak için biraz zaman ayırın .
Frank Harrell

1
Yazılımın yardım sayfalarında yerleşik olan örnekler bu verileri simüle eder, bu nedenle tüm örneğe bağlam içinde bakın. Do require(rms)sonra ?lrmoexamples(lrm)
Frank Harrell
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.