Lojistik regresyon için sürekli değişkenleri dönüştürme


11

Büyük anket verilerim, ikili sonuç değişkenim ve ikili ve sürekli dahil birçok açıklayıcı değişkenim var. Model setleri (hem GLM hem de karma GLM ile deneme) yapıyorum ve üst modeli seçmek için bilgi teorik yaklaşımları kullanıyorum. Korelasyon için açıklayıcıları (hem sürekli hem de kategorik) dikkatle inceledim ve sadece 0.3 veya daha az Pearson veya Phicorr katsayısına sahip aynı modelde olanları kullanıyorum. Tüm sürekli değişkenlerime en üst model için rekabet etme konusunda adil bir şans vermek istiyorum. Deneyimlerime göre, ihtiyaç duyanları eğime dayalı olarak dönüştürmek katıldıkları modeli geliştirir (düşük AIC).

İlk sorum şudur: bu gelişme, dönüşümün logit ile doğrusallığı artırdığı için mi? Ya da çarpıklığın düzeltilmesi, verileri bir şekilde simetrik hale getirerek açıklayıcı değişkenlerin dengesini bir şekilde iyileştirir mi? Keşke bunun arkasındaki matematiksel nedenleri anlasaydım ama şimdilik, eğer birisi bunu kolay bir şekilde açıklayabilirse, bu harika olurdu. Kullanabileceğim referanslar varsa, gerçekten takdir ediyorum.

Birçok internet sitesi, normallik ikili lojistik regresyonda bir varsayım olmadığı için değişkenleri dönüştürmediğini söylüyor. Ancak, değişkenlerimi dönüştürmemekle, diğerlerine kıyasla bazılarını dezavantajlı bıraktığımı ve en üst modelin ne olduğunu etkileyebileceğini ve çıkarımını değiştirebileceğini hissediyorum (iyi, genellikle değil, ancak bazı veri kümelerinde yapar). Değişkenlerimden bazıları günlük dönüştürüldüğünde, bazıları kare olduğunda (farklı eğim yönü) ve bazıları dönüştürülmediğinde daha iyi performans gösterir.

Birisi bana lojistik regresyon için açıklayıcı değişkenleri dönüştürürken nelere dikkat edilmesi gerektiğine dair bir rehber verebilir mi ve bunu yapmazsa neden olmasın?


2
Gerçekten de, lojistik regresyonda normallik varsayımı yoktur (veya bu durumda lojistik dağıtım). Bağlantı fonksiyonu (bazen ), ( ) 'ı ile eş değişkenlerle gözlemleme olasılığı arasındaki ilişkiyi modellemek için kullanılır. . Bağlantı işlevinin seçiminden dolayı zayıf bir uyum / performans olabilir . Bu sorunu sıralamak için bir alternatif daha esnek bir dağıtım kullanmaktır, örneğin bu makaleye bakın . FF110P(Y=1|β,X)=F(Xβ)

Her ne kadar farklı bir bağlamda yazılmış olsa da, istediğin şeylerin çoğu benim cevabımda (ya da cevabımdaki linklerde): Normal olarak dağıtılan X ve Y'nin normal olarak dağıtılan artıklarla sonuçlanma olasılığı daha yüksek mi?
gung - Monica'yı eski

Yanıtlar:


3

Değişkenleri sadece istatistiksel temelde dönüştürüp dönüştürmemeye karar vermelisiniz . Yoruma bakmalısın. Your Yanıtlarınızın cinsinden doğrusal olması mantıklı mı ? veya büyük olasılıkla doğrusal mıdır? Bunu tartışmak için, değişkenlerinizi bilmeliyiz ... Örnek olarak: model uyumundan bağımsız olarak, ölümün doğrusal bir yaş işlevi olduğuna inanmazdım!xlog(x)

"Büyük verileriniz" olduğunu söylediğiniz için, verilerin dönüşümler hakkında konuşmasına izin vermek için spline'a bakabilirsiniz ... örneğin, R'de mgcv paketini. nihai test kendinize bilimsel mantıklı olanı sormaktır . Field Alanınızdaki diğer kişiler benzer verilerle ne yapıyor?


Endişelerimi desteklediğiniz için teşekkür ederim: gerçekten de biyolojik mantıklı olanı düşünürüm. Sorun şu ki, aslında iki ilgili veri setim var ve her ikisinden de aynı anda sonuç çıkarmak istiyorum. Ancak bir alt kümede, yoğunluk değişkeni dönüştürülmemiş modellerde en iyisidir, diğer günlük dönüşümünde ise en iyisidir. Günlük dönüşümü, bu değişken için daha düşük değerlere sahip veri kümesindeki ilişkiyi geliştirir, bu nedenle, değişkeni her ikisinde de dönüştürülmeden bırakmadıkça, bence bu iki veri kümesini uzlaştırmak çok zor olacaktır.
Zsuzsa

1
Bir alandaki uzmanlar nadiren apriori değişkenler için "doğru" dönüşümleri bilebilirler. Neredeyse hiç doğrusal ilişki görmüyorum, bu yüzden örneklem boyutu gerektiğinde bu varsayımı regresyon spline'ları kullanarak rahatlatıyorum. Sonucu resimlerle yorumlanabilir hale getiriyorum.
Frank Harrell

3

Kritik konu, gerçek dünyada temsil edilmesi gereken sayıların ne olduğu ve bu değişkenler ile bağımlı değişken arasındaki varsayımsal ilişkinin ne olduğudur. Modelinizi verilerinizi 'temizleyerek' geliştirebilirsiniz, ancak gerçek dünyayı daha iyi yansıtmazsa başarısız oldunuz. Belki de verilerinizin dağılımı, modelleme yaklaşımınızın yanlış olduğu ve tamamen farklı bir yaklaşıma ihtiyacınız olduğu anlamına gelir, belki verilerinizde problemler vardır.

Değişkenleri neden> 3'ten büyükse kaldırıyorsunuz? Belki de bunlar gerçekten ilişkilidir ve her ikisi de bağımlı değişken için önemlidir. Bununla ilişkili değişkenlerin ortak katkısını temsil eden bir indeks veya işlevle başa çıkabilirsiniz. Görünüşe göre, keyfi bir istatistiki kritere dayanarak bilgileri körü körüne atıyorsunuz. Neden düzeltme> .31 veya .33 kullanılmıyor?

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.