Büyük anket verilerim, ikili sonuç değişkenim ve ikili ve sürekli dahil birçok açıklayıcı değişkenim var. Model setleri (hem GLM hem de karma GLM ile deneme) yapıyorum ve üst modeli seçmek için bilgi teorik yaklaşımları kullanıyorum. Korelasyon için açıklayıcıları (hem sürekli hem de kategorik) dikkatle inceledim ve sadece 0.3 veya daha az Pearson veya Phicorr katsayısına sahip aynı modelde olanları kullanıyorum. Tüm sürekli değişkenlerime en üst model için rekabet etme konusunda adil bir şans vermek istiyorum. Deneyimlerime göre, ihtiyaç duyanları eğime dayalı olarak dönüştürmek katıldıkları modeli geliştirir (düşük AIC).
İlk sorum şudur: bu gelişme, dönüşümün logit ile doğrusallığı artırdığı için mi? Ya da çarpıklığın düzeltilmesi, verileri bir şekilde simetrik hale getirerek açıklayıcı değişkenlerin dengesini bir şekilde iyileştirir mi? Keşke bunun arkasındaki matematiksel nedenleri anlasaydım ama şimdilik, eğer birisi bunu kolay bir şekilde açıklayabilirse, bu harika olurdu. Kullanabileceğim referanslar varsa, gerçekten takdir ediyorum.
Birçok internet sitesi, normallik ikili lojistik regresyonda bir varsayım olmadığı için değişkenleri dönüştürmediğini söylüyor. Ancak, değişkenlerimi dönüştürmemekle, diğerlerine kıyasla bazılarını dezavantajlı bıraktığımı ve en üst modelin ne olduğunu etkileyebileceğini ve çıkarımını değiştirebileceğini hissediyorum (iyi, genellikle değil, ancak bazı veri kümelerinde yapar). Değişkenlerimden bazıları günlük dönüştürüldüğünde, bazıları kare olduğunda (farklı eğim yönü) ve bazıları dönüştürülmediğinde daha iyi performans gösterir.
Birisi bana lojistik regresyon için açıklayıcı değişkenleri dönüştürürken nelere dikkat edilmesi gerektiğine dair bir rehber verebilir mi ve bunu yapmazsa neden olmasın?