Çoklu lojistik regresyonda anlamlı yordayıcılar anlamlı olmaz


11

Değişkenlerimi iki ayrı (tek değişkenli) lojistik regresyon modelinde analiz ettiğimde aşağıdakileri alıyorum:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

ama bunları tek bir çoklu lojistik regresyon modeline girdiğimde, şunu elde ederim:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

Her iki belirleyici de ikiliktir (kategorik). Çoklu bağlantıyı kontrol ettim.

Yeterli bilgi verip vermediğimden emin değilim, ancak tahminci 1'in neden anlamlı olmaktan anlamlı olmamasına ve çoklu regresyon modelinde olasılık oranlarının neden bu kadar farklı olduğunu anlayamıyorum. Neler olup bittiğine dair temel bir açıklama sağlayabilir mi?


2
çok değişkenli genellikle birden fazla bağımlı değişkeni gösterir - birden çok yordayıcı demek istediniz, değil mi? Buna genellikle çoklu regresyon denir.
Makro

1
β

ah, tamam teşekkürler. Ben spss üzerinde doğrusal regresyon yoluyla collinearity tanı kontrol ve tolerans ve VIF kontrol - bu doğru mu?
Annie

Güzel yorum @Macro. Ölçekle ilgili bu sorunu çözmenin yollarını okuduğumu belli belirsiz hatırlıyorum, ama nerede olduğunu hatırlamıyorum.
Peter Flom

1
π2/3

Yanıtlar:


20

Birkaç neden vardır (bunların hiçbiri özellikle lojistik regresyon ile ilgili değildir, ancak herhangi bir regresyonda ortaya çıkabilir).

  1. Serbestlik derecesi kaybı: belirli bir veri kümesinden daha fazla parametre tahmin etmeye çalışırken, daha fazlasını etkin bir şekilde soruyorsunuz, bu da maliyete neden oluyor, bu nedenle daha düşük t istatistiklerine, dolayısıyla daha yüksek p değerlerine yol açıyor.
  2. Regresörlerin Korelasyonu: Regresörleriniz birbirleriyle ilişkili olabilir ve benzer bir şeyi etkili bir şekilde ölçebilir. Diyelim ki logit modeliniz işgücü piyasası durumunu (çalışıyor / çalışmıyor) deneyim ve yaşın bir fonksiyonu olarak açıklamaktır. Bireysel olarak, her iki değişken de statü ile olumlu ilişkilidir, çünkü daha deneyimli / daha yaşlı (argüman uğruna çok eski çalışanları dışarıda bırakan) çalışanlar yeni mezunlardan daha kolay iş bulmayı bulmaktadır. Açıkçası, daha fazla deneyime sahip olmak için daha yaşlı olmanız gerektiğinden, iki değişken güçlü bir şekilde ilişkilidir. Bu nedenle, iki değişken temel olarak, özellikle küçük örneklerde, her iki değişkenin de "kaybedilmesine" yol açabilecek olan durumu açıklamak için "rekabet eder", çünkü etkilerin hiçbiri diğerinin alması için kontrol edilirken yeterince güçlü olmayabilir ve yeterince kesin olarak tahmin edilemez. önemli tahminler. Temel olarak, soruyorsunuz: Yaşı sabit tutarken bir yıllık deneyimin olumlu etkisi nedir? Veri kümenizde bu soruyu cevaplayacak çok az çalışan olabilir ya da çok az olabilir, bu nedenle etki kesin olarak tahmin edilemeyerek büyük p değerlerine yol açar.

  3. Yanlış tanımlanmış modeller: t-statistics / p-değerleri için temel teori, doğru belirlenmiş bir modeli tahmin etmenizi gerektirir. Şimdi, sadece bir öngörücüye geriliyorsanız, tek değişkenli modelin atlanan değişken önyargıdan muzdarip olma olasılığı oldukça yüksektir. Bu nedenle, p değerlerinin nasıl davrandığına dair tüm bahisler kapalıdır. Temel olarak, modeliniz doğru olmadığında onlara güvenmeye dikkat etmelisiniz.


Hızlı ve hızlı yanıtınız için teşekkürler. Önce çoklu bağlantıyı ortadan kaldırmaya çalışacağım. Değişkenler arasında korelasyonlar buldum ve bazılarını buldum ve bunu kontrol etmenin iyi bir yolu olduğunu duyduğum gibi varyans enflasyon faktörlerini çalıştırmayı deneyeceğim. Sadece bir dereceye kadar özgürlük sorunu ortaya çıkıyorsa, bu konuda yapabileceğim bir şey var mı? Bunun olduğunu açıklayabilirim, ancak eğer önem çok fazla düşerse, regresyonun bütünlüğünü tehlikeye atıyor gibi görünüyor.
Sam O'Brien

3
@ SamO'Brien: Hedefiniz gerçekten söylediğiniz şeyse - "hangi bağımsız değişkenlerin potansiyel olarak yanıt vermesine neden olduğunu belirlemeye çalışmak" - bazılarını "herhangi bir çoklu bağlantıyı ortadan kaldırmak için" ilişkili oldukları için yok saydığınızı unutmayın. bunu başarmak yardım gitmiyor.
Scortchi - Eski Monica

1
Bunun başka bir yolla elde edilmesi mümkün mü yani aynı öngörücü basit regresyonda anlamlı değil, çoklu regresyonda anlamlı mı?
gkcn

8

Bu neden özel bir nedeni yoktur değil olur. Çoklu regresyon, basit regresyondan farklı bir soru sorar. Özellikle çoklu regresyon (bu durumda çoklu lojistik regresyon), bağımlı değişkenler ile bağımsız değişkenler arasındaki ilişkiyi sorar ve diğer bağımsız değişkenleri kontrol eder. Basit regresyon, bağımlı bir değişken ile (tek) bağımsız bir değişken arasındaki ilişkiyi sorar.

Çalışmanızın bağlamını eklerseniz (örneğin, bu değişkenler nelerdir?) Daha spesifik yanıtlar vermek mümkün olabilir. Ayrıca, davanızdaki her üç değişkenin de ikilik olduğu düşünüldüğünde, bize verileri kolayca sunabilirsiniz ... bunu özetlemek için sadece 8 satır yeterlidir:

DVIV1IV2CountAAA10AAB20

vb.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.