Lojistik regresyon modeli değişkenlerinin p-değerinin anlamı


9

Bu yüzden R'deki lojistik regresyon modelleri ile çalışıyorum. İstatistiklere hala yeniyim, ancak şimdiye kadar regresyon modelleri için biraz anlayışım var gibi hissediyorum, ama yine de beni rahatsız eden bir şey var:

Bağlantılı resme baktığımda, oluşturduğum örnek bir model için özet R baskılarını görüyorsunuz. Model veri kümesindeki email refound veya olmasın (ikili değişken edilecektir, tahmin çalışıyor isRefound) ve veri kümesi yakından ilişkili iki değişken içerir isRefoundyani next24ve next7daysbunlar da ikili ve bir posta sonraki tıklandığında edilecektir olmadığını söylemek - 24 saat / sonraki 7 gün günlüklerde geçerli noktadan.

Yüksek p değeri, bu değişkenin model tahmini üzerindeki etkisinin oldukça rastgele olduğunu göstermelidir, değil mi? Buna dayanarak, bu iki değişken hesaplama formülünün dışında bırakıldığında, model tahminlerinin kesinliğinin neden% 10'un altına düştüğünü anlamıyorum. Bu değişkenler bu kadar düşük bir önem taşıyorsa, modelden çıkarılmasının neden bu kadar büyük bir etkisi var?

Saygılarımızla ve şimdiden teşekkürler, Rickyfox

resim açıklamasını buraya girin


DÜZENLE:

İlk olarak sadece sonraki24'ü kaldırdım, bu da düşük bir etki vermeli çünkü kati oldukça küçük. Beklendiği gibi, biraz değişti - bunun için bir resim yüklemeyeceğim.

Model üzerinde büyük bir etkiye sahip olan sonraki7günleri kaldırmak: AIC 200k yukarı,% 16'ya kadar hassasiyet ve% 73'e kadar geri çağırma

resim açıklamasını buraya girin


1
isRefound ~ day + next24Diğer tüm değişkenlere sahipseniz ve atlarsanız ne olur ?
Nisan'da smillig

Yanıtlar:


11

Temel olarak, çok doğrusallık probleminiz var gibi görünüyor. Bu web sitesinde veya wikipedia'da başlayan bu konuda birçok malzeme var.

Kısacası, iki yordayıcı sonucunuzla gerçekten ilgili gibi görünmektedir, ancak muhtemelen birbirleri ile de yüksek oranda ilişkilidir (ikiden fazla değişkenle, güçlü iki değişkenli korelasyonlar olmadan çok sayıda doğrusal bağlantı sorununa sahip olmanın hala mümkün olduğunu unutmayın). Bu elbette çok mantıklı: 24 saat içinde tıklanan tüm e-postalar 7 gün içinde de (tanım gereği) tıklandı ve çoğu e-posta muhtemelen hiç tıklanmadı (7 gün içinde değil 24 saat içinde değil).

Bunun, sunduğunuz çıktıda gösterdiği yollardan biri, ilgili katsayılar için inanılmaz derecede büyük standart hatalar / CI'dir (bigglm kullandığınızdan ve küçük katsayıların bile oldukça önemli olduğundan, örnek boyutunuzun fazlasıyla yeterli olması gerektiği anlaşılıyor) iyi tahminler almak için). Bu tür sorunları tespit etmek için yapabileceğiniz diğer şeyler: Çift korelasyonlara bakın, şüpheli değişkenlerden sadece birini kaldırın (@Nick Sabbe tarafından önerildiği gibi), her iki değişken için de önemini birlikte test edin.

Daha genel olarak, yüksek p-değerleri etkinin küçük veya rastgele olduğu anlamına gelmez, ancak katsayının 0'dan farklı olduğuna dair bir kanıt olmadığı anlamına gelir. Ayrıca çok büyük olabilir, sadece bilmiyorsunuz (örnek boyutu çok küçük veya modelde başka bir sorun olduğundan).


1
Gönderdiğiniz yeni çıktının bazı diğer değişkenlerin de dahil olabileceğini (veya görmediğim başka bir sorun olduğunu) önerdiğini unutmayın, aksi takdirde iki değişkenten yalnızca biri dahil edildiğinde SE'nin çok daha düşük olmasını beklersiniz .
Gala

Evet bunu zaten fark ettim, ama teşekkürler. İlgilenirseniz buna neyin sebep olabileceğini size bildirmek için daha sonra bir düzenleme yapacağım
deemel
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.