Bu yüzden R'deki lojistik regresyon modelleri ile çalışıyorum. İstatistiklere hala yeniyim, ancak şimdiye kadar regresyon modelleri için biraz anlayışım var gibi hissediyorum, ama yine de beni rahatsız eden bir şey var:
Bağlantılı resme baktığımda, oluşturduğum örnek bir model için özet R baskılarını görüyorsunuz. Model veri kümesindeki email refound veya olmasın (ikili değişken edilecektir, tahmin çalışıyor isRefound) ve veri kümesi yakından ilişkili iki değişken içerir isRefoundyani next24ve next7daysbunlar da ikili ve bir posta sonraki tıklandığında edilecektir olmadığını söylemek - 24 saat / sonraki 7 gün günlüklerde geçerli noktadan.
Yüksek p değeri, bu değişkenin model tahmini üzerindeki etkisinin oldukça rastgele olduğunu göstermelidir, değil mi? Buna dayanarak, bu iki değişken hesaplama formülünün dışında bırakıldığında, model tahminlerinin kesinliğinin neden% 10'un altına düştüğünü anlamıyorum. Bu değişkenler bu kadar düşük bir önem taşıyorsa, modelden çıkarılmasının neden bu kadar büyük bir etkisi var?
Saygılarımızla ve şimdiden teşekkürler, Rickyfox

DÜZENLE:
İlk olarak sadece sonraki24'ü kaldırdım, bu da düşük bir etki vermeli çünkü kati oldukça küçük. Beklendiği gibi, biraz değişti - bunun için bir resim yüklemeyeceğim.
Model üzerinde büyük bir etkiye sahip olan sonraki7günleri kaldırmak: AIC 200k yukarı,% 16'ya kadar hassasiyet ve% 73'e kadar geri çağırma

isRefound ~ day + next24Diğer tüm değişkenlere sahipseniz ve atlarsanız ne olur ?