Bu yüzden R'deki lojistik regresyon modelleri ile çalışıyorum. İstatistiklere hala yeniyim, ancak şimdiye kadar regresyon modelleri için biraz anlayışım var gibi hissediyorum, ama yine de beni rahatsız eden bir şey var:
Bağlantılı resme baktığımda, oluşturduğum örnek bir model için özet R baskılarını görüyorsunuz. Model veri kümesindeki email refound veya olmasın (ikili değişken edilecektir, tahmin çalışıyor isRefound
) ve veri kümesi yakından ilişkili iki değişken içerir isRefound
yani next24
ve next7days
bunlar da ikili ve bir posta sonraki tıklandığında edilecektir olmadığını söylemek - 24 saat / sonraki 7 gün günlüklerde geçerli noktadan.
Yüksek p değeri, bu değişkenin model tahmini üzerindeki etkisinin oldukça rastgele olduğunu göstermelidir, değil mi? Buna dayanarak, bu iki değişken hesaplama formülünün dışında bırakıldığında, model tahminlerinin kesinliğinin neden% 10'un altına düştüğünü anlamıyorum. Bu değişkenler bu kadar düşük bir önem taşıyorsa, modelden çıkarılmasının neden bu kadar büyük bir etkisi var?
Saygılarımızla ve şimdiden teşekkürler, Rickyfox
DÜZENLE:
İlk olarak sadece sonraki24'ü kaldırdım, bu da düşük bir etki vermeli çünkü kati oldukça küçük. Beklendiği gibi, biraz değişti - bunun için bir resim yüklemeyeceğim.
Model üzerinde büyük bir etkiye sahip olan sonraki7günleri kaldırmak: AIC 200k yukarı,% 16'ya kadar hassasiyet ve% 73'e kadar geri çağırma
isRefound ~ day + next24
Diğer tüm değişkenlere sahipseniz ve atlarsanız ne olur ?