Lojistik regresyon ve Cook mesafesi için artıklar


10
  1. Lojistik regresyon hatalarına ilişkin hata terimlerinin sürekli değişimi ve artıkların normalliği gibi belirli varsayımlar var mı?

  2. Ayrıca tipik olarak Cook mesafesi 4 / n'den daha büyük olan noktalarınız olduğunda bunları kaldırır mısınız? Onları kaldırırsanız, çıkarılan noktalara sahip modelin daha iyi olup olmadığını nasıl anlarsınız?

Yanıtlar:


12

Size tam bir cevap verebilir miyim bilmiyorum, ama size yardımcı olabilecek bazı düşünceler verebilirim. İlk olarak, tüm istatistiksel modellerin / testlerin varsayımları vardır. Ancak lojistik regresyon çok mu değil kalıntılar normalde dağıtılır altına girmediği varyans sabit olur. Daha ziyade, verilerin bir binom olarak, , yani Bernoulli çalışmalarının sayısının, tam olarak eş değişken değerler kümesindeki gözlem sayısına eşit olduğu ve bu değişken değerleri kümesiyle ilişkili olasılık. Bir binom varyansının n p (B(nxben,pxben) . Dolayısıyla, n 'ler değişkenin farklı seviyelerinde değişirse, varyanslar da olacaktır. Ayrıca, ortak değişkenlerden herhangi biri yanıt değişkeniyle hiç ilgiliyse, olasılıklar değişecektir ve dolayısıyla varyanslar da değişecektir. Bunlar lojistik regresyon hakkında önemli gerçeklerdir. np(1-p)n

R,2R,2R,2R,2R,2R,2s ve jackknifed dağılımları, çünkü bu verileri aşırı göründükleri gerçeğine dayanarak hariç tutmak üzere seçtiniz.


8

1) Lojistik regresyon hatalarına ilişkin hata terimlerinin sürekli değişimi ve artıkların normalliği gibi belirli varsayımlar var mı?

Lojistik regresyon modellerinde geleneksel anlamda "hatalar" yoktur. Hem sezgisel hem de metodolojik olarak tutarsızdır. Model çıktıları takılmış olasılıklar veya riskler iken, gözlemlenen sonuçlar 0/1 olay göstergeleridir. Metodolojik olarak, çok yüksek veya çok düşük takılmış olasılıkların alanlarını (artık mesafeye çok az miktarda katkıda bulunur) az vurgulama eğilimindeyken, model uydurma algoritması bu bölgelere önemli ölçüde daha fazla önem vermektedir. Kare mesafe genellikle lojistik regresyon modelini kalibre etmenin zayıf bir yoludur.

Alternatif bir uyum iyiliği testi, yerleştirilmiş değerlerin, oturulan riskin ondalık sayılarına dayanan ikili bölümler oluşturmak için kullanıldığı Hosmer-Lemeshow testidir. Bu test hakkında Alan Agresti'nin Kategorik Veri Analizi veya Hosmer ve Lemeshow'un Lojistik Regresyon kitabında okuyabilirsiniz. Başka bir süreç, ortalama varyans ilişkisinin, kalan tersine yerleştirilmiş ters varyansla yeniden ağırlıklandırmak için kullanıldığı Öğrencilaşmış Artıkları kullanmaktır . Lojistik regresyon için bu

rstud=Y-μμ(1-μ)

2) Tipik olarak, Cook mesafesi 4 / n'den daha büyük olan noktalarınız olduğunda bunları kaldırır mısınız? Onları kaldırırsanız, çıkarılan noktalara sahip modelin daha iyi olup olmadığını nasıl anlarsınız?

Hassasiyet analizlerine dayanarak noktaları asla kaldırmam. 100 kişiden oluşan rastgele bir örnek yaparsam ve gelirleri ve 1 kişi milyarder olursa, o zaman en güvenli varsayımım 1 milyarderin nüfusun 1 / 100'ünü temsil ettiği yönündedir.


Neden 1 milyarderin nüfusun 1 / 100'ünü temsil ettiğini varsayalım? Muhtemelen nüfustaki milyarderlerin oranı hakkında dışarıdan bir tahmin elde edebilirsiniz!
kjetil b halvorsen

6

AdamO'nun genel olarak yukarıdaki yorumuna katılıyorum - 1 milyarderin nüfusun 1 / 100'ünü temsil ettiğini varsayarak tamamen iyi. Bununla birlikte, 1 milyarderin varlığı verileri o kadar çok çarpıtırsa, diğer 99 kişi için tahmin etkilenirse, 1 milyarderi kaldıracağım. Herkesten daha aykırı bir tahminle yanlış olmayı tercih ederim.

Cook'un D değerlerini kullanarak veri noktalarını kaldırırsanız (örneğin, her şey> 4 / df), iyileştirmeyi kontrol etmek için her iki model için de ROC eğrileri altındaki alanı kullanabilirsiniz.


1
(+1) Yanıt ve gelirin log-olasılıkları ile doğal bir spline arasındaki ilişkiyi modellemek, belki de geliri önceden dönüştürmek, milyarderin diğerlerine yönelik tahminlerini aşırı derecede etkilemesinden kaçınmanın başka bir yoludur. Onu kaldırmak, onlar hakkında yanlış tahminlerde bulunmaktan ziyade diğer milyarderler için (yeterince adil) tahminlerde bulunmamanız gerektiğini gösterir.
Scortchi - Monica'yı eski durumuna döndürün

İronik olarak, ikili olayları tahmin etmek söz konusu olduğunda, etkili gözlemleri hariç tutmanın risk tahminlerinin daha iyi kalibrasyonuna yol açabileceği doğrudur. Ancak, etkili gözlemlerin hariç tutulması risk tahminlerinin ayırt edilmesini azaltacaktır . İkincisi tartışmasız daha önemlidir. Belli bir olayın riskini tahmin gelince (0 veya 1 'dir, değil tahmin iyi tür 0. Yüksek etki noktalarına yakın tahminler 1 ve kontroller daha yakın tahminler olgulardada itecektir sürekli değerli) sıklıkla etkilidir bunu yapıyor.
AdamO
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.