Lojistik regresyon için şapka matrisinden bilgi


12

Benim için açık ve birden fazla sitede, şapka matrisinin diyagonalindeki değerlerin doğrusal regresyon için verdiği bilgileri açıklıyor.

Lojistik regresyon modelinin şapka matrisi bana daha az açık. Lineer regresyon uygulayarak şapka matrisinden aldığınız bilgilerle aynı mı? Bu, başka bir CV konusunda (kaynak 1) bulduğum şapka matrisinin tanımıdır:

H=VX(XVX)1XV

X ile kestirim değişkenlerinin vektörü ve V ile çapraz bir matristir (π(1π)).

Başka bir deyişle, bir gözlemin şapka matrisinin belirli değerinin aynı zamanda ortak değişkenlerin aynı zamanda değişken alandaki konumunu sunduğu ve bu gözlemin sonuç değeri ile ilgisi olmadığı doğru mu?

Bu Agresti'nin "Kategorik veri analizi" kitabında yazılmıştır:

Bir gözlemin kaldıracı ne kadar büyük olursa, uyum üzerindeki potansiyel etkisi de o kadar büyük olur. Normal regresyonda olduğu gibi, kaldıraçlar 0 ile 1 arasında düşer ve model parametrelerinin sayısını toplar. Sıradan regresyondan farklı olarak, şapka değerleri uyumun yanı sıra model matrisine de bağlıdır ve aşırı yordayıcı değerlere sahip noktaların yüksek kaldıraç oranına sahip olması gerekmez.

Yani bu tanımdan, onu normal lineer regresyonda kullandığımız için kullanamayacağımız anlaşılıyor?

Kaynak 1: R'de lojistik regresyon için şapka matrisi nasıl hesaplanır?

Yanıtlar:


13

Gösterimi biraz değiştireyim ve şapka matrisini burada , genel elemanları olan çapraz simetrik bir matristir . Göstermek aynı eş değişken değere sahip bireylerin grupları gibi . Eğer elde edebilirsiniz diyagonal elemanın ( olarak şapka matrisin) sonra toplamı lineer regresyon gibi parametre sayısını verir. Şimdi sorunuza:

H=V12X(XVX)1XV12
Vvj=mjπ(xj)[1π(xj)]mjx=xjjthhj
hj=mjπ(xj)[1π(xj)]xj(XVX)1xj
hj

Şapka matrisindeki kaldıraç değerlerinin yorumlanması, tahmini olasılığa bağlıdır . Eğer , kaldıraç değerlerini doğrusal regresyon durumunda olduğu gibi yorumlayabilirsiniz, yani ortalamadan daha uzak olmak size daha yüksek değerler verir. Olasılık dağılımının en uç noktalarındaysanız, bu kaldıraç değerleri artık aynı anlamda mesafeyi ölçmeyebilir. Bu, Hosmer ve Lemeshow'dan (2000) alınan aşağıdaki şekilde gösterilmiştir:π0.1<π<0.9

resim açıklamasını buraya girin

Bu durumda, ortak alandaki en uç değerler, lineer regresyon durumunun aksine size en küçük kaldıraç değerini verebilir. Bunun nedeni, lineer regresyondaki kaldıraçın, monoton olmayan bir fonksiyon olmasıdır; bu, lineer olmayan lojistik regresyon için doğru değildir. Şapka matrisinin diyagonal elemanlarının yukarıdaki formülasyonunda ortalamadan uzaklığı temsil eden monoton olarak artan bir kısım vardır. Bu kısmıdır, sadece kendiniz mesafe ile ilgileniyorsanız bakabilirsiniz. Lojistik regresyonlar için tanısal istatistiklerin çoğunluğu tam kaldıraç , bu nedenle bu ayrı monotonik kısım nadiren tek başına düşünülür.xj(XVX)1xjhj

Bu konuyu daha derinlemesine okumak istiyorsanız, lojistik şapka matrisini türeyen Pregibon (1981) ve Hosmer ve Lemeshow (2000) kitabına bir göz atın.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.