ISL örneğindeki güven aralığı yöntemlerinin karşılaştırılması
Tibshirani, James, Hastie'nin "İstatistiksel Öğrenmeye Giriş" kitabı , 267. sayfadaki ücret verilerindeki polinom lojistik regresyon derecesi 4 için güven aralıklarına bir örnek sunmaktadır . Kitaptan alıntı:
Derece 4 polinomlu lojistik regresyon kullanarak ikili olay modelliyoruz. 250.000 doları aşan uygun ücret olasılığı, tahmini% 95 güven aralığıyla birlikte mavi olarak gösterilmiştir.w a ge > 250
Aşağıda, bu tür aralıkları oluşturmak için iki yöntemin hızlı bir özeti ve sıfırdan nasıl uygulanacağıyla ilgili yorumlar
Wald / Uç nokta dönüşüm aralıkları
- (Wald CI kullanarak) doğrusal kombinasyonu için güven aralığının üst ve alt sınırlarını hesaplayınxTβ
- Olasılıkları elde etmek için uç noktalarına monotonik bir dönüşüm uygulayın .F(xTβ)
Yana bir tekdüze dönüşümüx T βPr ( xTβ) = F( xTβ)xTβ
[ Pr ( xTβ)L≤ Pr ( xTβ) ≤ Pr ( xTβ)U] = [ F( xTβ)L≤ F( xTβ) ≤ F( xTβ)U]
Somut olarak bu, hesaplanması ve ardından alt ve üst sınırları elde etmek için sonuca logit dönüşümünün uygulanması anlamına gelir :βTx ± z*SE( βTx )
[ exTβ- z*SE( xTβ)1 + exTβ- z*SE( xTβ), exTβ+ z*SE( xTβ)1 + exTβ+ z*SE( xTβ), ]
Standart hatayı hesaplama
Maksimum Olabilirlik teorisi bize yaklaşık varyansının , regresyon katsayılarının kovaryans matrisi kullanılarak hesaplanabileceğini söyler.ΣxTβΣ
Va r ( xTβ) = xTΣ x
Tasarım matris tanımlama ve matris olarakVXV
X = ⎡⎣⎢⎢⎢⎢⎢11⋮1x1 , 1x2 , 1⋮xn , 1......⋱...x1 , px2 , p⋮xn , p⎤⎦⎥⎥⎥⎥⎥ V = ⎡⎣⎢⎢⎢⎢⎢π^1( 1 - π^1)0⋮00π^2( 1 - π^2)⋮0......⋱...00⋮π^n( 1 - π^n)⎤⎦⎥⎥⎥⎥⎥
burada değeridir değişkeni th inci gözlem ve gözlem için öngörülen olasılığını temsil . j i π i ixi , j,jbenπ^benben
Kovaryans matrisi daha sonra şu şekilde bulunabilir: ve standart hata S E ( x T β ) = √Σ = (XTV X)- 1SE( xTβ) = Va r ( xTβ)--------√
Tahmin edilen olasılık için% 95 güven aralıkları şu şekilde çizilebilir:
Delta yöntemi güven aralıkları
Yaklaşım fonksiyonunun doğrusal bir yaklaşımının varyansını hesaplamak ve bunu büyük örnek güven aralıkları oluşturmak için kullanmaktır.F
Var [ F( xTβ^) ]≈∇ FT Σ ∇ F
Burada gradyanı ve tahmini kovaryans matrisi. Bir boyutta şunları unutmayın: ∇Σ
∂F( x β)∂β= ∂F( x β)∂x β∂x β∂β= x f( x β)
Burada , türevidir . Bu, çok değişkenli durumda genelleme yaparfF
Var [ F( xTβ^) ]≈ fT xT Σ x f
Bizim durumumuzda F, türevi olan lojistik fonksiyon ( göstereceğiz )π( xTβ)
π'( xTβ) = π( xTβ) ( 1 - π( xTβ) )
Şimdi yukarıda hesaplanan varyansı kullanarak bir güven aralığı oluşturabiliriz.
C. ben. = [ Pr ( x β^) - z*Var [ π( x β^) ]---------√≤ Pr ( x β^) + z*Var [ π( x β^) ]---------√]
Çok değişkenli durum için vektör formunda
C. ben.= [ π( xTβ^) ± z*( π( xTβ^) ( 1 - π( xTβ^) ) )TxT Var [ β^] x π ( xTβ^) ( 1 - π( xTβ^) ) ]--------------------------------------------------√
- Bu Not tek bir veri noktasını temsil eder tasarım matris, örneğin, tek bir sıraR p + 1 XxR,p + 1X
Açık uçlu bir sonuç
Hem olasılıklar hem de negatif log oranları için Normal QQ grafiklerine bir bakış, ikisinin de normal olarak dağıtılmadığını gösterir. Bu farkı açıklayabilir mi?
Kaynak: