Lojistik regresyondan oran oranı için bir güven aralığı üretmenin farklı yolları


12

Lojistik regresyonda elde edilen katsayılardan olasılık oranı için% 95 güven aralığının nasıl oluşturulacağını araştırıyorum. Dolayısıyla lojistik regresyon modeli göz önüne alındığında,

günlük(p1-p)=α+βx

öyle ki kontrol grubu için x=0 ve vaka grubu için x=1 .

Zaten \ en basit yol \ beta için% 95 CI oluşturmak olduğunu okudum βsonra üstel fonksiyonu uyguladık, yani,

β^±1.96xSE(β^)tecrübe{β^±1.96xSE(β^)}

Sorularım:

  1. Bu prosedürü haklı çıkaran teorik neden nedir? olasılık oranı=tecrübe{β} ve maksimum olabilirlik tahmin edicilerinin değişmez olduğunu biliyorum . Ancak, bu unsurlar arasındaki bağlantıyı bilmiyorum.

  2. Delta yöntemi, önceki prosedürle aynı% 95 güven aralığını üretmeli mi? Delta yöntemini kullanarak,

    tecrübe{β^}~˙N-(β, tecrübe{β}2Vbirr(β^))

    Sonra,

    tecrübe{β^}±1.96xtecrübe{β}2Vbirr(β^)

    Değilse, en iyi prosedür hangisidir?


1
Parametre değerleri veya yeterli büyüklükte eğitim verileri varsa, CI için bootstrap'i de seviyorum.
EngrStudent

2
Bunu yapmanın daha iyi bir yolu, bkz yoktur stats.stackexchange.com/questions/5304/... detayları için
mdewey

Yanıtlar:


7
  1. Prosedür için gerekçe, MLE'nin için asimptotik normalliktir ve Merkezi Limit Teoremini içeren argümanların sonucudur.β

  2. Delta yöntemi, MLE çevresindeki fonksiyonun doğrusal (yani birinci dereceden Taylor) genişlemesinden gelir. Daha sonra MLE'nin asimtotik normallerine ve tarafsızlığına başvuruyoruz.

Asimptotik olarak her ikisi de aynı cevabı verir. Ama pratikte, daha normal görünen olanı tercih edersiniz. Bu örnekte, ilkini tercih ederim çünkü ikincisinin daha az simetrik olması muhtemeldir.


3

ISL örneğindeki güven aralığı yöntemlerinin karşılaştırılması

Tibshirani, James, Hastie'nin "İstatistiksel Öğrenmeye Giriş" kitabı , 267. sayfadaki ücret verilerindeki polinom lojistik regresyon derecesi 4 için güven aralıklarına bir örnek sunmaktadır . Kitaptan alıntı:

Derece 4 polinomlu lojistik regresyon kullanarak ikili olay modelliyoruz. 250.000 doları aşan uygun ücret olasılığı, tahmini% 95 güven aralığıyla birlikte mavi olarak gösterilmiştir.wbirge>250

Aşağıda, bu tür aralıkları oluşturmak için iki yöntemin hızlı bir özeti ve sıfırdan nasıl uygulanacağıyla ilgili yorumlar

Wald / Uç nokta dönüşüm aralıkları

  • (Wald CI kullanarak) doğrusal kombinasyonu için güven aralığının üst ve alt sınırlarını hesaplayınxTβ
  • Olasılıkları elde etmek için uç noktalarına monotonik bir dönüşüm uygulayın .F(xTβ)

Yana bir tekdüze dönüşümüx T βPr(xTβ)=F(xTβ)xTβ

[Pr(xTβ)LPr(xTβ)Pr(xTβ)U]=[F(xTβ)LF(xTβ)F(xTβ)U]

Somut olarak bu, hesaplanması ve ardından alt ve üst sınırları elde etmek için sonuca logit dönüşümünün uygulanması anlamına gelir :βTx±z*SE(βTx)

[exTβ-z*SE(xTβ)1+exTβ-z*SE(xTβ),exTβ+z*SE(xTβ)1+exTβ+z*SE(xTβ),]

Standart hatayı hesaplama

Maksimum Olabilirlik teorisi bize yaklaşık varyansının , regresyon katsayılarının kovaryans matrisi kullanılarak hesaplanabileceğini söyler.ΣxTβΣ

Vbirr(xTβ)=xTΣx

Tasarım matris tanımlama ve matris olarakVXV

X = [1x1,1...x1,p1x2,1...x2,p1xn,1...xn,p]    V = [π^1(1-π^1)0...00π^2(1-π^2)...000...π^n(1-π^n)]

burada değeridir değişkeni th inci gözlem ve gözlem için öngörülen olasılığını temsil . j i π i ixben,jjbenπ^benben

Kovaryans matrisi daha sonra şu şekilde bulunabilir: ve standart hata S E ( x T β ) = Σ=(XTVX)-1SE(xTβ)=Vbirr(xTβ)

Tahmin edilen olasılık için% 95 güven aralıkları şu şekilde çizilebilir:

resim açıklamasını buraya girin


Delta yöntemi güven aralıkları

Yaklaşım fonksiyonunun doğrusal bir yaklaşımının varyansını hesaplamak ve bunu büyük örnek güven aralıkları oluşturmak için kullanmaktır.F

var[F(xTβ^)]FT Σ F

Burada gradyanı ve tahmini kovaryans matrisi. Bir boyutta şunları unutmayın: Σ

F(xβ)β=F(xβ)xβxββ=xf(xβ)

Burada , türevidir . Bu, çok değişkenli durumda genelleme yaparfF

var[F(xTβ^)]fT xT Σ x f

Bizim durumumuzda F, türevi olan lojistik fonksiyon ( göstereceğiz )π(xTβ)

π'(xTβ)=π(xTβ)(1-π(xTβ))

Şimdi yukarıda hesaplanan varyansı kullanarak bir güven aralığı oluşturabiliriz.

C.ben.=[Pr(xβ^)-z*var[π(xβ^)]Pr(xβ^)+z*var[π(xβ^)]]

Çok değişkenli durum için vektör formunda

C.ben.=[π(xTβ^)±z*(π(xTβ^)(1-π(xTβ^)))TxT  var[β^]  x  π(xTβ^)(1-π(xTβ^))]
  • Bu Not tek bir veri noktasını temsil eder tasarım matris, örneğin, tek bir sıraR p + 1 XxR,p+1X

resim açıklamasını buraya girin


Açık uçlu bir sonuç

Hem olasılıklar hem de negatif log oranları için Normal QQ grafiklerine bir bakış, ikisinin de normal olarak dağıtılmadığını gösterir. Bu farkı açıklayabilir mi?

resim açıklamasını buraya girin

Kaynak:


1

Çoğu amaç için, bu sayfadaki bir günlük dönüşümü bağlamında tartışıldığı gibi, en basit yol muhtemelen en iyisidir . Bağımlı değişkeninizi, gerçekleştirilen istatistiksel testler ve bu logit ölçeğinde tanımlanan güven aralıkları (CI) ile logit ölçeğinde analiz ediliyor olarak düşünün. Geri dönüşüm-olasılık oranı, basitçe bu sonuçları bir okuyucunun daha kolay kavrayabileceği bir ölçeğe koymaktır. Bu, örneğin, regresyon katsayılarının (ve% 95 CI) tehlike oranları ve CI'leri elde etmek için üssel hale getirildiği Cox hayatta kalma analizinde de yapılır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.