Lojistik Regresyon: Bernoulli ve Binom Tepki Değişkenleri


32

Aşağıdaki binom yanıtı ve belirteçlerim olarak ve ile lojistik regresyon yapmak istiyorum . X1X2

görüntü tanımını buraya girin

Bernoulli'nin verdiği cevaplarla aynı verileri aşağıdaki biçimde sunabilirim.

görüntü tanımını buraya girin

Bu 2 veri seti için lojistik regresyon çıktıları çoğunlukla aynıdır. Sapma artıkları ve AIC farklıdır. (Boş sapma ve artık sapma arasındaki fark her iki durumda da aynıdır - 0.228.)

Aşağıdakiler, R'den gelen regresyon çıktılarıdır. Veri setlerine binom.data ve bern.data denir.

İşte binom çıktı.

Call:
glm(formula = cbind(Successes, Trials - Successes) ~ X1 + X2, 
    family = binomial, data = binom.data)

Deviance Residuals: 
[1]  0  0  0

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance:  2.2846e-01  on 2  degrees of freedom
Residual deviance: -4.9328e-32  on 0  degrees of freedom
AIC: 11.473

Number of Fisher Scoring iterations: 4

Bernoulli çıktısı.

Call:
glm(formula = Success ~ X1 + X2, family = binomial, data = bern.data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.6651  -1.3537   0.7585   0.9281   1.0108  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -2.9649    21.6072  -0.137    0.891
X1Yes        -0.1897     2.5290  -0.075    0.940
X2            0.3596     1.9094   0.188    0.851

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 15.276  on 11  degrees of freedom
Residual deviance: 15.048  on  9  degrees of freedom
AIC: 21.048

Number of Fisher Scoring iterations: 4

Sorularım:

1) Nokta yaklaşımı ve 2 yaklaşım arasındaki standart hataların bu özel durumda eşdeğer olduğunu görebiliyorum. Bu denklik genel olarak doğru mu?

2) Soru # 1'in cevabı matematiksel olarak nasıl doğrulanabilir?

3) Sapma artıkları ve AIC neden farklı?

Yanıtlar:


24

1) Evet. Aynı değişkenlere sahip bireylerden gelen (?) Binom verilerini bir araya toplayabilir / de-toplayabilirsiniz. Bu, binom model için yeterli istatistiğin, her değişkenli vektör için toplam olay sayısı olduğu gerçeğinden gelir; Bernoulli ise sadece binom için özel bir durumdur. Sezgisel olarak, binom bir sonucu oluşturan her bir Bernoulli denemesi bağımsızdır, dolayısıyla bunları tek bir sonuç veya ayrı bireysel denemeler olarak saymak arasında bir fark olmamalıdır.

2) Elimizdeki Say benzersiz eş değişken vektörler bir binom bir sonucu olan, her biri denemeleri, yani Bir lojistik regresyon belirttiğiniz model, yani , bunun daha sonra önemli olmadığını görmemize rağmen.x 1 , x 2 , ... , x , n , N i Y ı ~ B ı n ( N i , p i ) l O g ı t ( p i ) = K Σ k = 1 β k x i knx1,x2,...,xnN-ben

Yben~Bbenn(N-ben,pben)
lOgbent(pben)=Σk=1Kβkxbenk

Bu modelin log olasılığı ve parametre tahminlerimizi almak için bunu ( açısından) açısından ediyoruz.βsı

(β;Y)=Σben=1ngünlük(N-benYben)+Ybengünlük(pben)+(N-ben-Yben)günlük(1-pben)
βpben

Şimdi, her bir , binom sonucunu, , bireysel Bernoulli / binary sonuçlarına . Özellikle, Yani, ilk 1 ve geri kalanlar 0 . Bu tam olarak yaptığınız şeydi - ama ilkini 0s, geri kalanları 1s veya başka bir sipariş, eşit olarak yapmış olabilirsiniz , değil mi?ben=1,...,nN-ben

Zben1,...,ZbenYben=1
Zben(Yben+1),...,ZbenN-ben=0
Yben(N-ben-Yben)

İkinci modeliniz, nin yukarıdaki gibi için aynı regresyon modeline sahip olduğunu . Bu modelin log olasılığı ve bu nedenle biz tanımlandığı şekilde , bu basitleştirilebilir s oldukça tanıdık gelmeli.

Zbenj~BernOullben(pben)
pben
(β;Z)=Σben=1nΣj=1N-benZbenjgünlük(pben)+(1-Zbenj)günlük(1-pben)
Zbenj
(β;Y)=Σben=1nYbengünlük(pben)+(N-ben-Yben)günlük(1-pben)

İkinci modelde tahminleri almak için, bunu açısından maksimize ediyoruz . Bu ve birinci log-olasılık arasındaki tek fark terimdir , göre sabit olan ve böylece maksimizasyonu etkilemez ve biz aynı tahminleri alacaksınız.βgünlük(N-benYben)β

3) Her gözlemde bir sapma kalıntısı var. Binom modelde, bunlar burada , modelinizden tahmin edilen olasılıktır. Binom modelinizin doymuş olduğunu (0 artık serbestlik derecesi) ve tüm gözlemlere mükemmel şekilde uyduğunu unutmayın: , tüm gözlemler için, yani , .

Dben=2[Ybengünlük(Yben/N-benp^ben)+(N-ben-Yben)günlük(1-Yben/N-ben1-p^ben)]
p^benp^ben=Yben/N-benDben=0ben

Bernoulli modelinde, Şimdi sahip olacağınız gerçeğin dışında sapma artıkları ( binom verileriyle olduğu gibi yerine ), bunların her biri veya yoksa mı olduğuna bağlı olarak ve açıkça yukarıdakilerin aynısı değildir. Bu aşkın Özetle bile her sapma artıkların bir miktar almak için , aynı alamadım:

Dbenj=2[Zbenjgünlük(Zbenjp^ben)+(1-Zbenj)günlük(1-Zbenj1-p^ben)]
Σben=1nN-benn
Dbenj=-2günlük(p^ben)
Dbenj=-2günlük(1-p^ben)
Zbenj=10jben
Dben=Σj=1N-benDbenj=2[Ybengünlük(1p^ben)+(N-ben-Yben)günlük(11-p^ben)]

AIC'nin farklı olması (ancak sapmadaki değişiklik değil) iki modelin log olasılıkları arasındaki fark olan sabit terime geri dönmektedir. Sapma hesaplanırken bu iptal edilir, çünkü aynı verilere dayanan tüm modellerde aynıdır. AIC, olarak tanımlanmıştır ve birleşimsel terim, s arasındaki farktır :

birbenC=2K-2

birbenCBernOullben-birbenCBbennOmbenbirl=2Σben=1ngünlük(N-benYben)=9,575

Çok detaylı cevabınız için teşekkürler, Mark! Cevabımdaki gecikme için üzgünüm - tatildeydim. 3) İki modelin sapma artıkları ve AIC için farklı sonuçlar verdiği düşünülürse, hangisi doğru veya daha iyi? a) Anladığım kadarıyla, ikiden fazla kalan bir sapma ile yapılan gözlemler uyumsuzluğa işaret edebilir, bu nedenle sapma artıklarının mutlak değerleri önemlidir. b) Farklı modeller arasındaki uyumu karşılaştırmak için AIC kullanıldığından, belki de "doğru" bir AIC yoktur. Sadece 2 binom model veya 2 Bernoulli modelinin AIC'lerini karşılaştırırdım.
Bir Bilim Adamı

a) İkili veriler için, eğer ( ve ) veya ( ise , > 2 olacaktır. ve ). Modeliniz için mükemmel binom verilerini uyan Yani bile inci öndeğişken vektör (yani , demek), sonra Eğer keyfi bir varlık olarak tahsis ettik s 1, sahip olacaktır . Bu nedenle, sapma artıklarının binom verilerinde daha anlamlı olduğunu düşünüyorum. Dahası, ikili verilere olan sapmanın kendisi de olağan özelliklerine sahip değil ... , Z i j = 1 p i < e - 1 = 0.368 , Z i j = 0 s i > 1 - E - 1 = 0.632 i Y i / K i = p ı < 0.368 , Y i , Z ı j D i j > 2DbenjZbenj=1p^ben<e-1=0.368Zbenj=0p^ben>1-e-1=0.632benYben/N-ben=p^ben<0.368Yben ZbenjDbenj>2
Mark


1
b) Evet, lerin modeller arasında karşılaştırılması, yalnızca her modele uymak için kullanılan verilerin tamamen aynı olması durumunda anlamlıdır. Bernoulli'yi Bernoulli ile veya binom ile binom ile karşılaştırın. birbenC
Mark

Sağol Mark! Düşünceli ve ayrıntılı cevaplarınız çok takdir edilmektedir!
bir bilim adamı

0

Sadece son paragrafta yorum yapmak istiyorum, “AIC'nin farklı olması (ancak sapmadaki değişiklik değildir), iki modelin log olasılığı arasındaki fark olan sabit terime geri dönmektedir. Sapmadaki değişimi hesaplarken, bu iptal edilir, çünkü aynı verilere dayanan tüm modellerde aynıdır. "Ne yazık ki, sapmadaki değişiklik için bu doğru değil. Sapma, Ex (ekstra sabit) sabit terimini içermez. Binom verilerinin log-olasılıklarındaki terim) Bu nedenle, sapmadaki değişimin EX sabit terimi ile hiçbir ilgisi yoktur. Sapma verilen bir modeli tam modele benzetir, sapmaların Bernoulli / binary'den farklı olduğu gerçeği ve binom modelleme, ancak sapmadaki değişiklik, tam model log-olabilirlik değerleri arasındaki farktan kaynaklanmamaktadır. Sapma değişikliklerinin hesaplanmasında bu değerler iptal edilir. Bu nedenle, Bernoulli ve binom lojistik regresyon modelleri, öngörülen pij ve pi'nin aynı olması şartıyla aynı sapma değişikliklerini sağlar. Aslında, bu probit ve diğer link fonksiyonları için de geçerlidir.

LBm ve lBf, m modeline uyumu ve tam model f'den Bernoulli verilerine kadar log-olasılık değerlerini göstersin. Sapma o zaman

    DB=2(lBf - lBm)=-2(lBm – lBf).

LBf ikili veri için sıfır olmasına rağmen, DB'yi basitleştiremedik ve olduğu gibi tuttuk. Aynı değişkenlerle binom modellemesinden sapma

    Db=2(lbf+Ex – (lbm+Ex))=2(lbf – lbm) = -2(lbm – lbf)

lbf + Ex ve lbm + Ex, binom verisine uygun olan full ve m modellerinin log-olasılık değerleridir. Ekstra sabit terim (Ex) Db'nin sağ tarafından kaybolur. Şimdi Model 1'den Model 2'ye olan sapmalardaki değişime bakın. Bernoulli modellemesinden sapma şeklimiz değişti

    DBC=DB2-DB1=2(lBf – lBm2)-2(lBf – lBm1) =2(lBm1 – lBm2).

Benzer şekilde, binom uydurma sapma değişiklik

    DbC=DB2-DB1=2(lbf – lbm2)-2(lbf – lbm1) =2(lbm1 – lbm2).

Hemen hemen sapma değişikliklerinin, tam modellerin lBf ve lbf'den log-olasılık katkılarından arınmış olduğu hemen ortaya çıkıyor. Bu nedenle, sapmadaki aynı değişikliği alacağız, DBC = DbC, eğer lBm1 = lbm1 ve lBm2 = lbm2 ise. Burada durumun bu olduğunu ve neden Bernoulli ve binom modellemesinden farklı sapma değişiklikleri aldığımızı biliyoruz. Lbf ve lBf arasındaki fark, farklı sapmalara yol açar.


6
Cevabınızın biçimlendirmesini düzenlemeniz sizin için mümkün olabilir mi? Ne yazık ki bu formda çok okunabilir değil. Metni paragraflarda frenlemenizi ve formüllere biçimlendirmesini eklemenizi . Ayrıca kullandığınız kısaltmaların ne anlama geldiği de her zaman net değildir. TEX
Tim

Çok teşekkürler, Tim. TEX formatına aşina değilim. Başlangıçta Word'ü yazdım, ancak kopyalayıp yapıştıramadım. Denklemleri metinden ayırdım.
Saei

Bu paragrafı yanlış anladığınızdan emin değilim: "AIC farklı ( ama sapmadaki değişiklik değil )" dedim ve paragrafın geri kalanı AIC'nin iki model arasında neden farklı olduğunu açıklıyor. Sapmadaki değişimin, sürekli terime bağlı olduğunu iddia etmedim. Aslında, " Sapmadaki değişimi hesaplarken, bu [sabit terim] iptal edildi çünkü aynı verilere dayanan tüm modellerde aynıydı "
Mark

Sorun, metinde yalnızca bir “sabit terim” olduğu ve birleşimsel terim (binom katsayısı) olmasıdır. "Bu" iptal edilir deyince, sabit terimin sapmaya dahil edildiği anlamına gelir. Bernoulli'den sapmalar ve binom modeller arasındaki fark, lbf'nin log-olabilirlik değerinin tam modele katkısıdır. Lbf, aynı verilerdeki farklı binom modellere göre değişmez ve sapma değişimini hesaplarken iptal edilir.
Saei

Ah tamam, ne demek istediğini anlıyorum. Soruya göre düzenlememi yaptım, çünkü sapkınlıktaki değişiklik referansından ayrıldım çünkü asker özel olarak bundan bahsetti. Sapmadaki değişim aynıdır çünkü sapma sabit terime bağlı değildir.
Mark
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.