Binom regresyon için R çıktısının yorumlanması


38

Binom veri testlerinde bu konuda oldukça yeniyim, ancak bir tane yapmam gerekiyor ve şimdi sonucun nasıl yorumlanacağından emin değilim. Yanıt değişkeni olan y değişkeni binomdur ve açıklayıcı faktörler süreklidir. Sonuçları özetlerken elde ettiğim şey bu:

glm(formula = leaves.presence ~ Area, family = binomial, data = n)

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

Buraya gelmediğim bir sürü şey var, bu gerçekten ne diyor:

                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***

AIC ve Fisher Puanlama yinelemelerinin sayısı ne anlama geliyor?

> fit
Call:  glm(formula = Lövförekomst ~ Areal, family = binomial, data = n)

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166  

Degrees of Freedom: 12237 Total (i.e. Null);  12236 Residual
(314 observations deleted due to missingness)
Null Deviance:      16660 
Residual Deviance: 16650        AIC: 16650

Ve burada bu ne anlama geliyor:

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166 

6
Sorunuz çok geniş olduğundan - "Binom regresyon nasıl yorumlanır?" - Konuyla ilgili tanıtım metni almanızı öneririm. Agresti'nin Kategorik Veri Analizine Giriş çok yaklaşılabilir.
Monica’yı

2
Bu burada cevap vermek için çok geniş olabilir; @ user777 dediği gibi, iyi bir metne danışma sırası olabilir. Agresti iyidir, katılıyorum. Hosmer ve Lemeshow da iyidir. Kısa ve ücretsiz bir şey istiyorsanız (otomatik fiş uyarısı) lojistik regresyona girişime bakın, ancak ihtiyaçlarınız için çok temel olabilir.
Peter Flom - Eski Monica

Tamam, çabuk cevap verdiğiniz için teşekkür ederim,
Agresti'yi

4
Bu sorunun cevaplanamayacak kadar geniş olduğunu sanmıyorum. Bana öyle geliyor ki, esasen tutarlı bir şekilde ele alınan rs-lm-çıkışının yorumlanmasının lojistik regresyon versiyonu .
gung - Reinstate Monica

1
Eğer soru R'nin ekranda neyin olduğunu yorumlamakla ilgiliyse, bu konuda @gung ile birlikteyim . Belirsizliğin olduğu yerde “demek” ile kastedilen nedir? OP'nin katsayıların modelin tahmini değerleri olduğu ve günlük oranlarının ölçeğindeki değerleri olduğu söylenmekten mutlu olursa, bu Q tamamdır. Eğer OP bu konuda tatmin olmazsa ve veriler, model vb. Anlamlarını açıklamalarını gerektiriyorsa, bunun çok sorulan bir soru olduğu söylenemez.
Monica’yı eski

Yanıtlar:


74

Yaptığın şey lojistik regresyon . Bu temelde herhangi bir istatistiksel yazılımda yapılabilir ve çıktı benzer olacaktır (en azından sunum farklı olsa da en azından içerikte). UCLA'nın mükemmel istatistik yardım web sitesinde R ile lojistik regresyon için bir rehber var. Buna aşina değilseniz, buradaki cevabım: logit ve probit modeller arasındaki fark , LR'nin ne hakkında olduğunu anlamanıza yardımcı olabilir (farklı bir bağlamda yazılsa da).

Sunulan iki model var gibi görünüyor, öncelikle en üste odaklanacağım. Buna ek olarak, kopyalama ve ben takas böylece, model veya çıkış yapıştırarak bir hata olmuş görünüyor leaves.presenceile Areamodelle uyumlu olmasını sağlamak için çıktı. İşte atıfta bulunduğum model (eklediğim (link="logit"), ima ettiğimfamily=binomial ; see ? Glm ve ? Family ):

glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)

Bu çıktıyı inceleyelim (değişkenin adını altındaki ikinci satırda değiştirdiğime dikkat edin Coefficients):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

Orada gibi artıkları doğrusal (EKK) regresyonunda, modellerin doğrusal genelleştirilmiş lojistik regresyon ve diğer artıklar olabilir. Bununla birlikte, cevap değişkeni sürekli olmadığında daha karmaşıktırlar. GLiM'lerin beş farklı tipte artıkları olabilir, ancak standart listelenen sapma artıklarıdır. ( Sapma ve sapma artıkları daha ileridir, bu yüzden burada kısaca kalacağım; bu tartışmanın izlenmesi biraz zorsa, çok endişelenmem, bunu atlayabilirsiniz):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Modelinizde kullanılan her veri noktası için, o noktayla ilişkili sapma hesaplanır. Bunu her nokta için yapmış olmanız durumunda, bu tür bir artık kalıbınız vardır ve yukarıdaki çıktı, dağılımlarının parametrik olmayan bir açıklamasıdır.


Daha sonra, ortak değişkenler hakkındaki bilgileri görüyoruz, bu genellikle insanların öncelikle ilgilendikleri şeydir:

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Bunun gibi basit bir lojistik regresyon modeli için, sadece bir değişken ( Areaburada) ve kesişim (bazen 'sabit' de denir) vardır. Birden fazla lojistik regresyonunuz olsaydı, bunların altında listelenen ilave değişkenler olurdu, ancak çıktının yorumlanması aynı olurdu. Estimateİkinci satırın altında , solda listelenen değişkenle ilişkili katsayıdır. Bir birim daha yüksek leaves.presenceolsaydı , kütük oranının artacağı tahmin edilen miktardır Area. Log oran leaves.presencezaman Areaolduğu sadece ilk satırda üzerindedir. (Kayıt oranlarına yeterince aşina değilseniz, cevabımı burada okumanıza yardımcı olabilir: lojistik regresyonda basit tahminlerin oran oranlarına yorumlanması0.) Bir sonraki sütunda, bu tahminlerle ilgili standart hatayı görüyoruz . Diğer bir deyişle, bunlar çalışma aynı şekilde tekrarlanırsa, ancak tekrar tekrar yeni verilerle ortalama olarak bu tahminlerin ne kadar zıplayacağının bir tahminidir. (Standart bir hata fikrine çok aşina değilseniz, cevabımı burada okumanıza yardımcı olabilir: Doğrusal regresyonda katsayılı standart hataların nasıl yorumlanacağı .) Tahmini standart hata ile bölüştürsek, normalde yeterince büyük örneklerle dağıtıldığı varsayılan bir bölüm elde edin. Bu değer altında listelenmiştir z value. Aşağıda Pr(>|z|)iki kuyruklu p değerleri listelenmiştirbu standart bir normal dağılımdaki bu z değerlerine karşılık gelir. Son olarak, geleneksel önem yıldızları vardır (ve katsayılar tablosunun altındaki anahtarı not edin).


DispersionHat GLIMS ile varsayılan olarak yazdırılır, ancak burada çok fazla bilgi eklemez (o sayım modelleri ile, örneğin daha önemlidir). Bunu görmezden gelebiliriz.


Son olarak, model ve uyum iyiliği hakkında bilgi alıyoruz:

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

Satır hakkında missingnesssık sık, eksik. Eğer kendisi için ya 314 gözlemleri vardı çünkü burada görünür leaves.presence, Areaya da her ikisi eksikti. Bu kısmi gözlemler modelin yerleştirilmesinde kullanılmamıştır.

Bu Residual deviance, bir bütün olarak ele alınan modelinizin uyumsuzluğunun Null deviancebir ölçüsüdür , oysa, yalnızca müdahaleyi içeren azaltılmış bir model için böyle bir ölçüdür. Bu ikisiyle ilişkili özgürlük derecelerinin yalnızca birinden farklı olduğuna dikkat edin. Modeliniz yalnızca bir değişkene sahip olduğundan, yalnızca bir ek parametre tahmin edilmiştir ( Estimatefor Area) ve böylece yalnızca bir ek serbestlik derecesi tüketilmiştir. Bu iki değer, modelin bir bütün olarak test edilmesinde kullanılabilir; bu, çoklu doğrusal regresyon modeliyle gelen küresel testine benzer olacaktır . Sadece bir değişkene sahip olduğunuz için, böyle bir test bu durumda ilginç olmaz. F

AIC dikkate veri sığdırmak modelin yeteneğini alır uyum iyiliğinin başka ölçüsüdür. Bu, birinin daha iyi sığabileceği iki modeli karşılaştırırken çok faydalıdır, ancak belki de sadece daha esnek olması ve dolayısıyla her türlü verilere daha iyi uyması nedeniyle. Sadece bir modeliniz olduğundan, bu bilgi verici değildir.

Referans Fisher scoring iterationsmodelin nasıl tahmin edildiğiyle ilgili olmalı. Kapalı form denklemleri çözülerek doğrusal bir model kullanılabilir. Ne yazık ki, lojistik regresyon dahil çoğu GLiM ile yapılamaz. Bunun yerine, yinelemeli bir yaklaşım ( varsayılan olarak Newton-Raphson algoritması ) kullanılır. Gevşek bir şekilde, model tahminlerin ne olabileceği konusundaki bir tahmine dayanarak uygundur. Algoritma daha sonra bunun yerine farklı tahminler kullanarak uyumun geliştirilip geliştirilmeyeceğini görmek için etrafa bakar. Eğer öyleyse, bu yönde hareket eder (tahmin için daha yüksek bir değer kullanarak) ve sonra tekrar modele uyar. Algoritma, tekrar hareket etmenin çok daha fazla gelişme sağlayacağını algılayamadığında durur. Bu satır, işlem durmadan ve sonuç çıktısı alınmadan önce kaç tane yineleme olduğunu gösterir.



Listelenen ikinci model ve çıktıyla ilgili olarak, bu sadece sonuçları göstermenin farklı bir yoludur. Özellikle, bunlar

Coefficients:
(Intercept)       Areal  
-0.3877697    0.0008166

yukarıda tartışılan tahminlerin aynısıdır (farklı bir modele rağmen ve daha az ek bilgi ile sunulur).


1

Ara : Bu, sadece işleve yaptığınız çağrıdır. R'ye yazdığınız kodun aynısı olacaktır. Bu, herhangi bir yazım hatası yapıp yapmadığınızı görmek için yararlı olabilir.

(Sapma) Artıklar: Lojistik regresyon için bunları göz ardı edebilirsiniz. Poisson veya lineer regresyon için, bunların normal dağılıma sahip olmalarını istersiniz (ilk iki tanısal planın kontrol ettiği şey budur). Bunu, 1Q ve 3Q mutlak değerinin birbirine yakın olup olmadığını ve medyan değerinin 0 olup olmadığını kontrol ederek kontrol edebilirsiniz. Ortalama gösterilmez çünkü her zaman 0'dır. Bunlardan herhangi biri süper ise Muhtemelen verilerinde bazı tuhaflıklar vardır. (Bu ayrıca tanı alanlarınızda da görünecektir!)

Katsayılar : Bu çıktının etidir.

  • Kesişim : Poisson ve doğrusal regresyon için, tüm girdilerimiz 0 olduğunda öngörülen çıktı budur. Lojistik regresyon için, bu değer 0'dan daha uzak olacaktır, her sınıftaki gözlem sayısı arasındaki fark daha büyük olacaktır. Standart hata; bu konuda ne kadar belirsiz olduğumuzdan (düşük daha iyidir). Bu durumda, kesişme noktamız 0'dan uzak olduğundan ve standart hatamız kesişim noktasından çok daha küçük olduğundan, sınıflarımızdan birinin (başarısız veya başarısız olmadığından) daha fazla gözlem olduğundan emin olabiliriz. (Bu durumda neyse ki "başarısız olmadı"!)

  • Çeşitli girişler (her giriş farklı bir satırda olacaktır): Bu tahmin, bu girişi 1 arttırdığımızda çıktının ne kadar değişeceğini düşündüğümüzü gösterir. Tahmin ne kadar büyükse, bu giriş değişkeninin çıkış üzerindeki etkisi o kadar büyük olur. Standart hata, ne kadar kesin olduğumuzdur. Genellikle, bir girişin bilgilendirici olduğundan emin olabiliriz; standart hata, tahminin 1 / 10'udur. Yani bu durumda engellemenin önemli olduğundan eminiz.

  • Signif. Kodlar : Bu, her birinin önemi için bir anahtardır: giriş ve durdurma. Bunlar yalnızca verilerinize yalnızca bir model yerleştirirseniz geçerlidir. (Başka bir deyişle, baştan itibaren ilgilendiğiniz ve veri analizi veya değişken seçimi için bilgi verici olmayan değişkenler olarak deneysel veriler için mükemmeldir.)

    Bekle, neden istatistiksel anlamlılığı kullanamıyoruz? Yapabilirsin, genelde tavsiye etmem. Veri biliminde, en iyi modeli denemek ve seçmek için genellikle aynı veri setini kullanan birden fazla modele uyacaksınız. Aynı veri setinde istatistiksel olarak anlamlı olması için birden fazla test çalıştırdıysanız, telafi etmek için p-değerinizi ayarlamanız gerekir. Bunu şu şekilde düşünebilirsiniz: p = 0,05'in altındaki sonuçları kabul etmeye karar verirseniz, temel olarak yirmi defa hatalı olduğunuzu söylersiniz. Ancak, o zaman beş test yaparsanız ve her biri için yanılmanızın 1/20 şansı varsa, şu anda bu testlerden en az birinde yanlış 1/4 şansınız olur ama ... hangisini bilmiyorum. Bunun için düzeltebilirsiniz (p-değerini çarparak, önceden oluşturacağınız test sayısına göre anlamlı olarak kabul edersiniz ) ama pratikte p-değerlerini tamamen kullanmaktan kaçınmanın genellikle daha kolay olduğunu düşünüyorum.

(Binom ailesi için dağılım parametresi 1 olarak alınmıştır): Bunu yalnızca Poisson ve binom (lojistik) regresyonu için göreceksiniz. Bu sadece modele uymanıza yardımcı olacak ilave bir ölçeklendirme parametresi olduğunu bilmenizi sağlar. Görmezden gelebilirsin.

Boşluk sapması: Boşluk sapması bize sadece kesmeyi kullanarak çıktımızı ne kadar iyi tahmin edebileceğimizi söyler. Daha küçük daha iyidir.

Artık sapma: Artık sapma , kesmeyi ve girdilerimizi kullanarak çıktımızı ne kadar iyi tahmin edebileceğimizi söyler. Daha küçük daha iyidir. Boşluk sapması ile artık sapma arasındaki fark ne kadar büyükse, giriş değişkenlerimizin çıkış değişkenini tahmin etmeleri için o kadar faydalı olur.

AIC: AIC "Akaike bilgi kriteridir" ve modelinizin verilerinizdeki kalıpları ne kadar iyi tanımladığının bir tahminidir. Esas olarak aynı veri setinde eğitilmiş modelleri karşılaştırmak için kullanılır. Modeller arasında seçim yapmanız gerekirse, düşük AIC'li model, verilerdeki varyansı açıklayan daha iyi bir iş yapıyor.

Fisher Scoring yineleme sayısı: Bu, modelinize uyması için geçen sürenin bir ölçüsüdür. Güvenle görmezden gelebilirsiniz.

Daha fazla bilgi edinmek için bu toplantıyı öneririm. https://www.kaggle.com/rtatman/regression-challenge-day-5

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.