Yaptığın şey lojistik regresyon . Bu temelde herhangi bir istatistiksel yazılımda yapılabilir ve çıktı benzer olacaktır (en azından sunum farklı olsa da en azından içerikte). UCLA'nın mükemmel istatistik yardım web sitesinde R ile lojistik regresyon için bir rehber var. Buna aşina değilseniz, buradaki cevabım: logit ve probit modeller arasındaki fark , LR'nin ne hakkında olduğunu anlamanıza yardımcı olabilir (farklı bir bağlamda yazılsa da).
Sunulan iki model var gibi görünüyor, öncelikle en üste odaklanacağım. Buna ek olarak, kopyalama ve ben takas böylece, model veya çıkış yapıştırarak bir hata olmuş görünüyor leaves.presence
ile Area
modelle uyumlu olmasını sağlamak için çıktı. İşte atıfta bulunduğum model (eklediğim (link="logit")
, ima ettiğimfamily=binomial
; see ? Glm ve ? Family ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
Bu çıktıyı inceleyelim (değişkenin adını altındaki ikinci satırda değiştirdiğime dikkat edin Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Orada gibi artıkları doğrusal (EKK) regresyonunda, modellerin doğrusal genelleştirilmiş lojistik regresyon ve diğer artıklar olabilir. Bununla birlikte, cevap değişkeni sürekli olmadığında daha karmaşıktırlar. GLiM'lerin beş farklı tipte artıkları olabilir, ancak standart listelenen sapma artıklarıdır. ( Sapma ve sapma artıkları daha ileridir, bu yüzden burada kısaca kalacağım; bu tartışmanın izlenmesi biraz zorsa, çok endişelenmem, bunu atlayabilirsiniz):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Modelinizde kullanılan her veri noktası için, o noktayla ilişkili sapma hesaplanır. Bunu her nokta için yapmış olmanız durumunda, bu tür bir artık kalıbınız vardır ve yukarıdaki çıktı, dağılımlarının parametrik olmayan bir açıklamasıdır.
Daha sonra, ortak değişkenler hakkındaki bilgileri görüyoruz, bu genellikle insanların öncelikle ilgilendikleri şeydir:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Bunun gibi basit bir lojistik regresyon modeli için, sadece bir değişken ( Area
burada) ve kesişim (bazen 'sabit' de denir) vardır. Birden fazla lojistik regresyonunuz olsaydı, bunların altında listelenen ilave değişkenler olurdu, ancak çıktının yorumlanması aynı olurdu. Estimate
İkinci satırın altında , solda listelenen değişkenle ilişkili katsayıdır. Bir birim daha yüksek leaves.presence
olsaydı , kütük oranının artacağı tahmin edilen miktardır Area
. Log oran leaves.presence
zaman Area
olduğu sadece ilk satırda üzerindedir. (Kayıt oranlarına yeterince aşina değilseniz, cevabımı burada okumanıza yardımcı olabilir: lojistik regresyonda basit tahminlerin oran oranlarına yorumlanması0.) Bir sonraki sütunda, bu tahminlerle ilgili standart hatayı görüyoruz . Diğer bir deyişle, bunlar çalışma aynı şekilde tekrarlanırsa, ancak tekrar tekrar yeni verilerle ortalama olarak bu tahminlerin ne kadar zıplayacağının bir tahminidir. (Standart bir hata fikrine çok aşina değilseniz, cevabımı burada okumanıza yardımcı olabilir: Doğrusal regresyonda katsayılı standart hataların nasıl yorumlanacağı .) Tahmini standart hata ile bölüştürsek, normalde yeterince büyük örneklerle dağıtıldığı varsayılan bir bölüm elde edin. Bu değer altında listelenmiştir z value
. Aşağıda Pr(>|z|)
iki kuyruklu p değerleri listelenmiştirbu standart bir normal dağılımdaki bu z değerlerine karşılık gelir. Son olarak, geleneksel önem yıldızları vardır (ve katsayılar tablosunun altındaki anahtarı not edin).
Dispersion
Hat GLIMS ile varsayılan olarak yazdırılır, ancak burada çok fazla bilgi eklemez (o sayım modelleri ile, örneğin daha önemlidir). Bunu görmezden gelebiliriz.
Son olarak, model ve uyum iyiliği hakkında bilgi alıyoruz:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Satır hakkında missingness
sık sık, eksik. Eğer kendisi için ya 314 gözlemleri vardı çünkü burada görünür leaves.presence
, Area
ya da her ikisi eksikti. Bu kısmi gözlemler modelin yerleştirilmesinde kullanılmamıştır.
Bu Residual deviance
, bir bütün olarak ele alınan modelinizin uyumsuzluğunun Null deviance
bir ölçüsüdür , oysa, yalnızca müdahaleyi içeren azaltılmış bir model için böyle bir ölçüdür. Bu ikisiyle ilişkili özgürlük derecelerinin yalnızca birinden farklı olduğuna dikkat edin. Modeliniz yalnızca bir değişkene sahip olduğundan, yalnızca bir ek parametre tahmin edilmiştir ( Estimate
for Area
) ve böylece yalnızca bir ek serbestlik derecesi tüketilmiştir. Bu iki değer, modelin bir bütün olarak test edilmesinde kullanılabilir; bu, çoklu doğrusal regresyon modeliyle gelen küresel testine benzer olacaktır . Sadece bir değişkene sahip olduğunuz için, böyle bir test bu durumda ilginç olmaz. F
AIC dikkate veri sığdırmak modelin yeteneğini alır uyum iyiliğinin başka ölçüsüdür. Bu, birinin daha iyi sığabileceği iki modeli karşılaştırırken çok faydalıdır, ancak belki de sadece daha esnek olması ve dolayısıyla her türlü verilere daha iyi uyması nedeniyle. Sadece bir modeliniz olduğundan, bu bilgi verici değildir.
Referans Fisher scoring iterations
modelin nasıl tahmin edildiğiyle ilgili olmalı. Kapalı form denklemleri çözülerek doğrusal bir model kullanılabilir. Ne yazık ki, lojistik regresyon dahil çoğu GLiM ile yapılamaz. Bunun yerine, yinelemeli bir yaklaşım ( varsayılan olarak Newton-Raphson algoritması ) kullanılır. Gevşek bir şekilde, model tahminlerin ne olabileceği konusundaki bir tahmine dayanarak uygundur. Algoritma daha sonra bunun yerine farklı tahminler kullanarak uyumun geliştirilip geliştirilmeyeceğini görmek için etrafa bakar. Eğer öyleyse, bu yönde hareket eder (tahmin için daha yüksek bir değer kullanarak) ve sonra tekrar modele uyar. Algoritma, tekrar hareket etmenin çok daha fazla gelişme sağlayacağını algılayamadığında durur. Bu satır, işlem durmadan ve sonuç çıktısı alınmadan önce kaç tane yineleme olduğunu gösterir.
Listelenen ikinci model ve çıktıyla ilgili olarak, bu sadece sonuçları göstermenin farklı bir yoludur. Özellikle, bunlar
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
yukarıda tartışılan tahminlerin aynısıdır (farklı bir modele rağmen ve daha az ek bilgi ile sunulur).