GLM R'deki Artık ve Boş Sapmaların Yorumlanması


47

GL'deki GLM'deki Boş ve Artık Sapma nasıl yorumlanır? Mesela küçük AIC'in daha iyi olduğunu söylüyoruz. Sapmalar için de benzer ve hızlı bir yorum var mı?

Sıfır sapma: 1146.1 1077 serbestlik derecesinde Artık sapma: 4589.4 1099 serbestlik derecesinde AIC: 11089

Yanıtlar:


74

LL = mantıksallık

İşte özet (glm.fit) çıktısından gördüklerinizin kısa bir özeti,

Boşluk Sapması = 2 (LL (Doymuş Model) - LL (Boş Model)) df = df_Sat - df_Null

Artık Sapma = 2 (LL (Doymuş Model) - LL (Önerilen Model)) df = df_Sat - df_Proposed

Doymuş Modeli her veri noktasını varsayan bir modelin kendi parametrelere sahiptir (sen tahmin etmek parametreleri n sahip araçlar.)

Boş modeli sadece 1 parametre değerleri tahmin demektir veri noktaları için bir parametre olduğunu kabul etmesidir olarak, tam olarak "zıt" kabul.

Önerilen model Eğer p + 1 parametre vardır böylece, s parametreleri + kesecek bir terim ile veri noktalarını açıklayabilir varsayar.

Eğer Null Sapkınlığınız gerçekten küçükse, bu Null Modelinin verileri oldukça iyi açıkladığı anlamına gelir. Aynı şekilde Artık Sapma ile .

Gerçekten küçük ne anlama geliyor? Modelinizin "iyi" ise o zaman Sapma Serbestlik derecesi - yakl (df_model df_sat) ile Ki ^ 2'dir.

Size Null modelini Önerilen modelinizle karşılaştırmak istiyorsanız,

(Null Sapma - Artık Sapma) yaklaşık Chi ^ 2 df ile Önerilen - df Null = (n- (p + 1)) - (n-1) = p

Verdiğiniz sonuçlar doğrudan R'den mi geliyor? Biraz garip görünüyorlar çünkü genel olarak Null'da bildirilen özgürlük derecelerinin Kalıntıda bildirilen özgürlük derecelerinden her zaman daha yüksek olduğunu görmelisiniz. Çünkü yine, Null Sapma df = Doymuş df - Null df = n-1 Artık Sapma df = Doymuş df - Önerilen df = n- (p + 1)


Evet, çok yararlı bir yazı @TeresaStat, teşekkürler. Bu ne kadar sağlam? Tanımlar, yerine multinomial bir modelden bahsediyorsanız değişiyor GLMmu?
Hack-R,

@Teresa: Evet, bu sonuçlar R'dendir. Bu neden olur? Buradaki modelle ilgili herhangi bir sorun var mı?
Anjali

@ Hack-R: Gecikmiş bir cevap için özür dilerim, Stackexchange'te yeniyim. Çok terimli modeller için R'de glm işlevini kullanmazsınız ve çıktı farklıdır. Orantılı oran modeline veya sıralı regresyona, mlogit fonksiyonuna bakmanız gerekir. Multinomial glms üzerinde biraz okuma yapmakta fayda var, çok farklı varsayımlara sahipler. Mola sırasında başarabilirsem, bunu daha fazla bilgi ile güncellerim.
TeresaStat

@Anjali, neden R de böyle bir sonuç aldığınızdan emin değilim. Verilerinizi / sonuçlarınızı görmeden bilmek zor. Genel olarak, artık serbestlik derecelerinin neden boş df'den daha yüksek olduğunu anlamıyorum. Kaç tane parametre tahmin ediyordun?
TeresaStat

1
@ user4050 Genel olarak modellemenin amacı, yanıtınızla ilgili en iyi açıklamayı yapmak için en az sayıda parametre kullanmak olarak görülebilir. Kaç tane parametre kullanacağınızı bulmak için bir tane daha parametre eklemenin yararına bakmanız gerekir. Ekstra bir parametre küçük modelinizden çok şey açıklarsa (yüksek sapma üretir), o zaman ekstra parametreye ihtiyacınız olur. Neyin miktarını ölçmek için istatistiksel teoriye ihtiyacınız var. Teori bize, sapmanın iki modeliniz arasındaki parametre farkına eşit derecede serbestlik derecesine sahip bir kare olduğunu söylüyor. Daha net bir şey var mı?
TeresaStat,

13

Boş sapma, yanıtın model tarafından müdahalenin dışında hiçbir şey olmadan ne kadar iyi tahmin edildiğini gösterir.

Artık sapma, öngörücüler dahil edildiğinde cevabın model tarafından ne kadar iyi tahmin edildiğini gösterir. Örneğinize göre, 22 yordayıcı değişkeni eklendiğinde sapmanın 3443.3 arttığı görülebilir (not: serbestlik derecesi = gözlem sayısı - tahmin yok). Sapmadaki bu artış, önemli bir uyumsuzluğun kanıtıdır.

Artık sapmayı boş sıfır hipotezinin doğru olup olmadığını test etmek için de kullanabiliriz (örneğin, Lojistik regresyon modeli verilere uygun bir uyum sağlar). Bu mümkündür çünkü sapma ki-kare değerine göre belirli bir serbestlik derecesinde verilir. Anlamlılığı test etmek için, R'deki aşağıdaki formülü kullanarak ilişkili p-değerlerini bulabiliriz:

p-value = 1 - pchisq(deviance, degrees of freedom)

Yukarıdaki rezidüel sapma ve DF değerlerini kullanarak, sıfır hipotezini destekleyecek önemli kanıt bulunmadığını gösteren yaklaşık sıfır değerinde bir p değeri elde edersiniz.

> 1 - pchisq(4589.4, 1099)
[1] 0

2
Sapma ve öngörücü değişkenlerin sayısına göre (pchisq'siz) iyi veya kötü uyum için ne yapmanın ne olduğunu nereden biliyorsunuz? Sadece Kalan Sapma> NULL Sapma mı yoksa bir miktar / oran var mı?
Hack-R,

3
Cevabınız yanlış değil, yanlış anlaşılmaya tabi. Aslında, yanlış anlaşılmıştır ( burada cf ). Bunun ışığında, kodunuzda belirtilen farklılıkları netleştirebilir misiniz?
dediklerinin - Eski Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.