GLM: bir dağıtım ve bağlantı işlevi seçimini doğrulama


14

Gauss dağılımı ve log link fonksiyonunu benimseyen genelleştirilmiş doğrusal bir modelim var. Modeli yerleştirdikten sonra, kalıntıları kontrol ediyorum: QQ grafiği, kalıntılar ile tahmin edilen değerler, artıkların histogramı (dikkatli olunması gerektiğini kabul ederek). Her şey iyi gözüküyor. Bu, bana göre, bir Gauss dağılımı seçiminin oldukça makul olduğunu gösteriyor. Ya da en azından, artıklar modelimde kullandığım dağılımla tutarlı.

S1 : Dağıtım seçimimi doğruladığını belirtmek için çok ileri gidecek mi?

Yanıt değişkenim her zaman pozitif olduğundan bir günlük bağlantı işlevi seçtim, ancak bunun iyi bir seçim olduğunu onaylamak istiyorum.

S2 : Bağlantı seçimi seçimimi destekleyebilecek kalıntıların dağıtım seçimi için kontrol edilmesi gibi testler var mı? (Bir bağlantı işlevi seçmek benim için biraz keyfi görünüyor, çünkü bulabileceğim tek kurallar oldukça belirsiz ve elle dalgalanıyor, muhtemelen iyi bir nedenden dolayı.)


2
S1. Diğer dağıtımları deneyebilir ve daha iyi performans gösterip göstermediklerini görebilirsiniz. S2. Olumlu tahminler sağlamak için bir günlük bağlantısı seçmek benim için keyfi görünmüyor. Bu bir gerekçe. Ancak kimlik bağlantısı ile negatif tahminler alıp alamayacağınız ve sahip olduğunuz veriler kontrol edilebilir. Alt satır: diğer modellerin denemeden daha iyi olmayacağı net olamaz.
Nick Cox

1
Cevabınız için teşekkürler, @Nick. Dediğin gibi bunun sadece bir em ve gör vakası olacağından endişeliydim. Mutlaka en iyi model olduğu konusunda endişelenmiyorum , sadece varsayımlar haklı gösterilebilir. Oynadığım bir fikir, gözlemlerimi, , doğrusal tahmin edicinin üstel dönüşümüne, . Muhtemelen, noktalar 1: 1 çizgisine ne kadar yakınsa, bir günlük bağlantı işlevi varsayımı o kadar iyi olur? Ayrıca, bunu 1: 1 satırı için bir ile ölçebilirim . (Ben istatistikçi değilim, bu yüzden bu ipuçlarının ne kadar gülünç olduğundan emin değilim.)Yexp(η)R2
Lyngbakr

2
Ben de istatistikçi değilim, ama modelleri değerlendirmek için benzer grafikler kullandım. Bkz. Örneğin stata-journal.com/sjpdf.html?articlenum=gr0009 Ayrıca bir analoğunu, çok fazla suçluluk duymadan açıklayıcı bir önlem olarak kullandım : biraz ayrıntı için bkz. Stats.stackexchange.com/questions/68066/… . R2
Nick Cox

Yanıtlar:


13
  1. Bu, sıfır hipotezini iddia edip edemeyeceğinizle ilgili sık sorulan sorunun bir çeşididir. Sizin durumunuzda, sıfır, artıkların Gauss olması ve parsellerinizin (qq-parseller, histogramlar, vb.) Görsel muayenesi 'testi' oluşturur. (Null iddiası konusuna genel bir bakış için, cevabımı burada okumak yardımcı olabilir: İstatistikçiler null hipotezi kabul etmek yerine neden anlamlı olmayan bir sonucun “null reddedilemez” anlamına geldiğini söylüyor? ) Özel durumunuzda, arazilerin kalıntılarınızın normallik varsayımınızla tutarlı olduğunu gösterdiğini, ancak varsayımı "doğrulamadığını" söyleyebilirsiniz.

  2. Modelinizi farklı bağlantı işlevlerini kullanarak sığdırabilir ve karşılaştırabilirsiniz, ancak tek bir bağlantı işlevinin tek başına bir testi yoktur (bu açıkça yanlıştır, bkz. @ Glen_b'nin cevabı ). Benim cevap olarak logit ve probit modelleri arasında Fark (oldukça aynı olmasa da, okunmaya değer olabilir), o bağlantı fonksiyonları göre değerlendirilecek edilmelidir iddia:

    1. Tepki dağılımı bilgisi,
    2. Teorik düşünceler ve
    3. Verilere ampirik uyum.

    Bu çerçevede, bir Gauss modelinin kanonik bağı kimlik bağı olacaktır. Bu durumda, muhtemelen teorik nedenlerle bu olasılığı reddettiniz. Düşüncelerinizin negatif değerler alamayacağından şüpheleniyorum ('gerçekleşmez' ifadesinin aynı şey olmadığını unutmayın). Eğer öyleyse, günlük makul bir seçimdir a priori, ama sadece önlemekle kalmazYYYnegatif olmaktan, eğrisel ilişkiye belirli bir şekil verir. Standart değer artıkları ve takılmış değerlerin karşılaştırması (belki de uygun olmayan bir kaplama ile), verilerinizdeki gerçek eğriliğin günlük bağlantısı tarafından uygulanan belirli eğrilik için makul bir eşleşme olup olmadığını belirlemenize yardımcı olacaktır. Bahsettiğim gibi, diğer dönüşümlerin istediğiniz teorik kriterlerinizi karşıladığını deneyebilir ve doğrudan iki uyumu karşılaştırabilirsiniz.


16

Dağıtım seçimimi doğruladığını belirtmek için çok mu uzak olacak?

Bu tam olarak 'doğrulamak' ile ne demek istediğinize bağlıdır, ama ben “evet, bu çok ileri gider” diyebilirim ki “boşun gerçek olduğu gösterilmiştir” diyemezsiniz (özellikle nokta null'larla, ancak en azından bir anlamda daha genel olarak). Sadece "iyi, bunun yanlış olduğuna dair güçlü kanıtlarımız yok" diyebilirsiniz. Ancak her durumda modellerimizin mükemmel olmasını beklemiyoruz, onlar model . Box & Draper'ın dediği gibi " yararlı olmamaları ne kadar yanlış olmalı? "

Önceki iki cümleden herhangi biri:

Bu, bana göre, bir Gauss dağılımı seçiminin oldukça makul olduğunu gösteriyor. Ya da en azından, artıklar modelimde kullandığım dağılımla tutarlı.

teşhisinizin ne gösterdiğini çok daha doğru bir şekilde açıklayın - günlük bağlantısına sahip bir Gauss modelinin doğru olmadığını - ancak makul veya verilerle tutarlı olduğunu tanımlayın .

Yanıt değişkenim her zaman pozitif olduğundan bir günlük bağlantı işlevi seçtim, ancak bunun iyi bir seçim olduğunu onaylamak istiyorum.

Eğer bunun pozitif olması gerektiğini biliyorsanız, o zaman ortalaması pozitif olmalıdır. En azından bununla tutarlı bir model seçmek mantıklı. İyi bir seçim olup olmadığını bilmiyorum (çok daha iyi seçenekler olabilir), ama yapmak için makul bir şey; benim başlangıç ​​noktam olabilir. [Ancak, değişkenin kendisi mutlaka pozitifse, ilk düşüncem Gaussian'dan ziyade log-linkli Gamma olma eğilimindedir. "Mutlaka pozitif", ortalama ile değişen hem çarpıklığı hem de sapmayı gösterir.

S2: Bağlantı seçimi seçimimi destekleyebilecek kalıntıların dağıtım seçimi için kontrol edilmesi gibi testler var mı?

Görünüşe göre "resmi hipotez testinde" olduğu gibi "test" anlamına gelmez, "teşhis kontrolü" olarak adlandırılır.

Her iki durumda da, cevap evettir.

Resmi bir hipotez testi Pregibon'un Bağlantı İyiliği testidir [1].

Bu, Box-Cox parametresinin hipotez testini yapmak için link fonksiyonunun bir Box-Cox ailesine gömülmesine dayanır.

Ayrıca Breslow içinde Pregibon testinin kısa bir tartışma (1996) [2] (bkz s 14'e bakınız ).

Bununla birlikte, teşhis yoluna bağlı kalmanızı şiddetle tavsiye ederim. Bir bağlantı işlevini kontrol etmek istiyorsanız, temel olarak bağlantı ölçeğinde, modelin 'lerinde doğrusal olduğunu, dolayısıyla temel bir değerlendirmenin belirleyicilere karşı kalıntıların çizimi. Örneğin,η=g(μ)x

çalışma artıklarıriW=(yiμ^i)(ημ)

(bu değerlendirme için eğildiğim) veya belki de her bir tahmin için bir arsa ile kısmi artıklarda doğrusallıktan sapmalara bakarak (bkz. örneğin, Hardin ve Hilbe, Genelleştirilmiş doğrusal modeller ve uzantılar, 2. baskı sn 4.5) .4 p54, tanım için),

rkiT=(yiμ^i)(ημ)+xikβ^k

=riW+xikβ^k

Verilerin link fonksiyonu ile dönüşümü kabul ettiği durumlarda, lineerliği doğrusal regresyon ile aynı şekilde arayabilirsiniz (siz benim eğriliğime ve muhtemelen heteroskedastisiteye sahip olsanız da).

Kategorik öngörücüler söz konusu olduğunda, bağlantı fonksiyonunun seçimi daha kolay veya yorumlanabilir bir konudur, uyum aynı olmalıdır (bu yüzden onlar için değerlendirmeye gerek yoktur).

Bir tanıyı Pregibo'nun yaklaşımına dayandırabilirsiniz.

Bunlar ayrıntılı bir liste oluşturmaz; tartışılan diğer teşhisleri bulabilirsiniz.

[Bununla birlikte, gung'un bağlantı işlevi seçiminin başlangıçta mümkün olduğunda teorik değerlendirmeler gibi şeylere dayandırılması gerektiğine ilişkin değerlendirmesine katılıyorum.]

En azından kısmen alakalı olan bu yayındaki tartışmaya da bakınız .

[1]: Pregibon, D. (1980),
"Genelleştirilmiş Doğrusal Modeller için Bağlantı Testlerinin İyiliği,"
Kraliyet İstatistik Kurumu Dergisi. Seri C (Uygulamalı İstatistik) ,
Cilt. 1, sayfa 15-23.

[2]: Breslow NE (1996),
"Genelleştirilmiş doğrusal modeller: Varsayımların kontrolü ve sonuçların güçlendirilmesi,"
Statistica Applicata 8 , 23-41.
pdf

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.