Genelleştirilmiş doğrusal (karışık) modeller için teşhis (özellikle artıklar)


25

Şu anda zor sayım verileri için doğru modeli bulmakta zorlanıyorum (bağımlı değişken). Gaussian ya da negatif binomial gibi çeşitli aileleri olan genelleştirilmiş lineer karışık efekt modellerinin yanı sıra lmerve lme4(log kaydı ile ) gibi çeşitli farklı modelleri (veri çeşitlerim için karma efekt modelleri gerekli) denedim .

Ancak, ortaya çıkan uyumun nasıl doğru bir şekilde konulacağından emin değilim. Web’de bu konuda birçok farklı görüş buldum. Bence lineer (karma) regresyon ile ilgili teşhis oldukça açıktır. Kalıntıları (normallik) analiz edebilir, kalıntılarla karşılaştırılmış değerleri çizerek heterosistemikliği inceleyebilirsiniz.

Ancak, genelleştirilmiş sürüm için bunu nasıl düzgün bir şekilde yapıyorsunuz? Şimdilik negatif bir binom (karma) regresyona odaklanalım. Burada kalanlarla ilgili oldukça zıt ifadeler gördüm:

  1. In genelleştirilmiş doğrusal modellerde normallik bayağı para Denetleme sade kalıntılar normalde GLM için dağıtılan olmadığını ilk cevap işaret edilmektedir; Bence bu açık. Bununla birlikte, Pearson ve sapma artıklarının da normal olmadıkları belirtiliyor. Yine de, ikinci cevap sapma artıklarının normal olarak dağıtılması gerektiğini (bir referansla birleştirilerek) belirtir.

  2. Normalde dağıtılması gereken sapma artıklarının ? Glm.diag.plots (R'nin bootpaketinden) belgelerinde de belirtilmiştir.

  3. Gelen bu blog yayınında , yazar öncelikle bir NB karışık etkiler regresyon modeli için Pearson kalıntılar varsayıyorum ne normallik vardır okudu. Beklendiği gibi (dürüst görüşüme göre) artıklar normal olmadığını göstermiş ve yazar bu modelin uygun olmadığını varsaymıştır. Ancak, yorumlarda belirtildiği gibi, artıkların negatif binom dağılımına göre dağıtılması gerekir. Bence bu, GLM artıklarının normal olandan başka dağılımları olabileceği gerçeğine en yakın olanıdır. Bu doğru mu? Burada heterossedastisite gibi şeyler nasıl kontrol edilir?

  4. Son nokta (artıkların tahmini dağılımın miktarlarına karşı kalıntıların çizilmesi) Ben & Yohai'de (2004) vurgulanmaktadır . Şu anda, bu benim için gidilecek gibi görünüyor.

Özetle: Genel olarak doğrusal (karışık) regresyon modellerinin model uyumlarını özellikle kalıntılara odaklanarak nasıl düzgün bir şekilde incelersiniz?


1
GLM'ler için artıklar genel olarak normal değildir ( buradaki cf ), ancak GLM'ler için çok sayıda artık olduğuna dikkat edin. Örneğin, glm.diag.plotsbunun kesinleşmiş sapma artıkları için olduğunu söylüyor (ayrımın önemli olduğunu düşünüyorum). Ayrıca, topladığım sayım verileri var ; bu gerçeğe odaklanmak isteyebilirsiniz. Örneğin, sayımların (bir anlamda) heteroscedastik olduğu varsayılmaktadır. Sayım regresyonu için tanı grafikleri sizin için yararlı olmalıdır (karışık etkiler yönünü ele almasa da).
gung - Monica'yı yeniden yerleştirme

Bahsettiğiniz gönderiye aşinayım. Bununla birlikte, (sapma) artıklarının normal olması gerektiğini belirten bir ifade de var "biz çok büyük artıklar görüyoruz ve normalden sapma artıklarının büyük ölçüde sapması (hepsi Poisson'a karşı konuşuyor)".
saat

Yanıtlar:


18

Bu cevap benim bilgime dayanmıyor, Bolker ve ark. (2009) Ekoloji ve Evrimdeki Trendler dergisinde etkili bir makale yazdı . Makale açık erişime sahip olmadığı için ( Google’da araştırma yapmak başarılı olabileceğini kanıtlasa da, soruların bir kısmını ele almamda yardımcı olabilecek önemli bölümler aldığımı düşündüm. çok açık ve anlaşılır yazma stilinde GLMM'lerde (teşhis dahil) en iyi yoğunlaşmış bilgiyi temsil eder.Herhangi bir şekilde, bu cevap ne olursa olsun uygun değilse, onu sileceğim. teşhis ile ilgili sorularınız için yararlıcesur .

Sayfa 127:

Normal olmayan verilerle karşı karşıya olan araştırmacılar sıklıkla, normal olmayan ve varyansın homojenliğini elde etmek için verileri dönüştürmek, parametrik olmayan testler kullanmak veya klasik ANOVA'nın dengeli tasarımlar için normal olmayanlıklara dayananlıklarına güvenmek gibi verileri kısaltmaya çalışırlar [15]. Tamamen tesadüfi etkileri görmezden gelebilirler (bu yüzden sahte uygulama yapma) veya bunları sabit faktörler olarak ele alabilirler [16]. Bununla birlikte, bu gibi kısayollar başarısız olabilir (örneğin, birçok sıfır değerine sahip sayım verileri dönüşümle normal yapılamaz). Başarılı olsalar bile, istatistiksel varsayımları ihlal edebilir (parametrik olmayan testler bile gruplar arasında değişkenliğin homojenliği gibi varsayımlar yapar) veya çıkarım kapsamını sınırlayabilir (bir tanesi sabit etkilerin tahminlerini yeni gruplara ekleyemez). Verilerini klasik istatistiksel çerçevelere atmak yerine, Araştırmacılar, verileriyle eşleşen istatistiksel yaklaşımları kullanmalıdır. Genelleştirilmiş doğrusal karışık modeller (GLMM'ler) ekoloji ve evrimde yaygın olarak kullanılan iki istatistiksel çerçevenin özelliklerini, doğrusal karışık modelleri (rastgele efektler içeren) ve genelleştirilmiş doğrusal modellerin (bağlantı işlevlerini ve üstel aileyi kullanarak normal olmayan verileri işleyen özelliklerini birleştirir [örn. normal, Poisson veya binom] dağılımları). GLMM'ler rastgele etkiler içeren normal olmayan verileri analiz etmek için en iyi araçtır: herkesin yapması gereken, prensipte rastgele efektlerin bir dağılımını, bağlantı fonksiyonunu ve yapısını belirtmektir. (rastgele efektler içeren) doğrusal karışık modeller ve genelleştirilmiş doğrusal modeller (bağlantı işlevlerini ve üstel aile [örneğin normal, Poisson veya binom] dağılımlarını kullanarak normal olmayan verileri işleyen). GLMM'ler rastgele etkiler içeren normal olmayan verileri analiz etmek için en iyi araçtır: herkesin yapması gereken, prensipte rastgele efektlerin bir dağılımını, bağlantı fonksiyonunu ve yapısını belirtmektir. (rastgele efektler içeren) doğrusal karışık modeller ve genelleştirilmiş doğrusal modeller (bağlantı işlevlerini ve üstel aile [örneğin normal, Poisson veya binom] dağılımlarını kullanarak normal olmayan verileri işleyen). GLMM'ler rastgele etkiler içeren normal olmayan verileri analiz etmek için en iyi araçtır: herkesin yapması gereken, prensipte rastgele efektlerin bir dağılımını, bağlantı fonksiyonunu ve yapısını belirtmektir.

Sayfa 129, Kutu 1:

Kalıntılar aşırı yayılımı belirtilen bir yarı-Poisson modeli ile veri refitted yüzden. Büyük tahmin edilen ölçek parametresine (10.8) rağmen, keşif grafikleri bireyler, genotipler veya popülasyonlar düzeyinde aykırılık kanıtı bulmamıştır. Rastgele etkiler [49], randomeffect ve daha sonra sabit etkili model seçimi için bir derece serbestlik kullanarak yarı-AIC (QAIC) kullandık.

Sayfa 133, Kutu 4:

Burada, GLMM analizinde ilk adım olan tam (en karmaşık) bir model oluşturmak için genel bir çerçeve çiziyoruz. Bu işlemin ardından, parametreler değerlendirilebilir ve alt modeller ana metinde ve Şekil 1'de açıklandığı gibi karşılaştırılabilir.

  1. Sabit (tedaviler veya değişkenler) ve rastgele efektler (deneysel, mekansal veya zamansal bloklar, bireyler, vb.) Belirtin. Sadece önemli etkileşimleri dahil et. Modeli, kurallara (rastgele etki için> 5–6 rastgele etki seviyesi ve tedavi seviyesi veya> deney birimi başına> 10-20 örnek) ve elde edilen yeterli numune büyüklüğü bilgisine dayanarak mümkün olan bir karmaşıklık seviyesi ile sınırlayın. önceki çalışmalar [64,65].

  2. Bir hata dağılımı ve link işlevi seçin (örn. Poisson dağılımı ve sayım verileri için günlük bağlantısı, orantılı veriler için binom dağılımı ve logit bağlantısı).

  3. Grafiksel kontrol : Verilerin varyansları (link fonksiyonu tarafından dönüştürülmüş) kategoriler arasında homojen midir? Dönüştürülmüş verilerin cevapları sürekli tahminlere göre doğrusal mıdır? Aykırı şahıslar veya gruplar var mı? Grup içindeki dağılımlar varsayılan dağılımla uyuşuyor mu?

  4. Hem sabit (toplanmış) veri setine hem de rastgele faktörlerin her bir seviyesine sabit etkili GLM'leri yerleştirin [28,50]. Tahmini parametreler yaklaşık olarak normalde gruplar arasında dağıtılmalıdır (grup düzeyinde parametrelerin, özellikle küçük örneklem büyüklüğüne sahip gruplar için büyük belirsizlikler olabilir). Modeli gerektiği gibi ayarlayın (örneğin, bağlantı işlevini değiştirin veya ortak değişkenler ekleyin).

  5. GLMM'nin tamamını takın. Yetersiz bilgisayar belleği veya çok yavaş: modelin karmaşıklığını azaltın. Eğer tahmin veri alt kümesinde başarılı olursa, daha verimli bir tahmin algoritması deneyin (eğer uygunsa PQL). Birleştirilememesi (uyarılar veya hatalar): model karmaşıklığını azaltın veya optimizasyon ayarlarını değiştirin (elde edilen cevapların mantıklı olduğundan emin olun). Diğer tahmin algoritmalarını deneyin. Sıfır varyans bileşenleri veya tekillik (uyarılar veya hatalar): Modelin doğru tanımlandığını ve tanımlanabildiğini kontrol edin (yani tüm bileşenler teorik olarak tahmin edilebilir). Model karmaşıklığını azaltın. Modele bilgi eklemek (ek değişkenler veya rastgele etkiler için yeni gruplar), ortalama değişkenleri çıkararak sürekli değişkenleri merkezleyen gibi sorunları hafifletebilir [50]. Gerekirse, rastgele efektleri tam modelden kaldırın, (i) daha az içsel biyolojik ilgiden daha az, (ii) tahmin edilen çok küçük farklılıklar ve / veya büyük belirsizlik terimleri veya (iii) etkileşim terimleri. (Yakınsama hataları veya sıfır varyans yetersiz veri olduğunu gösteriyor olabilir.)

  6. χ2

Kalıntı dağılımını değerlendirmek için kalıntı grafikleri kullanılmalı ve dönüştürülmüş varyanslar kategoriler arasında homojen olmalıdır. Makalede hiçbir yerde artıkların normal bir şekilde dağıtılması gerektiği belirtilmedi.

Bence çelişkili ifadelerin olmasının nedeni GLMM'lerin (sayfa 127-128) ...

... istatistikçiler için bile kullanmak şaşırtıcı derecede zor. Birkaç yazılım paketi GLMM'leri idare edebilmesine rağmen (Tablo 1), az sayıda ekolojist ve evrimsel biyolog, seçeneklerin veya olası tuzakların farkındadır. Google Scholar tarafından 2005’ten bu yana ekoloji ve evrim konusundaki makaleleri incelerken, 537 GLMM analizinden 311’i (% 58) bu araçları bir şekilde uygunsuz kullandı (çevrimiçi ek materyallere bakın).

Ve burada teşhis dahil olmak üzere GLMM'leri kullanan birkaç tam çalışılmış örnek bulunmaktadır.

Bu cevabın daha çok bir yorum gibi olduğunu ve böyle ele alınması gerektiğini biliyorum. Ancak yorum bölümü bu kadar uzun bir yorum eklememe izin vermiyor. Ayrıca bu yazının bu tartışma için değerli olduğuna inandığım için (maalesef maaşlı bir duvarın arkasında), burada önemli bölümleri alıntılamanın faydalı olacağını düşündüm.

Alıntılanan makaleler:

[15] - GP Quinn, MJ Keough (2002): Biyologlar İçin Deneysel Tasarım ve Veri Analizi, Cambridge University Press.

[16] - MJ Crawley (2002): İstatistiksel Hesaplama: S-PLUS, John Wiley ve Sons Kullanarak Veri Analizine Giriş.

[28] - JC Pinheiro, DM Bates (2000): S ve S-PLUS'ta Karışık Etki Modelleri, Springer.

[49] - F. Vaida, S. Blanchard (2005): Karışık etkiler modelleri için Koşullu Akaike bilgisi. Biometrika, 92, sayfa 351-370.

[50] - A. Gelman, J. Hill (2006): Regresyon ve Çok Düzeyli / Hiyerarşik Modeller Kullanarak Veri Analizi, Cambridge University Press.

[64] - NJ Gotelli, AM Ellison (2004): Bir Ekolojik İstatistik Astarı, Sinauer Associates.

[65] - FJ Harrell (2001): Regresyon Modelleme Stratejileri, Springer.

[66] - JK Lindsey (1997): Genelleştirilmiş Doğrusal Modellerin Uygulanması, Springer.

[67] - W. Venables, BD Ripley (2002): Modern Uygulamalı İstatistikler, S, Springer.


Teşekkürler, bu gerçekten yararlı, Bolker'in kodlama örneklerini biliyordum, ama gerçek kağıttan bir şekilde haberim yoktu. Hala merak ediyorum, grafiksel kontrolün binlerce grupla çok büyük ölçekli verilere nasıl uygulandığı. Modellerinizin nasıl düzgün bir şekilde kontrol edileceğine ilişkin bazı yönergeler vermeye çalışan birkaç makale (örneğin bir tanesi), yalnızca çok küçük ölçekli veriler için geçerlidir. Daha sonra, örneğin grupları seçmek ve bir şeyi görselleştirmek çok daha kolaydır. Gelecekte daha karmaşık bir örneğe rastlarsa iyi bir bilimsel katkı yapılabileceğini düşünüyorum.
saat

1
Bunun faydalı olduğuna sevindim! Sunulan örneklerin zaten oldukça karmaşık olduğunu düşünüyorum (en azından benim için). Sanırım en büyük sorun, daha büyük veri kümelerinin ve daha karmaşık modellerin metinde belirtildiği gibi hesaplama açısından olanaksız hale gelebileceği: "[...] ML tahminlerini bulmak için, birinin rastgele etkilerin tüm olası değerleri üzerindeki olasılıklarını entegre etmesi gerekiyor. GLMM'ler için bu hesaplama en iyi şekilde yavaş ve en kötü ihtimalle (örneğin çok sayıda rastgele etki için) hesaplama açısından olanaksızdır. " Yine de şaşırtıcı bulduğum şey ve akılda tutulması gereken şey, aktif araştırma altındaki araçları kullandığımız!
Stefan,

9

Bu eski bir sorudur, ancak OP tarafından önerilen seçenek 4'ün DHARMa R paketinde mevcut olduğunu eklemenin yararlı olacağını düşündüm (CRAN'dan alınabilir, buraya bakınız ).

Paket, kabul edilen cevap tarafından önerilen görsel kalıntı kontrollerini çok daha güvenilir / kolay hale getirir.

Paket açıklamasından:

DHARMa paketi, takılı genelleştirilmiş doğrusal karışık modellerden kolayca yorumlanabilen ölçeklenmiş artıklar oluşturmak için simülasyon tabanlı bir yaklaşım kullanır. Şu anda desteklenenler, 'lme4' ('lmerMod', 'glmerMod'), 'glm' ('MASS'den' negbin 'dahil, ancak yarı-dağılımlar hariç) ve' lm 'model sınıflarının tümüdir. Alternatif olarak, harici olarak oluşturulan simülasyonlar, örneğin 'JAGS', 'STAN' veya 'BUGS' gibi Bayesian yazılımlarından gelen arka tahmin simülasyonları da işlenebilir. Elde edilen artıklar, 0 ve 1 arasındaki değerlere standardize edilmiştir ve doğrusal bir regresyondan gelen artıklar olarak sezgisel olarak yorumlanabilir. Pakette ayrıca, tipik modelin yanlış tanımlanması sorunu için bir dizi çizim ve test fonksiyonu bulunmaktadır.


1
Bu konuya çok iyi bir ek!
Stefan,
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.