Bu cevap benim bilgime dayanmıyor, Bolker ve ark. (2009) Ekoloji ve Evrimdeki Trendler dergisinde etkili bir makale yazdı . Makale açık erişime sahip olmadığı için ( Google’da araştırma yapmak başarılı olabileceğini kanıtlasa da, soruların bir kısmını ele almamda yardımcı olabilecek önemli bölümler aldığımı düşündüm. çok açık ve anlaşılır yazma stilinde GLMM'lerde (teşhis dahil) en iyi yoğunlaşmış bilgiyi temsil eder.Herhangi bir şekilde, bu cevap ne olursa olsun uygun değilse, onu sileceğim. teşhis ile ilgili sorularınız için yararlıcesur .
Sayfa 127:
Normal olmayan verilerle karşı karşıya olan araştırmacılar sıklıkla, normal olmayan ve varyansın homojenliğini elde etmek için verileri dönüştürmek, parametrik olmayan testler kullanmak veya klasik ANOVA'nın dengeli tasarımlar için normal olmayanlıklara dayananlıklarına güvenmek gibi verileri kısaltmaya çalışırlar [15]. Tamamen tesadüfi etkileri görmezden gelebilirler (bu yüzden sahte uygulama yapma) veya bunları sabit faktörler olarak ele alabilirler [16]. Bununla birlikte, bu gibi kısayollar başarısız olabilir (örneğin, birçok sıfır değerine sahip sayım verileri dönüşümle normal yapılamaz). Başarılı olsalar bile, istatistiksel varsayımları ihlal edebilir (parametrik olmayan testler bile gruplar arasında değişkenliğin homojenliği gibi varsayımlar yapar) veya çıkarım kapsamını sınırlayabilir (bir tanesi sabit etkilerin tahminlerini yeni gruplara ekleyemez). Verilerini klasik istatistiksel çerçevelere atmak yerine, Araştırmacılar, verileriyle eşleşen istatistiksel yaklaşımları kullanmalıdır. Genelleştirilmiş doğrusal karışık modeller (GLMM'ler) ekoloji ve evrimde yaygın olarak kullanılan iki istatistiksel çerçevenin özelliklerini, doğrusal karışık modelleri (rastgele efektler içeren) ve genelleştirilmiş doğrusal modellerin (bağlantı işlevlerini ve üstel aileyi kullanarak normal olmayan verileri işleyen özelliklerini birleştirir [örn. normal, Poisson veya binom] dağılımları). GLMM'ler rastgele etkiler içeren normal olmayan verileri analiz etmek için en iyi araçtır: herkesin yapması gereken, prensipte rastgele efektlerin bir dağılımını, bağlantı fonksiyonunu ve yapısını belirtmektir. (rastgele efektler içeren) doğrusal karışık modeller ve genelleştirilmiş doğrusal modeller (bağlantı işlevlerini ve üstel aile [örneğin normal, Poisson veya binom] dağılımlarını kullanarak normal olmayan verileri işleyen). GLMM'ler rastgele etkiler içeren normal olmayan verileri analiz etmek için en iyi araçtır: herkesin yapması gereken, prensipte rastgele efektlerin bir dağılımını, bağlantı fonksiyonunu ve yapısını belirtmektir. (rastgele efektler içeren) doğrusal karışık modeller ve genelleştirilmiş doğrusal modeller (bağlantı işlevlerini ve üstel aile [örneğin normal, Poisson veya binom] dağılımlarını kullanarak normal olmayan verileri işleyen). GLMM'ler rastgele etkiler içeren normal olmayan verileri analiz etmek için en iyi araçtır: herkesin yapması gereken, prensipte rastgele efektlerin bir dağılımını, bağlantı fonksiyonunu ve yapısını belirtmektir.
Sayfa 129, Kutu 1:
Kalıntılar aşırı yayılımı belirtilen bir yarı-Poisson modeli ile veri refitted yüzden. Büyük tahmin edilen ölçek parametresine (10.8) rağmen, keşif grafikleri bireyler, genotipler veya popülasyonlar düzeyinde aykırılık kanıtı bulmamıştır. Rastgele etkiler [49], randomeffect ve daha sonra sabit etkili model seçimi için bir derece serbestlik kullanarak yarı-AIC (QAIC) kullandık.
Sayfa 133, Kutu 4:
Burada, GLMM analizinde ilk adım olan tam (en karmaşık) bir model oluşturmak için genel bir çerçeve çiziyoruz. Bu işlemin ardından, parametreler değerlendirilebilir ve alt modeller ana metinde ve Şekil 1'de açıklandığı gibi karşılaştırılabilir.
Sabit (tedaviler veya değişkenler) ve rastgele efektler (deneysel, mekansal veya zamansal bloklar, bireyler, vb.) Belirtin. Sadece önemli etkileşimleri dahil et. Modeli, kurallara (rastgele etki için> 5–6 rastgele etki seviyesi ve tedavi seviyesi veya> deney birimi başına> 10-20 örnek) ve elde edilen yeterli numune büyüklüğü bilgisine dayanarak mümkün olan bir karmaşıklık seviyesi ile sınırlayın. önceki çalışmalar [64,65].
Bir hata dağılımı ve link işlevi seçin (örn. Poisson dağılımı ve sayım verileri için günlük bağlantısı, orantılı veriler için binom dağılımı ve logit bağlantısı).
Grafiksel kontrol : Verilerin varyansları (link fonksiyonu tarafından dönüştürülmüş) kategoriler arasında homojen midir? Dönüştürülmüş verilerin cevapları sürekli tahminlere göre doğrusal mıdır? Aykırı şahıslar veya gruplar var mı? Grup içindeki dağılımlar varsayılan dağılımla uyuşuyor mu?
Hem sabit (toplanmış) veri setine hem de rastgele faktörlerin her bir seviyesine sabit etkili GLM'leri yerleştirin [28,50]. Tahmini parametreler yaklaşık olarak normalde gruplar arasında dağıtılmalıdır (grup düzeyinde parametrelerin, özellikle küçük örneklem büyüklüğüne sahip gruplar için büyük belirsizlikler olabilir). Modeli gerektiği gibi ayarlayın (örneğin, bağlantı işlevini değiştirin veya ortak değişkenler ekleyin).
GLMM'nin tamamını takın. Yetersiz bilgisayar belleği veya çok yavaş: modelin karmaşıklığını azaltın. Eğer tahmin veri alt kümesinde başarılı olursa, daha verimli bir tahmin algoritması deneyin (eğer uygunsa PQL). Birleştirilememesi (uyarılar veya hatalar): model karmaşıklığını azaltın veya optimizasyon ayarlarını değiştirin (elde edilen cevapların mantıklı olduğundan emin olun). Diğer tahmin algoritmalarını deneyin. Sıfır varyans bileşenleri veya tekillik (uyarılar veya hatalar): Modelin doğru tanımlandığını ve tanımlanabildiğini kontrol edin (yani tüm bileşenler teorik olarak tahmin edilebilir). Model karmaşıklığını azaltın. Modele bilgi eklemek (ek değişkenler veya rastgele etkiler için yeni gruplar), ortalama değişkenleri çıkararak sürekli değişkenleri merkezleyen gibi sorunları hafifletebilir [50]. Gerekirse, rastgele efektleri tam modelden kaldırın, (i) daha az içsel biyolojik ilgiden daha az, (ii) tahmin edilen çok küçük farklılıklar ve / veya büyük belirsizlik terimleri veya (iii) etkileşim terimleri. (Yakınsama hataları veya sıfır varyans yetersiz veri olduğunu gösteriyor olabilir.)
χ2
Kalıntı dağılımını değerlendirmek için kalıntı grafikleri kullanılmalı ve dönüştürülmüş varyanslar kategoriler arasında homojen olmalıdır. Makalede hiçbir yerde artıkların normal bir şekilde dağıtılması gerektiği belirtilmedi.
Bence çelişkili ifadelerin olmasının nedeni GLMM'lerin (sayfa 127-128) ...
... istatistikçiler için bile kullanmak şaşırtıcı derecede zor. Birkaç yazılım paketi GLMM'leri idare edebilmesine rağmen (Tablo 1), az sayıda ekolojist ve evrimsel biyolog, seçeneklerin veya olası tuzakların farkındadır. Google Scholar tarafından 2005’ten bu yana ekoloji ve evrim konusundaki makaleleri incelerken, 537 GLMM analizinden 311’i (% 58) bu araçları bir şekilde uygunsuz kullandı (çevrimiçi ek materyallere bakın).
Ve burada teşhis dahil olmak üzere GLMM'leri kullanan birkaç tam çalışılmış örnek bulunmaktadır.
Bu cevabın daha çok bir yorum gibi olduğunu ve böyle ele alınması gerektiğini biliyorum. Ancak yorum bölümü bu kadar uzun bir yorum eklememe izin vermiyor. Ayrıca bu yazının bu tartışma için değerli olduğuna inandığım için (maalesef maaşlı bir duvarın arkasında), burada önemli bölümleri alıntılamanın faydalı olacağını düşündüm.
Alıntılanan makaleler:
[15] - GP Quinn, MJ Keough (2002): Biyologlar İçin Deneysel Tasarım ve Veri Analizi, Cambridge University Press.
[16] - MJ Crawley (2002): İstatistiksel Hesaplama: S-PLUS, John Wiley ve Sons Kullanarak Veri Analizine Giriş.
[28] - JC Pinheiro, DM Bates (2000): S ve S-PLUS'ta Karışık Etki Modelleri, Springer.
[49] - F. Vaida, S. Blanchard (2005): Karışık etkiler modelleri için Koşullu Akaike bilgisi. Biometrika, 92, sayfa 351-370.
[50] - A. Gelman, J. Hill (2006): Regresyon ve Çok Düzeyli / Hiyerarşik Modeller Kullanarak Veri Analizi, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): Bir Ekolojik İstatistik Astarı, Sinauer Associates.
[65] - FJ Harrell (2001): Regresyon Modelleme Stratejileri, Springer.
[66] - JK Lindsey (1997): Genelleştirilmiş Doğrusal Modellerin Uygulanması, Springer.
[67] - W. Venables, BD Ripley (2002): Modern Uygulamalı İstatistikler, S, Springer.
glm.diag.plots
bunun kesinleşmiş sapma artıkları için olduğunu söylüyor (ayrımın önemli olduğunu düşünüyorum). Ayrıca, topladığım sayım verileri var ; bu gerçeğe odaklanmak isteyebilirsiniz. Örneğin, sayımların (bir anlamda) heteroscedastik olduğu varsayılmaktadır. Sayım regresyonu için tanı grafikleri sizin için yararlı olmalıdır (karışık etkiler yönünü ele almasa da).