Genelleştirilmiş doğrusal modellerin ortaya çıkışı , yanıt değişkeninin dağılımı normal olmadığında (örneğin, DV'niz ikili olduğunda), regresyon türü veri modellerini oluşturmamızı sağlamıştır. (GLiM'ler hakkında biraz daha fazla bilgi edinmek istiyorsanız, burada bağlam oldukça farklı olsa da yararlı olabilecek oldukça kapsamlı bir cevap yazdım .) Ancak, bir GLiM, örneğin bir lojistik regresyon modeli verilerinizin bağımsız olduğunu varsayar . Örneğin, bir çocuğun astım geliştiğini inceleyen bir çalışma düşünün. Her çocuk katkıda bulunur biriveriler çalışmaya işaret ediyor - ya astımları var ya da yok. Ancak bazen veriler bağımsız değildir. Çocuğun okul yılı boyunca farklı noktalarda üşüdüğünü gösteren başka bir çalışma düşünün. Bu durumda, her çocuk birçok veri noktasına katkıda bulunur . Bir zamanlar bir çocuk nezle olabilirdi, sonra onlar olmayabilir ve yine de sonradan başka bir nezle olabilir. Bu veriler bağımsız değil çünkü aynı çocuktan geliyorlar. Bu verileri uygun bir şekilde analiz etmek için, bu bağımsızlığı bir şekilde hesaba katmamız gerekiyor. İki yol var: Bir yol, genelleştirilmiş tahmin denklemlerini kullanmaktır (bahsetmediğinizden, yani atlayacağız). Diğer yol, genelleştirilmiş bir doğrusal karışık model kullanmaktır. GLiMM'ler rastgele efektler ekleyerek bağımsızlıktan sorumlu olabilir (@MichaelChernick'in belirttiği gibi). Bu nedenle, cevabınız ikinci seçeneğinizin normal olmayan tekrarlanan ölçümler (ya da başka türlü bağımsız olmayan) veriler için olmasıdır. (@ Macro'nun yorumuna göre, genelleştirilmiş doğrusal karışık modellerin özel bir durum olarak doğrusal modeller içerdiğinden ve bu nedenle normal dağılmış verilerle kullanılabileceğinden bahsetmeliyim . Ancak, tipik kullanımda bu terim normal olmayan verileri ifade eder.)
Güncelleme: (OP, GEE'yi de sordu, bu yüzden üçünün de birbirleriyle olan ilişkisi hakkında biraz yazacağım.)
İşte temel bir bakış:
- tipik bir GLiM (prototipik durum olarak lojistik regresyon kullanacağım) eş değişkenlerin bir fonksiyonu olarak bağımsız bir ikili yanıtı modellemenizi sağlar
- Bir GLMM , her bir kümenin özniteliklerine eş değişkenlerin bir fonksiyonu olarak şartlı olarak bağımsız olmayan (veya kümelenmiş) bir ikili yanıtı modellemenizi sağlar
- GEE Modelini sağlayan nüfus ortalama tepkisini ait olmayan bağımsız ortak değişkenler bir fonksiyonu olarak ikili veri
Katılımcı başına birden fazla deneme sürümünüz olduğundan, verileriniz bağımsız değildir; Doğru bir şekilde not ettiğiniz gibi, "bir katılımcıdaki rakiplerin tüm gruba kıyasla daha benzer olmaları muhtemeldir". Bu nedenle, bir GLMM veya GEE kullanmalısınız.
Öyleyse mesele, GLMM veya GEE'nin durumunuza daha uygun olup olmayacağını seçmektir. Bu sorunun cevabı, araştırmanızın konusuna, özellikle de yapmayı umduğunuz çıkarımların hedefine bağlıdır. Yukarıda belirttiğim gibi, bir GLMM ile betataşlar, değişkenlerinizde bir birim değişikliğin bireysel özelliklerine bakılarak belirli bir katılımcı üzerindeki etkisini anlatıyor. Öte yandan, GEE ile birlikte, betalar, değişkenlerinizdeki bir birim değişikliğin söz konusu popülasyonun cevaplarının ortalaması üzerindeki etkisini anlatıyor. Bu özellikle kavramak için zor bir ayrımdır, çünkü doğrusal modellerle böyle bir ayrım yoktur (bu durumda ikisi aynıdır).
Kafanızı bunun etrafına dolaştırmaya çalışmanın bir yolu, modelinizdeki eşittir işaretinin her iki tarafındaki popülasyonunuzun üzerinden ortalama almayı hayal etmektir. Örneğin, bu bir model olabilir:
nerede:
Yanıt dağılımını düzenleyen bir parametre var ( Her katılımcı için sol tarafta, ikili veri ile olasılık). Sağ tarafta, eş değişkenlerin [s] 'nin etkisi ile ilgili katsayılar ve eş değişkenlerin (s) 0'a eşit olması durumunda bazal seviyenin katsayıları vardır. İlk dikkat edilmesi gereken, herhangi bir birey için gerçek müdahalenin olmadığı , daha ziyade
logit ( pben) = β0+ β1X1+ bben
logit ( p ) = ln( p1 - p) ,&b∼ N ( 0 , σ2b)
p β0( β0+ bben) . Ama ne olmuş yani? Eğer 'nin (rastgele etki) normalde 0 ile varsayarsak (yaptığımız gibi), kesinlikle bunun üzerinde zorluk çekmeden ortalamayı yapabiliriz (sadece ). Dahası, bu durumda yamaçlarda buna karşılık gelen rastgele bir ve bu nedenle ortalamaları sadece . Öyleyse yakalamaların ortalaması artı eğimlerin ortalaması, ortalamasının logit dönüşümüne eşit olmalı, değil mi? Maalesef
hayır . Sorun, bu ikisi arasında
doğrusal olmayan bir olan olması.
bbenβ0β1pbenlojitdönüşüm. (Eğer dönüşüm lineer olsaydı, bunlar eşdeğer olurdu, bu yüzden lineer modeller için bu problem ortaya çıkmazdı.) Aşağıdaki çizim bunu açıkça ortaya koyuyor:
Bu çizimin küçük bir sınıfın olasılığı için temel veri üretme sürecini temsil ettiğini hayal edin. Öğrencilerin bir kısmı belirli bir ders saati ile o konuda bir test yapabilecekler. Gri eğrilerin her biri, öğrencilerden biri için testin çeşitli miktarlarda öğretim ile geçme olasılığını temsil eder. Kalın eğri, tüm sınıfın ortalamasıdır. Bu durumda,
koşullu ek bir öğretme saatinin
öğrencinin özellikleri üzerindeki etkisi
β1- Her öğrenci için aynı (yani, rastgele bir eğim yoktur). Bununla birlikte, öğrencilerin temel becerilerinin aralarında farklılık gösterdiğine dikkat edin - muhtemelen IQ gibi şeylerdeki farklılıklar nedeniyle (yani, rastgele bir engelleme vardır). Ancak, bir bütün olarak sınıf için ortalama olasılık, öğrencilerden farklı bir profili izler. Çarpıcı bir şekilde sezgisel sezgisel sonuç şudur:
Ek bir saatlik eğitim , testi geçen her öğrencinin olasılığı üzerinde oldukça büyük bir etkiye sahip olabilir , ancak geçen öğrencilerin muhtemel toplam oranı üzerinde nispeten az bir etkiye sahip olabilir . Bunun nedeni, bazı öğrencilerin zaten çok az şansı olabilirken, bazı öğrencilerin çoktan geçme şansı çoktan gelmiş olabilir.
Bir GLMM mi yoksa GEE mi kullanmanız gerektiği sorusu, bu işlevlerden hangisini tahmin etmek istediğiniz sorusudur. (Demek, sen eğer belirli bir öğrenci geçen olasılığı hakkında bilmek istiyorsa idi öğrenci veya öğrencinin velisi), bir glmM kullanmak istiyorum. Öte yandan, eğer nüfus üzerindeki etkiyi bilmek istiyorsanız (örneğin, öğretmen ya da müdür olsaydınız), GEE'yi kullanmak isterdiniz.
Daha ayrıntılı, matematiksel olarak ayrıntılı, bu materyalin tartışması için, bu cevaba @Macro tarafından bakınız.