Genelleştirilmiş doğrusal modeller ve genelleştirilmiş doğrusal karışık modeller arasındaki fark


34

Karışık ve karıştırılmamış GLM'ler arasındaki farkların ne olduğunu merak ediyorum. Örneğin, SPSS'de açılır menü kullanıcıların her ikisine de sığmasını sağlar:

  • analyze-> generalized linear models-> generalized linear models &
  • analyze-> mixed models-> generalized linear

Eksik değerlerle farklı şekilde mi ilgileniyorlar?

Bağımlı değişkenim ikili ve birkaç kategorik ve sürekli bağımsız değişkenim var.


Yanıtlar:


62

Genelleştirilmiş doğrusal modellerin ortaya çıkışı , yanıt değişkeninin dağılımı normal olmadığında (örneğin, DV'niz ikili olduğunda), regresyon türü veri modellerini oluşturmamızı sağlamıştır. (GLiM'ler hakkında biraz daha fazla bilgi edinmek istiyorsanız, burada bağlam oldukça farklı olsa da yararlı olabilecek oldukça kapsamlı bir cevap yazdım .) Ancak, bir GLiM, örneğin bir lojistik regresyon modeli verilerinizin bağımsız olduğunu varsayar . Örneğin, bir çocuğun astım geliştiğini inceleyen bir çalışma düşünün. Her çocuk katkıda bulunur biriveriler çalışmaya işaret ediyor - ya astımları var ya da yok. Ancak bazen veriler bağımsız değildir. Çocuğun okul yılı boyunca farklı noktalarda üşüdüğünü gösteren başka bir çalışma düşünün. Bu durumda, her çocuk birçok veri noktasına katkıda bulunur . Bir zamanlar bir çocuk nezle olabilirdi, sonra onlar olmayabilir ve yine de sonradan başka bir nezle olabilir. Bu veriler bağımsız değil çünkü aynı çocuktan geliyorlar. Bu verileri uygun bir şekilde analiz etmek için, bu bağımsızlığı bir şekilde hesaba katmamız gerekiyor. İki yol var: Bir yol, genelleştirilmiş tahmin denklemlerini kullanmaktır (bahsetmediğinizden, yani atlayacağız). Diğer yol, genelleştirilmiş bir doğrusal karışık model kullanmaktır. GLiMM'ler rastgele efektler ekleyerek bağımsızlıktan sorumlu olabilir (@MichaelChernick'in belirttiği gibi). Bu nedenle, cevabınız ikinci seçeneğinizin normal olmayan tekrarlanan ölçümler (ya da başka türlü bağımsız olmayan) veriler için olmasıdır. (@ Macro'nun yorumuna göre, genelleştirilmiş doğrusal karışık modellerin özel bir durum olarak doğrusal modeller içerdiğinden ve bu nedenle normal dağılmış verilerle kullanılabileceğinden bahsetmeliyim . Ancak, tipik kullanımda bu terim normal olmayan verileri ifade eder.)

Güncelleme: (OP, GEE'yi de sordu, bu yüzden üçünün de birbirleriyle olan ilişkisi hakkında biraz yazacağım.)

İşte temel bir bakış:

  • tipik bir GLiM (prototipik durum olarak lojistik regresyon kullanacağım) eş değişkenlerin bir fonksiyonu olarak bağımsız bir ikili yanıtı modellemenizi sağlar
  • Bir GLMM , her bir kümenin özniteliklerine eş değişkenlerin bir fonksiyonu olarak şartlı olarak bağımsız olmayan (veya kümelenmiş) bir ikili yanıtı modellemenizi sağlar
  • GEE Modelini sağlayan nüfus ortalama tepkisini ait olmayan bağımsız ortak değişkenler bir fonksiyonu olarak ikili veri

Katılımcı başına birden fazla deneme sürümünüz olduğundan, verileriniz bağımsız değildir; Doğru bir şekilde not ettiğiniz gibi, "bir katılımcıdaki rakiplerin tüm gruba kıyasla daha benzer olmaları muhtemeldir". Bu nedenle, bir GLMM veya GEE kullanmalısınız.

Öyleyse mesele, GLMM veya GEE'nin durumunuza daha uygun olup olmayacağını seçmektir. Bu sorunun cevabı, araştırmanızın konusuna, özellikle de yapmayı umduğunuz çıkarımların hedefine bağlıdır. Yukarıda belirttiğim gibi, bir GLMM ile betataşlar, değişkenlerinizde bir birim değişikliğin bireysel özelliklerine bakılarak belirli bir katılımcı üzerindeki etkisini anlatıyor. Öte yandan, GEE ile birlikte, betalar, değişkenlerinizdeki bir birim değişikliğin söz konusu popülasyonun cevaplarının ortalaması üzerindeki etkisini anlatıyor. Bu özellikle kavramak için zor bir ayrımdır, çünkü doğrusal modellerle böyle bir ayrım yoktur (bu durumda ikisi aynıdır).

Kafanızı bunun etrafına dolaştırmaya çalışmanın bir yolu, modelinizdeki eşittir işaretinin her iki tarafındaki popülasyonunuzun üzerinden ortalama almayı hayal etmektir. Örneğin, bu bir model olabilir: nerede: Yanıt dağılımını düzenleyen bir parametre var ( Her katılımcı için sol tarafta, ikili veri ile olasılık). Sağ tarafta, eş değişkenlerin [s] 'nin etkisi ile ilgili katsayılar ve eş değişkenlerin (s) 0'a eşit olması durumunda bazal seviyenin katsayıları vardır. İlk dikkat edilmesi gereken, herhangi bir birey için gerçek müdahalenin olmadığı , daha ziyade

lojit(pben)=β0+β1X1+bben
lojit(p)=ln(p1-p),     &      b~N-(0,σb2)
p β0(β0+bben) . Ama ne olmuş yani? Eğer 'nin (rastgele etki) normalde 0 ile varsayarsak (yaptığımız gibi), kesinlikle bunun üzerinde zorluk çekmeden ortalamayı yapabiliriz (sadece ). Dahası, bu durumda yamaçlarda buna karşılık gelen rastgele bir ve bu nedenle ortalamaları sadece . Öyleyse yakalamaların ortalaması artı eğimlerin ortalaması, ortalamasının logit dönüşümüne eşit olmalı, değil mi? Maalesef hayır . Sorun, bu ikisi arasında doğrusal olmayan bir olan olması.bbenβ0β1pbenlojitdönüşüm. (Eğer dönüşüm lineer olsaydı, bunlar eşdeğer olurdu, bu yüzden lineer modeller için bu problem ortaya çıkmazdı.) Aşağıdaki çizim bunu açıkça ortaya koyuyor: görüntü tanımını buraya girin
Bu çizimin küçük bir sınıfın olasılığı için temel veri üretme sürecini temsil ettiğini hayal edin. Öğrencilerin bir kısmı belirli bir ders saati ile o konuda bir test yapabilecekler. Gri eğrilerin her biri, öğrencilerden biri için testin çeşitli miktarlarda öğretim ile geçme olasılığını temsil eder. Kalın eğri, tüm sınıfın ortalamasıdır. Bu durumda, koşullu ek bir öğretme saatinin öğrencinin özellikleri üzerindeki etkisiβ1- Her öğrenci için aynı (yani, rastgele bir eğim yoktur). Bununla birlikte, öğrencilerin temel becerilerinin aralarında farklılık gösterdiğine dikkat edin - muhtemelen IQ gibi şeylerdeki farklılıklar nedeniyle (yani, rastgele bir engelleme vardır). Ancak, bir bütün olarak sınıf için ortalama olasılık, öğrencilerden farklı bir profili izler. Çarpıcı bir şekilde sezgisel sezgisel sonuç şudur: Ek bir saatlik eğitim , testi geçen her öğrencinin olasılığı üzerinde oldukça büyük bir etkiye sahip olabilir , ancak geçen öğrencilerin muhtemel toplam oranı üzerinde nispeten az bir etkiye sahip olabilir . Bunun nedeni, bazı öğrencilerin zaten çok az şansı olabilirken, bazı öğrencilerin çoktan geçme şansı çoktan gelmiş olabilir.

Bir GLMM mi yoksa GEE mi kullanmanız gerektiği sorusu, bu işlevlerden hangisini tahmin etmek istediğiniz sorusudur. (Demek, sen eğer belirli bir öğrenci geçen olasılığı hakkında bilmek istiyorsa idi öğrenci veya öğrencinin velisi), bir glmM kullanmak istiyorum. Öte yandan, eğer nüfus üzerindeki etkiyi bilmek istiyorsanız (örneğin, öğretmen ya da müdür olsaydınız), GEE'yi kullanmak isterdiniz.

Daha ayrıntılı, matematiksel olarak ayrıntılı, bu materyalin tartışması için, bu cevaba @Macro tarafından bakınız.


2
Bu iyi bir cevap ama bence, özellikle de son cümle, normal Gauss lineer (karışık) modellerinin de altında kaldığından, muhtemelen amaçlanmayan normal olmayan veriler için yalnızca GLM'leri veya GLMM'leri kullandığınızı gösteriyor gibi görünüyor. GL (M) M kategorisi.
Makro,

@Macro, haklısın, bunu hep unutuyorum. Bunu açıklığa kavuşturmak için cevabı değiştirdim. Daha fazla ihtiyaç duyarsan bana haber ver.
gung - Reinstate Monica

Ayrıca genelleştirilmiş tahmin denklemlerini de kontrol ettim. GLiM'de olduğu gibi GEE verilerimin bağımsız olduğunu varsayıyor mu? Katılımcı başına birden fazla denemem var. Bir katılımcı içindeki denemelerin, tüm gruba kıyasla daha benzer olması muhtemeldir.
user9203,

Her ne kadar GEE, "popülasyon ortalamalı" katsayılar üretebilse de , gerçek bir çift regresör için , gerçek popülasyondaki olasılık ölçeğinde Ortalama Tedavi Etkisini (ATE) tahmin etmek istersem, konuya özel yaklaşım? ATE'yi hesaplamanın yolu, benim bildiğim kadarıyla, tedavi olan ve olmayan her insan için öngörülen olasılığı tahmin etmek ve daha sonra bu farklılıkları ortalamaktır. Bu, her bir kişi için önceden tahmin edilmiş olasılıklar üretebilecek bir regresyon yöntemi gerektirmiyor mu (daha sonra ortalamalarının alınmasına rağmen)?
Yakkanomica

1
@Yakkanomica, eğer istediğin buysa, elbette.
gung - Monica’yı yeniden yerleştirme

6

Anahtar rastgele etkilerin tanıtımıdır. Gung'un bağlantısı bundan bahseder. Ancak doğrudan belirtilmesi gerektiğini düşünüyorum. Ana fark budur.


+1, haklısın. Bu konuda daha net olmalıydım. Bu noktayı eklemek için cevabımı düzenledim.
gung - Reinstate Monica

Ne zaman modele rastgele bir engel gibi rastgele bir etki eklersem, bir hata mesajı alıyorum. Rastgele efektler eklemek için yeterli veri noktama sahip olmadığını düşünüyorum. Durum bu olabilir mi? hata mesajı: glmm: Tüm yakınsama kriterleri yerine getirilse de, son Hessian matrisi pozitif olarak kesin değil. Bu uyarıya rağmen prosedür devam ediyor. Daha sonra elde edilen sonuçlar son tekrarlamaya dayanır. Model uyumunun geçerliliği kesin değildir.
user9203,

3

Bir süre önce sorduğum bir sorunun cevaplarını da incelemenizi öneririm:

Genel Doğrusal Model - Genelleştirilmiş Doğrusal Model (bir kimlik link fonksiyonu ile?)


5
GLM ve karma efekt modellerini çalıştırma konusundaki SPSS yetenekleri ve eksik değerleri nasıl ele aldığı ile ilgili soruyu gerçekten cevapladığını sanmıyorum. Bunun yerine yorum olması mı amaçlandı? Aksi takdirde, lütfen açıklığa kavuşturun.
chl

Üzgünüz, açılış konuşmasının iki "sorusu" var gibiydi. 1. Ne olduğunu merak ediyorum .... ve 2. Eksik değerleri farklı bir şekilde ele alıyorlar mı? İlk soruya yardım etmeye çalışıyordum.
Behacad

1
Yeterince adil. Daha fazla açıklama yapmadan, bunun OP'ye bir yorum olarak daha iyi olacağını düşünüyorum.
chl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.