Seviye başına 1 gözlemli karma model


12

glmerBazı iş verilerine rastgele efektler modeli ekliyorum. Amaç, bölgesel varyasyonu dikkate alarak satış performansını distribütör tarafından analiz etmektir. Aşağıdaki değişkenler var:

  • distcode: distribütör kimliği, yaklaşık 800 seviye
  • region: üst düzey coğrafi kimlik (kuzey, güney, doğu, batı)
  • zone: Orta seviye coğrafya region, içinde yaklaşık 30 seviye
  • territory: iç içe geçmiş düşük seviye coğrafya zone, yaklaşık 150 seviye

Her distribütör yalnızca bir bölgede çalışır. Zor kısmı, bunun dağıtıcı başına bir veri noktası ile özetlenmiş veriler olmasıdır. Yani 800 veri noktam var ve düzenli olarak da olsa en azından 800 parametreye uymaya çalışıyorum.

Aşağıdaki gibi bir model taktım:

glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)

Bir not yazdırmasına rağmen, bu sorunsuz bir şekilde çalışır:

Rastgele etkiler için bir gruplama faktörünün seviye sayısı n'ye eşittir , gözlem sayısı

Bu mantıklı bir şey mi? Tüm katsayıların sonlu tahminlerini alıyorum ve AIC de mantıksız değil. Kimlik bağlantısıyla bir poisson GLMM'yi denersem, AIC çok daha kötüdür, bu yüzden günlük bağlantısı en azından iyi bir başlangıç ​​noktasıdır.

Verilen değerleri yanıta göre çizersem, esasen mükemmel olanı alırım, ki her distribütör için bir veri noktasına sahip olduğum için sanırım. Makul mü yoksa tamamen aptalca bir şey mi yapıyorum?

Bu bir aydır veri kullanıyor. Birden fazla ay boyunca veri alabilir ve bu şekilde çoğaltma yapabilirim, ancak aydan aya değişiklik ve olası etkileşimler için yeni terimler eklemem gerekir, doğru mu?


ETA: Yukarıdaki modeli tekrar çalıştırdım, ama bir familyargüman olmadan (yani bir GLMM'den ziyade bir gauss LMM'si). Şimdi lmerbana şu hatayı verdi:

Hata (işlev (fr, FL, başlat, REML, ayrıntılı): Rasgele etkiler için bir gruplandırma faktörünün düzeylerinin gözlem sayısından az olması gerekir

Bu yüzden aileyi değiştirmenin bir etkisi olmaması gerektiği için mantıklı bir şey yapmadığımı tahmin ediyorum. Ama şimdi soru şu, neden ilk etapta çalıştı?

Yanıtlar:


4

Kavramsal gerekçelerle gözlemlerle aynı sayıda gruba sahip olduğunuz, modelinizin tanımlanabilir sorunları olması gerektiği için “gruplar” ve ayrıca hesaplama zeminleri bulunan karma bir model yerleştirme uygulamasına kesinlikle katılmıyorum. en azından bir LMM. (Sadece LMM ile çalışıyorum, bu da biraz önyargılı olabilir. :))

Hesaplama kısmı: Örneğin olan standart LME modelini varsayalım . Şimdi eşit sayıda gözleminiz ve grubunuz olduğunu varsayalım (diyelim ki "basit" bir kümeleme altında, çapraz veya iç içe efekt yok vb.), O zaman tüm örnek varyansınız matrisine taşınacaktır ve sıfır olmalıdır . (Sanırım bunu zaten kendiniz için ikna ettiniz) Neredeyse bir astar modelinde veri kadar parametreye sahip olmakla eşdeğerdir. Aşırı parametreli bir modeliniz var. Bu nedenle regresyon biraz saçmadır.y~N-(Xβ,ZDZT+σ2ben)Dσ2

("Makul" AIC ile ne demek istediğinizi anlamıyorum. AIC, verilerinize fazla uymasına rağmen hala "bir şey hesaplıyor" olarak hesaplanabilir olmalıdır.)

glmeryXβXβ>0glmer

Kavramsal kısım: Bence bu biraz daha "sübjektif" ama biraz daha basit. Mixed Eff kullanıyorsunuz. çünkü aslında hatanızda grupla ilgili bir yapı olduğunu fark ettiniz. Veri noktaları kadar çok grubunuz varsa, görülmesi gereken bir yapı yoktur. LM hata yapınızdaki bir "gruplandırmaya" atfedilebilecek sapmalar artık spesifik gözlem noktasına atfedilmektedir (ve böylece aşırı takılmış bir model elde edersiniz).

Genel olarak, tek gözlem grupları biraz dağınık olma eğilimindedir; r-sig-mixed-models e-posta listesinden D.Bates teklif etmek için:

Tek gözlem gruplarını dahil etmenize veya hariç tutmanıza bakılmaksızın, model uyumunda çok az fark olduğunu göreceksiniz. Deneyin ve görün.


1
bunun doğrusal bir ortamda pek mantıklı gelmediği doğrudur, ancak Poisson regresyonunda çok yararlı olabilir . Ben Ben Bolker'ın bu konuda söylediği bir şeyin bağlantısını takip edip edemeyeceğimi göreceğim (o, Doug Bates ile birlikte lme4'ün geliştiricilerinden biri).
David J. Harris

Evet, muhtemelen dediğim gibi LMM'leri düşünmeye eğilimliyim ve “kavramsal kısım” hakkında yorum yapıyordum. Neden bu durumda işe yaradığını açıkladım glmer(aşırı derecede mutlu olmamasına rağmen).
usεr11852

8

Yanıt değişkeniniz olarak fazla dağılmış sayım verileriniz varsa , gözlem başına bir seviye çok yararlı olabilir. Sayım verilerinizin bir Poisson-lognormal dağılımından gelmesini beklediğinize, yani Poisson dağılımınızın lambda parametresinin modelinizdeki öngörücü değişkenler tarafından tam olarak belirlenmediğine ve olasılıkların lognormal olarak dağıtıldığına eşittir.

Lme4 için geliştiricilerden Ben Bolker, bununla birlikte öğretici benzeri iki örnek yaptı. Birincisi, sentetik verilerle, biraz daha ayrıntıya giriyor. Burada bir pdf bulabilirsiniz . Ayrıca, baykuşları içeren gerçek verilerle (pdf ve R kodu buradan edinilebilir ) bir keşifsel veri analizinden geçti .


1
+1. Söylediklerine katılıyorum. Orijinal yazımda da belirttiğim gibi: " aşırı dağılma (...), gözlemler kadar çok sayıda gruba sahip olma konusunu nasıl" bulacağınızdır ".glmer Kavramsal olarak daha iyi bir noktaya değindiğiniz için teşekkür ederiz .
usεr11852

1
Bağlantılar için teşekkürler! Bunları okuduktan ve modelimdeki uygun değerlere daha yakından baktıktan sonra, neler olup bittiğine dair daha iyi bir fikrim var. Aslında Ben'in yaptığı şeyin analizime uygun olduğunu düşünmüyorum. Aşırı dağılmaya izin vermek için gözlem düzeyinde bir değişken kullanıyor, bu yüzden rahatsız edici bir etki gibi. Analizim distributoriçin ilgi çekici bir etkidir: Distribütörlerin diğer değişkenlere izin verirken birbirlerine göre nasıl performans gösterdiğini görmek istiyorum. Böylece, aşırı sığmanın gerçek bir endişe olduğu geleneksel bir doğrusal karışık modelle daha karşılaştırılabilir.
Hong Ooi
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.