Çapraz rastgele efektler ve dengesiz veriler


10

İki çapraz rastgele efektim olduğunu düşündüğüm bazı verileri modelliyorum. Ancak veri kümesi dengeli değil ve bunu hesaba katmak için ne yapılması gerektiğinden emin değilim.

Verilerim bir dizi etkinliktir. Bir istemci, bir görevi yerine getirmek için başarılı olan veya olmayan bir sağlayıcıyla buluştuğunda bir olay oluşur. Binlerce müşteri ve sağlayıcı vardır ve her müşteri ve sağlayıcı değişen sayıda etkinliğe katılır (kabaca 5 ila 500). Her müşteri ve sağlayıcı bir beceri seviyesine sahiptir ve görevin başarılı olma şansı, her iki katılımcının becerilerinin bir fonksiyonudur. İstemciler ve sağlayıcılar arasında çakışma yoktur.

Müşteri ve sağlayıcı popülasyonunun ilgili varyanslarıyla ilgileniyorum, bu nedenle hangi kaynağın başarı oranı üzerinde daha büyük bir etkisi olduğunu bilebiliriz. Ayrıca, en iyi / en kötü müşterileri veya sağlayıcıları tanımlamak için gerçekte veriye sahip olduğumuz müşteri ve sağlayıcılar arasındaki becerilerin belirli değerlerini bilmek istiyorum.

Başlangıçta, başarı olasılığının sadece müşterinin ve sağlayıcının kombine beceri seviyeleri tarafından yönlendirildiğini ve başka hiçbir sabit etkisi olmadığını varsaymak istiyorum. Yani, x'in istemci için bir faktör olduğunu ve y'nin sağlayıcı için bir faktör olduğunu varsayarsak, o zaman R'de (lme4 paketini kullanarak) şu şekilde belirtilen bir modelim var:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

Bir sorun, istemcilerin sağlayıcılar arasında eşit olarak dağıtılmamasıdır. Yüksek beceri seviyesine sahip müşterilerin yüksek beceri sağlayıcıları ile eşleştirilmesi daha olasıdır. Anladığım kadarıyla, rastgele bir etkinin modeldeki diğer öngörücülerle ilişkilendirilmemesi gerekiyor, ancak bunun nasıl açıklanacağından emin değilim.

Ayrıca, bazı müşteriler ve sağlayıcılar çok az etkinliğe (10'dan az) sahipken, diğerlerinde çok fazla (500'e kadar) vardır, bu nedenle her katılımcıya sahip olduğumuz veri miktarında geniş bir yayılım vardır. İdeal olarak bu, her partikül beceri tahmininin etrafında bir "güven aralığı" na yansır (her ne kadar güven aralığı terimi burada oldukça doğru değilse de).

Çapraz rastgele etkiler dengesiz verilerden dolayı sorunlu olacak mı? Eğer öyleyse, dikkate almam gereken diğer yaklaşımlar nelerdir?

Yanıtlar:


4

Dengesiz verilere gelince, glmer dengesiz grupları ele alabilir: bu aslında dengeli tasarımlarla sınırlı tekrarlanan ölçüm ANOVA'larına kıyasla karışık modeller yaklaşımları geliştirmenin noktasıydı. Az sayıda etkinliği (yalnızca bir tane bile) olan müşterileri veya sağlayıcıları dahil etmek, artık varyansın tahminini iyileştirdiği için onları atlamaktan daha iyidir (bkz. Martin ve ark. 2011 ).

BLUP'ları ( ranef(model)) bir beceri vekili olarak kullanmak istiyorsanız, gerçekten nokta tahminlerinizin etrafındaki belirsizliği tahmin etmeniz gerekecektir. Bu, ranef(model, postVar=TRUE)Bayesci bir çerçevede posterior dağılım kullanılarak veya aracılığıyla sıkça yapılan bir çerçevede yapılabilir . Bununla birlikte, BLUP'ları diğer regresyon modellerinde yanıt değişkeni olarak kullanmamalısınız: Bkz. Hadfield ve ark. (2010) , BLUP'ların yanlış kullanımı ve belirsizliklerini yeterince dikkate almak için farklı yöntemler örnekleri için.

Müşteriler ve sağlayıcılar arasındaki becerilerin korelasyonuna gelince, bu dengesizlik çok güçlü ise sorunlu olabilir, çünkü her rastgele etkiye bağlı olarak varyansın doğru bir şekilde tahmin edilmesini önleyecektir. Rastgele kesişmeler arasındaki korelasyonu kolayca ele alacak karışık modeller çerçevesi yok gibi görünmüyor ( probleminizin resmi bir ifadesi için buraya bakın ). Müşterilerin ve sağlayıcıların ortalama başarıları arasında ne kadar korelasyonlu olabilirsiniz?


Eski sorularımdan biriyle uğraştığınız için çok teşekkür ederim. Cevap hala konuyla ilgilidir ve rehberlik ve referanslar takdir edilmektedir. Üzgünüm, orada olduğunu fark etmem çok uzun sürdü! Çözülmüş olarak işaretledim.
colonel.triq
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.