İki çapraz rastgele efektim olduğunu düşündüğüm bazı verileri modelliyorum. Ancak veri kümesi dengeli değil ve bunu hesaba katmak için ne yapılması gerektiğinden emin değilim.
Verilerim bir dizi etkinliktir. Bir istemci, bir görevi yerine getirmek için başarılı olan veya olmayan bir sağlayıcıyla buluştuğunda bir olay oluşur. Binlerce müşteri ve sağlayıcı vardır ve her müşteri ve sağlayıcı değişen sayıda etkinliğe katılır (kabaca 5 ila 500). Her müşteri ve sağlayıcı bir beceri seviyesine sahiptir ve görevin başarılı olma şansı, her iki katılımcının becerilerinin bir fonksiyonudur. İstemciler ve sağlayıcılar arasında çakışma yoktur.
Müşteri ve sağlayıcı popülasyonunun ilgili varyanslarıyla ilgileniyorum, bu nedenle hangi kaynağın başarı oranı üzerinde daha büyük bir etkisi olduğunu bilebiliriz. Ayrıca, en iyi / en kötü müşterileri veya sağlayıcıları tanımlamak için gerçekte veriye sahip olduğumuz müşteri ve sağlayıcılar arasındaki becerilerin belirli değerlerini bilmek istiyorum.
Başlangıçta, başarı olasılığının sadece müşterinin ve sağlayıcının kombine beceri seviyeleri tarafından yönlendirildiğini ve başka hiçbir sabit etkisi olmadığını varsaymak istiyorum. Yani, x'in istemci için bir faktör olduğunu ve y'nin sağlayıcı için bir faktör olduğunu varsayarsak, o zaman R'de (lme4 paketini kullanarak) şu şekilde belirtilen bir modelim var:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
Bir sorun, istemcilerin sağlayıcılar arasında eşit olarak dağıtılmamasıdır. Yüksek beceri seviyesine sahip müşterilerin yüksek beceri sağlayıcıları ile eşleştirilmesi daha olasıdır. Anladığım kadarıyla, rastgele bir etkinin modeldeki diğer öngörücülerle ilişkilendirilmemesi gerekiyor, ancak bunun nasıl açıklanacağından emin değilim.
Ayrıca, bazı müşteriler ve sağlayıcılar çok az etkinliğe (10'dan az) sahipken, diğerlerinde çok fazla (500'e kadar) vardır, bu nedenle her katılımcıya sahip olduğumuz veri miktarında geniş bir yayılım vardır. İdeal olarak bu, her partikül beceri tahmininin etrafında bir "güven aralığı" na yansır (her ne kadar güven aralığı terimi burada oldukça doğru değilse de).
Çapraz rastgele etkiler dengesiz verilerden dolayı sorunlu olacak mı? Eğer öyleyse, dikkate almam gereken diğer yaklaşımlar nelerdir?