Tüm olasılıklar karışık efektler modeline dahil edildiğinde, rastgele efekt ve rastgele efekt karşılaştırıldı


15

Karışık etkiler modelinde, tüm olası seviyeler dahil edildiğinde (örneğin hem erkekler hem de kadınlar) bir parametreyi tahmin etmek için sabit bir etki kullanılması önerilir. Ayrıca, dahil edilen seviyeler bir popülasyondan sadece rastgele bir örnekse (olası hastaların evreninden kayıtlı hastalar) ve araçlar yerine popülasyon ortalamasını ve varyansını tahmin etmek istiyorsanız, bir değişkeni hesaba katmak için rastgele bir efekt kullanılması önerilir. bireysel faktör seviyelerinin.

Mantıken her zaman bu şekilde sabit bir efekt kullanmak zorunda olup olmadığınızı merak ediyorum. Ayak / ayakkabı büyüklüğünün gelişim yoluyla nasıl değiştiğini ve örneğin boy, kilo ve yaşla ilgili bir çalışmayı düşünün. Sideyıllar içindeki ölçümlerin belirli bir ayağın içine yerleştirildiği ve bağımsız olmadığı gerçeğini açıklamak için bir şekilde modele açıkça dahil edilmelidir. Dahası, sağ ve sol var olabilecek tüm olasılıklardır. Ayrıca, belirli bir katılımcı için sağ ayağının soldan daha büyük (veya daha küçük) olduğu çok doğru olabilir. Bununla birlikte, ayak büyüklüğü tüm insanlar için ayaklar arasında biraz farklı olsa da, sağ ayakların ortalama olarak sol ayaklardan daha büyük olacağına inanmak için bir neden yoktur. Numunenizdeyse, bunun nedeni muhtemelen sağ ayağa özgü bir şeyden ziyade numunenizdeki insanların genetiği hakkında bir şeydir. Son olarak, gerçekten önemsediğiniz bir şey değil bir sıkıntı parametresi gibi görünüyor. side

Bu örneği oluşturduğumu not edeyim. Hiç iyi olmayabilir; sadece bu fikre varmak. Tüm bildiğim için, paleolitikte hayatta kalmak için büyük bir sağ ayağa ve küçük bir sol ayağa ihtiyaç vardı.

Böyle bir durumda, modelini rastgele bir etki olarak dahil etmek (daha fazla / daha az / herhangi bir) mantıklı olur mu? Burada sabit veya rastgele bir efekt kullanmanın avantajları ve dezavantajları neler olurdu? side


faktörün iki ve sadece iki seviyesi olduğu için neden tarafa rastgele bir faktör olarak davranmak istesin ? Sorun ayarınızda rastgelelik nereden geliyor?
Aaron Zeng

@AaronZeng, örneğimin kalitesini bir kenara bırakıyorum, bu benim sorum. Mümkün olan tüm seviyelere sahipseniz rastgele etkileri olan seviyeleri temsil etmek için herhangi bir sebep var mı? Söz konusu faktörün> 2 seviyesi varsa?
gung - Monica'yı eski

1
@gung Bu konuya yeni döndüm - cevaplardan herhangi biri yardımcı oldu mu? Değilse - daha ne öğrenmek istersiniz? Belki kendi cevabınız var (evet ise, bu konu hakkında daha fazla bilgi edinmek isterim!)?
Tim

2
Buraya döndüğümden bu yana uzun zaman geçti @Tim. Her iki yanıtı da takdir ediyorum (onları iptal ettim), ancak aradığım şey tam olarak değil (muhtemelen yeterince açık bir soru bildirimi nedeniyle). Ben Bolker'in çeşitli yerlerde yayınladığı bazı şeylerden bir cevap derlemeyi düşündüm, ama biraz iş olurdu ve aslında hiç yapmadım. Yine de yapmam gereken bir şey. Dürtmek için teşekkürler.
gung - Monica'yı eski haline getirin

Yanıtlar:


13

"Sabit" ve "rastgele" etkilerle ilgili genel sorun, tutarlı bir şekilde tanımlanmamalarıdır. Andrew Gelman bunlardan birkaçından alıntı yapıyor :

(1) Sabit etkiler bireyler arasında sabittir ve rastgele etkiler değişiklik gösterir. Örneğin, bir büyüme çalışmasında, rasgele kesişme ve sabit eğim sahip bir model, farklı bireyler için paralel çizgilere veya modeline . Kreft ve De Leeuw (1998) böylece sabit ve rastgele katsayıları birbirinden ayırmaktadır.aibiyit=ai+bt

(2) Etkiler kendi başlarına ilgi çekiyorsa veya altta yatan popülasyona ilgi varsa rastgele belirlenir. Searle, Casella ve McCulloch (1992, Bölüm 1.4) bu ayrımı derinlemesine araştırmaktadır.

(3) “Bir örnek popülasyonu tükettiğinde, karşılık gelen değişken sabittir; örnek popülasyonun küçük (yani ihmal edilebilir) bir parçası olduğunda, karşılık gelen değişken rasgele. ” (Yeşil ve Tukey, 1960)

(4) “Bir etkinin rastgele değişkenin gerçekleşmiş değeri olduğu varsayılırsa, buna rastgele etki denir.” (LaMotte, 1983)

(5) Sabit etkiler, en küçük kareler (veya daha genel olarak maksimum olasılık) kullanılarak tahmin edilir ve rasgele etkiler, büzülme (Robinson, 1991 terminolojisinde “doğrusal tarafsız tahmin”) ile tahmin edilir. Bu tanım, çok düzeyli modelleme literatüründe (örneğin bkz. Snijders ve Bosker, 1999, Bölüm 4.2) ve ekonometride standarttır.

ve bunlar bildirimler olduğu değil tutarlı. Regresyon ve Çok Düzeyli / Hiyerarşik Modeller Kullanarak Veri Analizi kitabında genellikle bu terimleri kullanmaktan kaçınır ve çalışmalarında grup müdahaleleri ve eğimleri arasında sabit veya değişkenliğe odaklanır çünkü

Sabit etkiler, üst düzey varyansın (modelde (1.1), bu ) veya olarak ayarlandığı özel rastgele efekt durumları olarak görülebilir . Dolayısıyla, bizim çerçevemizde, tüm regresyon parametreleri “rastgele” ve “çok düzeyli” terimi her şeyi kapsıyor. 0 σα20

Bu, özellikle, tüm etkilerin kendiliğinden rastgele olduğu, karışık modeller için yaygın olarak kullanılan Bayesian çerçevesi için geçerlidir. Bayesian düşünüyorsanız gerçekten "sabit" efektler ve nokta tahminleri ile ilgilenmiyorsunuz ve tüm efektlere rastgele davranmakta sorun yaşamıyorsunuz.

Bu konuda ne kadar çok okursam, bunun tahmin edebileceğimiz (veya yapmamız gereken) ve sadece neyi tahmin edebileceğimiz konusunda ideolojik bir tartışma olduğuna ikna oldum (burada kendi cevabınıza da başvurabilirim ). Olası sonuçlardan rastgele bir örneğiniz varsa rastgele efektler kullanırsınız , bu nedenle bireysel tahminler hakkında endişelenmezsiniz ve popülasyon etkilerini, daha sonra bireyleri önemsersiniz. Sorunuzun cevabı sen eğer düşünmek ne de bağlıdır yüzden istiyorum ya edebilir sabit etkiler verilerinizi verilen tahmin ediyoruz. Tüm olası seviyeler verilerinize eklenmişse ,sabit etkileri tahmin et - örneğin, örneğinizde olduğu gibi, seviye sayısı az olabilir ve bu genellikle rastgele etkileri tahmin etmek için iyi olmaz ve bunun için minimum gereksinimler vardır .

En iyi senaryo argümanı

Sınırsız miktarda veriye ve sınırsız hesaplama gücüne sahip olduğunuzu varsayalım. Bu durumda, her efektin sabit olarak tahmin edildiğini hayal edebilirsiniz, çünkü sabit efektler size daha fazla esneklik sağlar (bireysel efektleri karşılaştırmamızı sağlar). Bununla birlikte, bu durumda bile, çoğumuz her şey için sabit efektler kullanmaya isteksiz oluruz.

Örneğin, bazı bölgelerdeki okulların sınav sonuçlarını modellemek istediğinizi ve bölgedeki 100 okulun tümü hakkında verilere sahip olduğunuzu düşünün. Bu durumda, okulları sabit olarak tehdit edebilirsiniz - çünkü tüm seviyeler hakkında veriye sahipsiniz - ama pratikte muhtemelen onları rastgele düşünebilirsiniz . Neden?

  1. Bunun bir nedeni, genellikle bu tür durumlarda, bireysel okulların etkileriyle ilgilenmemenizdir (ve hepsini karşılaştırmak zordur), daha ziyade okullar arasında genel bir değişkenliktir.

  2. Buradaki başka bir argüman model parsimony. Genellikle "olası her etki" modeliyle ilgilenmezsiniz, bu nedenle modelinize diğer olası değişkenlik kaynaklarını test etmek ve kontrol etmek istediğiniz birkaç sabit efekt eklersiniz. Bu, karma efekt modellerini, bir şeyi tahmin ettiğiniz ve başka şeyler için kontrol ettiğiniz istatistiksel modelleme hakkında genel düşünme şekline uygun hale getirir. Karmaşık (çok düzeyli veya hiyerarşik) verilerle dahil etmek için birçok efektiniz vardır, bu nedenle bazılarını "sabit" ve bazılarını "rastgele" olarak tehdit edersiniz.

  3. Bu senaryoda, okulların her birinin sonuçlar üzerinde kendine özgü, benzersiz bir etkisi olduğunu düşünmezsiniz, aksine genel olarak biraz etkisi olan okullar hakkında düşünürsünüz. Dolayısıyla bu argüman , tek tek okulların benzersiz etkilerini tahmin etmenin gerçekten mümkün olmadığına inandığımız ve onları olası okul etkilerinin rastgele bir örneği olarak tehdit ettiğimizdir.

Karışık efekt modelleri "sabit olan her şey" ve "rastgele her şey" senaryoları arasında bir yerdedir. Karşılaştığımız veriler, her şeyi sabit etkiler olarak tahmin etme beklentilerimizi düşürmemizi sağlıyor, bu nedenle hangi etkileri karşılaştırmak istediğimize ve hangi etkileri kontrol etmek istediğimize veya etkileri hakkında genel bir his vermeye karar veriyoruz. Sadece verinin ne olduğu değil, aynı zamanda verileri modellerken verileri nasıl düşündüğümüzle de ilgilidir.


Burada iyi noktalar var, @Tim. Ben gung OP OP örneğinde ne olduğunu merak ediyorum; cevabımın altındaki yorumlarda uzun bir tartışma vardı ama sanırım şu anda nihayet az çok çözüldü. Benim yazdıklarıma katılıp katılmadığınızı veya katılmamanızı bilmek iyi olurdu.
amip, Reinstate Monica'ya

@ amoeba bu ilginç bir cevap (zaten + 1'ledim) ve görüşünüzü kabul ediyorum. Aslında gung'un doğru olduğunu düşünüyorum (Gelman ile aynı - her zaman haklı :)) tek bir cevap yok. Büyük bir literatür ve karışık efekt modelleri kullanmanın birçok yolu vardır ve net bir ayrım yoktur. Dahası, varsayılan olarak her şey için her zaman sabit efektler kullanan insanlar vardır ve genellikle sabit efektler olarak görmeyi tercih ettiğimiz durumlarda bile, mümkün olduğunca rastgele efektler kullanan kişiler vardır ... Aynı zamanda tam olarak ne istediğinize de bağlıdır. modeli.
Tim

13

Yönetici Özeti

Gerçekten de, tüm olası faktör seviyeleri karışık bir modele dahil edilirse, bu faktörün sabit bir etki olarak ele alınması gerektiği sıklıkla söylenir. Bu, İKİ İLÇE NEDENİ için mutlaka doğru değildir:

(1) Seviye sayısı büyükse, [çarpı] faktöre rastgele davranmak mantıklı olabilir .

Hem @Tim hem de @RobertLong ile burada hemfikirim: bir faktörün modelde yer alan çok sayıda düzeyi varsa (örneğin dünyadaki tüm ülkeler; veya bir ülkedeki tüm okullar; veya belki de tüm nüfus konular araştırılır, vb.), o zaman rastgele muamele ile ilgili yanlış bir şey yoktur - bu daha cimri olabilir, bazı büzülme sağlayabilir, vb.

lmer(size ~ age + subjectID)                     # fixed effect
lmer(size ~ age + (1|subjectID))                 # random effect

(2) Faktör başka bir rastgele etki içinde iç içe geçmişse, düzey sayısından bağımsız olarak rastgele muamele edilmelidir.

Bu konuda büyük bir karışıklık vardı (yorumlara bakın), çünkü diğer cevaplar yukarıdaki durum # 1 ile ilgilidir, ancak verdiğiniz örnek farklı bir duruma, yani bu durum # 2'ye bir örnektir . Burada sadece iki seviye vardır (yani "çok sayıda" yoktur!) Ve tüm olasılıkları tüketirler, ancak başka bir rastgele etkinin içine yerleştirilirler ve iç içe rastgele bir etki verirler .

lmer(size ~ age + (1|subject) + (1|subject:side)  # side HAS to be random

Örneğinizin ayrıntılı tartışması

Hayali denemenizdeki taraflar ve konular, standart hiyerarşik model örneğindeki sınıflar ve okullar ile ilişkilidir. Belki de her okulun (# 1, # 2, # 3 vb.) A sınıfı ve B sınıfı vardır ve bu iki sınıfın kabaca aynı olması gerekir. A ve B sınıflarını iki seviyeli sabit bir etki olarak modellemeyeceksiniz; bu bir hata olur. Ancak A ve B sınıflarını iki seviyeli "ayrı" (yani çaprazlanmış) rastgele bir etki olarak modellemeyeceksiniz; bu da bir hata olur. Bunun yerine, sınıfları okullarda iç içe rastgele bir etki olarak modellersiniz .

Buraya bakın: Çapraz ve iç içe rastgele efektler: nasıl farklıdırlar ve lme4'te nasıl doğru belirtilirler?

i=1nj=1,2

Sizeijk=μ+αHeightijk+βWeightijk+γAgeijk+ϵi+ϵij+ϵijk
ϵiN(0,σsubjects2),Random intercept for each subject
ϵijN(0,σsubject-side2),Random int. for side nested in subject
ϵijkN(0,σnoise2),Error term

Kendiniz yazdığınız gibi, "sağ ayakların ortalama olarak sol ayaklardan daha büyük olacağına inanmak için hiçbir neden yoktur". Bu nedenle, sağ veya sol ayağın hiçbir "küresel" etkisi (sabit veya rastgele çapraz) olmamalıdır; bunun yerine her öznenin "bir" ayağı ve "başka bir ayağı" olduğu düşünülebilir ve bu değişkenlik modele dahil edilmelidir. Bu "bir" ve "başka" ayaklar özneler içinde yuvalanmıştır, dolayısıyla yuvalanmış rastgele etkiler.

Yorumlara yanıt olarak daha fazla ayrıntı. [Eyl 26]

Yukarıdaki model, Side'yi Konular içinde iç içe rastgele bir efekt olarak içerir. İşte @Robert tarafından önerilen, Side'nin sabit bir efekt olduğu alternatif bir model:

Sizeijk=μ+αHeightijk+βWeightijk+γAgeijk+δSidej+ϵi+ϵijk

ij

Olamaz.

Aynı şey @ gung'un Side'yi çapraz rastgele efekt olarak varsayımsal modeli için de geçerlidir:

Sizeijk=μ+αHeightijk+βWeightijk+γAgeijk+ϵi+ϵj+ϵijk

Bağımlılıkları da hesaba katmıyor.

Simülasyon yoluyla gösterim [2 Eki]

İşte R'de doğrudan bir gösteri.

Art arda beş yıl boyunca her iki ayağın üzerinde ölçülen beş süje ile bir oyuncak veri seti oluşturuyorum. Yaşın etkisi doğrusaldır. Her öznenin rastgele bir kesmesi vardır. Ve her bir öznenin ayaklarından biri (sol veya sağ) diğerinden daha büyüktür.

set.seed(17)

demo = data.frame(expand.grid(age = 1:5,
                              side=c("Left", "Right"),
                              subject=c("Subject A", "Subject B", "Subject C", "Subject D", "Subject E")))
demo$size = 10 + demo$age + rnorm(nrow(demo))/3

for (s in unique(demo$subject)){
  # adding a random intercept for each subject 
  demo[demo$subject==s,]$size = demo[demo$subject==s,]$size + rnorm(1)*10

  # making the two feet of each subject different     
  for (l in unique(demo$side)){
    demo[demo$subject==s & demo$side==l,]$size = demo[demo$subject==s & demo$side==l,]$size + rnorm(1)*7
  }
}

plot(1:50, demo$size)

Korkunç R yeteneklerim için özür dilerim. Veriler şöyle görünür (birbirini takip eden beş nokta, yıllar boyunca ölçülen bir kişinin bir ayağıdır; her ardışık on nokta aynı kişinin iki ayağıdır):

resim açıklamasını buraya girin

Şimdi bir grup modele uyabiliriz:

require(lme4)
summary(lmer(size ~ age + side + (1|subject), demo))
summary(lmer(size ~ age + (1|side) + (1|subject), demo))
summary(lmer(size ~ age + (1|subject/side), demo))

Tüm modeller, sabit bir etkisi ageve rastgele bir etkisini içerir subject, ancak sidefarklı davranır .

  1. sideaget=1.8

  2. sideaget=1.4

  3. sideaget=37

Bu açıkça sideiç içe rastgele bir etki olarak ele alınması gerektiğini göstermektedir .

Son olarak, yorumlarda @Robert sidebir kontrol değişkeni olarak küresel etkisini eklemeyi önerdi . İç içe rastgele efekti korurken yapabiliriz:

summary(lmer(size ~ age + side + (1|subject/side), demo))
summary(lmer(size ~ age + (1|side) + (1|subject/side), demo))

sidet=0.5side


2
Bu örnekte, sidebir faktörün rastgele ve sabit olarak ne zaman ele alınması gerektiğine dair olağan tanımlardan / kurallardan herhangi birini karşıladığını gerçekten sanmıyorum . Özellikle, faktörün örneklenmiş seviyelerinin ötesinde çıkarımlar yapmak anlamsızdır. Dahası, faktörün sadece 2 seviyesi ile, onu sabit olarak ele almak, modellemeye yaklaşmanın dini ve basit bir yolu gibi görünmektedir.
Robert Long

Robert, cevap için teşekkürler. Ya tamamen kafam karıştı ya da ne demek istediğimi doğru bir şekilde açıklayamadım. Tedavisi sidetarafta (örn Sağ) ait olarak kişinin kendisini sabit etki aracı olarak belirli bir miktar, (Sol) diğerinden daha hep büyüktür. Bu miktar tüm insanlar için aynıdır. Bu açıkça OP aklındakini değil. Bazı insanlarda sağın daha büyük, bazı insanlarda sol olabileceğini yazdı. Ancak, sideilişkili hatalar nedeniyle hesaba katmamız gerekir . O zaman neden iç içe rastgele bir etki olarak davranamıyoruz? Tıpkı okullardaki sınıflar gibi.
amoeba, Reinstate Monica

Mutlaka bunu ima ettiğini bilmiyorum. Söylediği şey, bu örnekte, taraflar arasında sistematik bir fark olabileceğidir (bu, örnekleme varyasyonuna bağlı bir artefakt olabilir veya olmayabilir). Ben bağımsızlık ve "başka bir şey için" kontrol "olarak sabit bir etki olarak düşünmeyi tercih ediyorum - aynı şekilde bir modele bir karıştırıcı eklemek ve hatta katsayısını yorumlamak için hayal bile değil.
Robert Long

2
Daha fazla düşünmeden sonra cevabınızı onaylıyorum. Gerçekten ilginç bazı noktalara değiniyorsunuz. Şu anda bunun matematiğini inceleyecek zamanım yok. Mümkünse oynamak için bir oyuncak veri kümesi bulmak istiyorum (eğer birini biliyorsanız, lütfen bana bildirin)
Robert Long

2
+1, daha fazla yansıma üzerine, bu çalışmanın özellikleri konusunda haklı görünüyorsunuz. Tüm olasılıklar dahil edildiğinde sabit ve rastgele etkiye tek bir cevap olmadığı daha büyük bir nokta mıdır ve her vaka ayrı ayrı değerlendirilmelidir, merak ediyorum?
gung - Monica'yı eski

7

Diğer cevaplara eklemek için:

Mantıken her zaman OP'de açıklanan şekilde sabit bir etki kullanmak zorunda olduğunuzu düşünmüyorum. Bir faktörün rastgele olarak ne zaman tedavi edileceğine dair olağan tanımlar / yönergeler karşılanmasa bile, çok sayıda seviye olduğunda bunu rastgele modellemeye meyilli olabilirim, böylece faktörü sabit olarak ele almak birçok dereceyi tüketir. özgürlük ve hantal ve daha az cimri bir model ile sonuçlanır.


Bu makul bir nokta gibi görünüyor, ve benim örneğim tarafından kör olmadığınızı takdir ediyorum. Bundan ve amoeba'nın cevabına yaptığınız yorumdan "çok sayıda seviye olduğunda" ("faktörün sadece 2 seviyesiyle" vs) anahtar gibi göründüğünü düşünüyorum.
gung - Monica'yı eski

1
+1 çünkü bu noktaya katılıyorum, biraz da beni deli ediyor, ne demek istediğimi açıklayamıyordum ve ne de ne de gung ne demek istediğimi görmüyorum. Bunlardan birine sidesabit veya çapraz rastgele etki olarak davranmak zorunlu olarak , her denek için kenarlardan birinin (örn. Sağ) her zaman diğerinden (Sol) daha büyük olduğunu varsaymak anlamına gelir. Bu, gung'un OP'de yazdığı gibi değil, "sağ ayakların ortalama olarak sol ayaklardan daha büyük olacağına inanmak için hiçbir neden yok". Gung'un örneğini, okullardaki sınıflarla tam olarak benzer şekilde iç içe rastgele etki için açık bir örnek olarak görüyorum.
amip diyor ki Reinstate Monica

@ amip ilginç nokta ama katılıyorum. Cevabınıza yorumlarda yorum yapacağım ...
Robert Long

4

Bir ilgi faktörünün tüm olası seviyelerini bildiğiniz durumdan bahsediyorsanız ve ayrıca etkileri tahmin etmek için verileriniz varsa, kesinlikle seviyeleri rastgele efektlerle temsil etmenize gerek yoktur.

Bir faktöre rastgele etki ayarlamak istemenizin nedeni, genellikle bilinmeyen bu faktörün tüm düzeylerinin etkileri üzerinde çıkarım yapmak istemenizdir. Bu tür bir çıkarım yapmak için, tüm seviyelerin etkilerinin genel olarak normal bir dağılım oluşturduğu varsayımını empoze edersiniz. Ancak sorun ayarınız göz önüne alındığında, tüm seviyelerin etkilerini tahmin edebilirsiniz. O zaman kesinlikle rastgele efektler koymaya ve ek varsayım uygulamaya gerek yoktur.

Nüfusun tüm değerlerini alabileceğiniz durum gibidir (böylece gerçek ortalamayı biliyorsunuz), ancak popülasyondan büyük bir örnek almaya ve örnekleme dağılımına yaklaşmak için merkezi limit teoremini kullanmaya çalışıyorsunuz ve sonra gerçek anlamda çıkarımda bulunur.


2
Bir yorum: bazen tüm seviyelere sahipsiniz, ancak yine de onlar için rastgele efekt kullanın. Örneğin, eğitim konusunda uluslar arası çalışma yürütüyorsunuz ve tüm okullar hakkında verilere sahipsiniz, ancak yine de her okul için aptallar kullanmak yerine okullar için rastgele efekt kullanacaksınız.
Tim
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.