Karışık bir modelde bir faktörü rastgele olarak görmenin ters tarafı nedir?


24

Birkaç nedenden ötürü bir model faktörünü rastgele olarak etiketlemenin faydalarını benimseme konusunda bir sorunum var. Bana göre, neredeyse her durumda olduğu gibi, optimal çözüm tüm faktörleri sabit olarak ele almaktır.

İlk olarak, sabit vs rastgele ayrımı oldukça keyfidir. Standart açıklama, eğer kişi kendi başına belirli deneysel birimlerle ilgileniyorsa, o zaman kişi sabit etkiler kullanmalı ve biri deneysel birimler tarafından temsil edilen popülasyonla ilgileniyorsa, birinin rasgele etkiler kullanması gerektiğidir. Bu pek yardımcı değil, çünkü veriler ve deneysel tasarım aynı kalsa bile sabit ve rastgele görünümler arasında geçiş yapabileceğini ima ediyor. Ayrıca, bu tanım, eğer bir faktör rastgele olarak etiketlenirse, modelden elde edilen çıkarımın, faktörün sabit olarak etiketlendiği durumdan bir şekilde, popülasyon için bir şekilde daha uygulanabilir olduğu yanılsamasını teşvik eder. Sonunda Gelman, sabit-rastgele ayrımın kafa karıştırıcı olduğunu gösteriyor Tanım düzeyinde bile, çünkü sabit ve rastgele etkilerin ne olduğu konusunda dört tanım daha vardır.

İkincisi, karma modellerin tahmini oldukça karmaşıktır. “Tamamen sabit” bir modelin aksine, p-değerlerini elde etmenin birkaç yolundan daha fazlası var R'de lme4 paketinde REML tahminini uygulayan Prof. Bates, P-değerlerini tamamen rapor etmeyi reddetmeye kadar ileri gitti .

Üçüncüsü, rastgele bir faktör tarafından kaç tane örtülü parametrenin kullanıldığına dair bulanık bir sorun var. Aşağıdaki örnek, Burnham & Anderson, Model Seçimi ve Çok Model Çıkarımına uyarlanmamdır : Pratik Bir Bilgi-Teorik Yaklaşım . Önyargılı sapma tradeoff açısından, rastgele etkilerin rolü aşağıdaki gibi gösterilebilir. İle tek yönlü ANOVA düşünün tedavileri ve K hangi ana faktör etkiler, K - 1 tahmin edilebilir. Hata terimi N ( 0 , σ 2 ) dağılımına sahip. Gözlemlerin sayısı sabit ise, sapma değişiminin değişmesi K olarak kötüleşecektir.KKK1N(0,σ2)Kgider ana etkilerinin N ( 0 , σ K ) dağılımından alındığını söylüyoruz . Karşılık gelen model, sabit (üzerine takılmış) versiyon ile sadece kesişmeyi içeren donatı model arasında bir yerde olan bir karmaşıklığa sahip olacaktır. Sabit modeldeki etkili parametrelerin sayısıKN(0,σK)

1intercept+(K1)maineffects+1σ=K+1.

Rastgele modelde etkin parametrelerin sayısı en az üçtür: . Ek olarak, rastgele model, ana etkilere dayatılan dağıtım (bu durumda normal) kısıtlamasının ima ettiği bir takım “gizli” parametrelere sahiptir.intercept,σ,σK

Özellikle, iki seviyeli bir faktör varsa, seviyelerinin bazı popülasyonlardan rastgele örneklendiğinden emin olduğumuzu bilsek bile, rastgele olarak adlandırmak mantıklı değildir. Bunun nedeni, sabit efekt sürümünün üç parametreye sahip olması ve rastgele efekt sürümünün üç parametreden fazlası olmasıdır. Bu durumda, rastgele modelin sabit sürümden daha karmaşık olduğu ortaya çıkmaktadır. Görünüşe göre, sabitden rastgele bir sürüme geçiş, daha büyük K için daha topraklıK. Bununla birlikte, rastgele modeldeki "gizli" parametrelerin sayısı bilinmemektedir, bu nedenle AIC gibi bilgi kriterlerine göre sabit ve rastgele sürümleri karşılaştırmak mümkün değildir. Bu nedenle, bu örnek rastgele etkilerin (daha iyi yanlılık sapmalarının değişmesi olasılığı) katkısını aydınlatsa da, faktörü sabitten rasgele tekrar etiketlemenin haklı olduğu zaman söylenmenin zor olduğunu gösterir.

Yukarıdaki sorunların hiçbiri “tamamen sabit” bir modelde mevcut değildir. Bu nedenle, sormaya istekliyim:

  1. Birisi tesadüf eseri sabitmiş gibi kullanıldığında çok kötü bir şey olduğunda bir örnek verebilir mi? Bu konuyu açıkça ele alan bazı simülasyon çalışmaları olması gerektiğine inanıyorum.

  2. Sabitten rastgele bir etikete geçmenin ne zaman anlamlı olacağına karar vermek için kanıtlanmış bir nicel yöntem var mı?


İyi yazılmış bir soru ve onu okumaktan birkaç şey öğrendim. Rasgele efekt analizinin uzun vadede mahkum olup olmadığını merak ediyorum, belki de daha basit pürüzsüzleştirme teknikleriyle yenilmek. # 1'i cevaplamaya çalışırsam, değişkenliği yüksek, birçok konu ve konu içindeki küçük örneklem büyüklüğü olan bir duruma gideceğim. Daha sonra konu içi sabit tahminler her yerde olacak.
Ben Ogorek

Yanıtlar:


20

1. Psikoloji ve dilbilimdeki ünlü bir örnek Herb Clark (1973; Coleman, 1964’ten sonra): “Sabit etkili bir dil yanlışlığı: Psikolojik araştırmalarda dil istatistiklerinin bir eleştirisi” olarak tanımlanmaktadır.

Clark, bir araştırma konusu örnekleminin birtakım teşvik edici materyallere, genellikle de bazı korpuslardan elde edilen çeşitli sözcüklere cevap verdiği psikolojik deneyleri tartışan bir psikodil uzmanıdır. O tekrarlanan ölçümlerinden dayanarak bu durumlarda kullanılan standart istatistiksel prosedür, ANOVA ve aynı Clark tarafından anılacaktır işaret (belki örtük) davranır uyaran maddeler (ya da "dil") rastgele bir faktör olarak, muamele katılımcıları ancak sabit olduğu gibi. Bu, deneysel koşul faktörü üzerindeki hipotez testlerinin sonuçlarını yorumlamada sorunlara yol açar: doğal olarak, olumlu bir sonucun bize hem katılımcı örneğimizi çektiğimiz nüfustan hem de çektiğimiz teorik nüfustan bahsettiğini varsaymak isteriz Dil malzemeleri Ama fF1 , sabit rasgele olarak katılımcıların ve uyaranlara işlenmesiyle, sadece yanıt benzeri katılımcılar arasında durum faktörü etkisi ile ilgili bizeaynı uyarılara. İletken F 1 katılımcı ve uyaranlara hem daha uygun rastgele olarak kabul edildiğinde, analiz esas olarak, nominal aşan 1 hata oranlarını Tip yol açabilir α genellikle .05 - - seviyesi derecesi, sayısı ve değişkenlik gibi faktörlere bağlı olarak uyaranlar ve deneyin tasarımı. Bu durumlarda, en azından klasik ANOVA çerçevesinde, en uygun analiz,doğrusal kombinasyonlarınoranlarına dayananyarı- F istatistiklerinikullanmaktır.F1F1αF ortalama kareler.

Clark'ın makalesi o zaman psikodilbilimde bir sıçrama yaptı ancak daha geniş psikolojik literatürde büyük bir engel yaratmadı. (Psikodilbilimde bile, Clark’ın tavsiyesi, Raaijmakers, Schrijnemakers ve Gremmen, 1999’da belgelendiği gibi, yıllar içinde bir şekilde çarpıtıldı.) ANOVA klasik karma modelinin özel bir durum olarak görülebildiği karma etkiler modellerinde. Bu son makalelerden bazıları Baayen, Davidson ve Bates (2008), Murayama, Sakaki, Yan ve Smith (2014) ve ( ahem ) Judd, Westfall ve Kenny (2012). Unuttuğum bazı şeyler olduğundan eminim.

2. Tam olarak değil. Bir faktörün modelde rastgele bir etki olarak bulunup bulunmadığının daha iyi olup olmadığına dair yöntemlervardır(bkz. Örneğin Pinheiro & Bates, 2000, s. 83-87; ancak bkz. Barr, Levy, Scheepers, & Tily, 2013). Ve tabii ki, bir faktörün sabit bir etki olarak daha iyi dahiledilip edilmediğini(yani, testleri)belirlemek için klasik model karşılaştırma teknikleri vardır. Ancak, bir faktörün sabit mi yoksa rastgele olarak mı kabul edileceğini belirlemenin, en iyi şekilde kavramsal bir soru olarak bırakılacağını, çalışmanın tasarımını ve ondan çıkarılacak sonuçların niteliğini göz önüne alarak yanıtlanacak en iyi kavram olduğunu düşünüyorum.F

Lisansüstü istatistik öğretmenlerimden biri olan Gary McClelland, belki de istatistiki çıkarımın temel sorununun "Neye kıyasla?" Olduğunu söylemekten hoşlanıyordu. Gary'den sonra, yukarıda bahsettiğim kavramsal soruyu şu şekilde çerçeveleyebileceğimizi düşünüyorum: Gerçek gözlemlenen sonuçlarımı karşılaştırmak istediğim varsayımsal deneysel sonuçların referans sınıfı nedir? Psikodilbilim bağlamında kalmak ve iki Koşuldan birinde sınıflandırılmış bir Sözcük örneğine cevap veren bir Denek örneğine sahip olduğumuz deneysel bir tasarımı göz önünde bulundurarak (Clark, 1973'te uzun süredir tartışılan özel tasarım), iki olasılık:

  1. Her deney için yeni bir Konu örneği, yeni bir Kelime örneği ve üretici modelden yeni bir hata örneği çizdiğimiz deney seti. Bu modelde, Konular ve Kelimeler hem rastgele etkilerdir.
  2. Her bir deney için yeni bir Denek örneği ve yeni bir hata örneği çizdiğimiz deney seti , fakat her zaman aynı Sözcük setini kullanırız . Bu modelde, Konular rastgele efektlerdir ancak Kelimeler sabit efektlerdir.

Bunu tamamen somutlaştırmak için, aşağıda Model 1 altındaki 4 benzetilmiş deneyden (yukarıdaki) 4 küme varsayımsal sonuçtan bazı grafikler; (aşağıda) Model 2 altındaki 4 benzetilmiş deneyden 4 set hipotetik sonuç kümesi. Her deney, sonuçları iki şekilde görüntüler: (Sol paneller), Her Konu için Konuya Göre araçlar çizilen ve bağlanan Konulara göre gruplandırılmış; (sağ paneller), her bir Kelime için verilen yanıtların dağılımını özetleyen kutu grafikleri ile Gruplandırılmış kelimeler. Tüm deneyler, 10 kelimeye cevap veren 10 Denek içermektedir ve tüm deneylerde, ilgili popülasyonda hiçbir Koşul farkı olmayan "sıfır hipotezi" doğrudur.

Hem rasgele konular hem de kelimeler: 4 simüle edilmiş deney

both_random

Burada, her deneyde, Konular ve Kelimeler için cevap profillerinin tamamen farklı olduğuna dikkat edin. Konular için bazen genel olarak düşük yanıt verenler, bazen yüksek yanıt verenler, bazen büyük Koşul farklılıkları gösterme eğiliminde olan Konular ve bazen küçük Durum farkı gösterme eğiliminde olan Konular alırız. Aynı şekilde, Kelimeler için, bazen düşük yanıtlar ortaya çıkarma eğiliminde olan Kelimeler ve bazen de yüksek yanıtlar ortaya çıkarma eğiliminde olan Kelimeler elde ederiz.

Rastgele konular, Sabit kelimeler: 4 benzetilmiş deney

subs_random

Buradaki 4 simüle edilmiş deney boyunca, Deneklerin her seferinde farklı göründüğüne dikkat edin, ancak Kelimeler için verilen yanıt profilleri temelde aynı görünüyor, bu modeldeki her deney için aynı Sözcükler kümesini tekrar kullandığımız varsayımıyla tutarlı.

Model 1'in (Her ikisi de rastgele Konular ve Kelimeler) veya Model 2'nin (rastgele Konular, Sabit kelimeler), bizim gerçekten gözlemlediğimiz deneysel sonuçlar için uygun referans sınıfı sağlayıp sağlamadığımızı seçip Koşul manipülasyonunun olup olmadığını değerlendirmemizde büyük fark yaratabilir. "çalıştı." Model 1'deki verilerde Model 2'den daha fazla şans değişikliği beklemekteyiz, çünkü daha fazla "hareketli parça" vardır. Dolayısıyla, çizmek istediğimiz sonuçlar, şans değişkenliğinin göreceli olarak daha yüksek olduğu Model 1'in varsayımları ile daha tutarlıysa, ancak verilerimizi, şans değişkenliğinin göreceli olarak daha düşük olduğu Model 2'nin varsayımları altında analiz ediyoruz, o zaman Tip 1 hatası Test etme oranı, Durum farkının bir dereceye kadar (muhtemelen oldukça büyük) şişirilecektir. Daha fazla bilgi için aşağıdaki Referanslara bakınız.

Referanslar

Baayen, RH, Davidson, DJ ve Bates, DM (2008). Nesneler ve eşyalar için çapraz tesadüfi efektlerle karma efekt modellemesi Bellek ve dil dergisi, 59 (4), 390-412. PDF

Barr, DJ, Levy, R., Scheepers, C. ve Tily, HJ (2013). Doğrulayıcı hipotez testi için rastgele etkiler yapısı: Maksimumda tutun. Bellek ve Dil Dergisi, 68 (3), 255-278. PDF

Clark, HH (1973). Sabit etkili dil yanlışlığı: Psikolojik araştırmalarda dil istatistiklerinin eleştirisi. Sözel öğrenme ve sözel davranış dergisi, 12 (4), 335-359. PDF

Coleman, EB (1964). Dil popülasyonuna genelleme. Psikolojik Raporlar, 14 (1), 219-226.

Judd, CM, Westfall, J. ve Kenny, DA (2012). Uyarıcıları sosyal psikolojide rastgele bir faktör olarak ele almak: Yaygın fakat büyük ölçüde göz ardı edilen bir soruna yeni ve kapsamlı bir çözüm. Kişilik ve sosyal psikoloji dergisi, 103 (1), 54. PDF

Murayama, K., Sakaki, M., Yan, VX ve Smith, GM (2014). Geleneksel Katılımcı Katılımcı Analizinde Metamemory Doğruluk için Tip I Hata Enflasyonu: Genelleştirilmiş Karışık Etki Modeli Perspektifi. Deneysel Psikoloji Dergisi: Öğrenme, Bellek ve Biliş. PDF

Pinheiro, JC ve Bates, DM (2000). S ve S-PLUS'ta karma efekt modelleri. Springer.

Raaijmakers, JG, Schrijnemakers, J. ve Gremmen, F. (1999). “Sabit etkili bir dil yanılgısı” ile nasıl başa çıkılır: Genel kavram yanılgıları ve alternatif çözümler. Bellek ve Dil Dergisi, 41 (3), 416-426. PDF


1
+1 Bu harika bir cevap ve 2012 ödeviniz çok güzel bir kitap.
amip diyor Reinstate Monica

Asıl soru zaten bu konuya giren mükemmel bir tartışmayla bağlantılı olduğundan, tam olarak neyi kastediyorsunuz?
James,

1
Gelman bağlantısı
Jake Westfall

@ James Ben devam ettim ve bazı resimler de dahil olmak üzere bazı kavramsal şeyler ekledim. Ne düşündüğü söyle.
Jake Westfall,

Resimler için teşekkürler. Son paragrafınıza göre, modeldeki efektler rastgele olarak etiketlendiğinde, kalan sabit efekt (ler) için p değeri artar. Bununla birlikte, ilave bir model için, varsayılan "tutma" yönteminin PROC KARIŞIKLIĞINDA kullanıldığı zaman, daha sonra sabit bir efekt için p değeri aynı olacaktır. Belirli bir örnek bu soruda: istatistik.stackexchange.com/q/112640/54099 Bunu nasıl açıklayabilirsiniz?
James

1

Farz edelim ki birkaç farklı makinede malzeme üretmeyi içeren bir üretim sürecim var. Onlar benim sahip olduğum tek makine, "makine" sabit bir etki. Ancak her makinede birçok malzeme üretiyorum ve gelecekteki lotlarla ilgili tahminlerde bulunmak istiyorum. "Lot numarası" nı rastgele bir faktör yapacağım çünkü gelecekteki lotlar için alacağım sonuçlarla ilgileniyorum .


1
Sevgili Emil: Korkarım, sorduğum soruları anlamadığınız için üzgünüm. Örneğiniz, kendime sorumla verdiğim en yaygın "sabit vs rastgele" tanımı göstermektedir. Her neyse, örneğinizi kullanarak, parti sayısının sabit bir faktör olduğu bir modelden gelecekteki yanıtlar hakkında çıkarım yapmanın neden kötü bir fikir olduğunu söyleyebilir misiniz?
James

"Parti numarası" nı sabit olarak kabul ederseniz, çıkarımlarınız yalnızca önceden test ettiğiniz lotlar için geçerli olacaktır. Diğer durumlarda aynı şey meydana gelir. Eğer rastgele etkiler hakkında çıkarımlar yapmak istiyorsanız, bunları sabit etkiler olarak ele almak genellikle yanlış cevaplar verecektir. Pek çok karma model durumunda, rastgele etkilerin sabit etkiler olarak ele alınması, gerçekte sabit olan etkilerle ilgili yanlış cevaplar bile verecektir.
Emil Friedman

Bu ters yönden aşağı yönlü değil. Uygun olmayan bir analiz yapıldığında sonuçlar genellikle yanlış olacaktır.
Emil Friedman

Sabit / rastgele etikete bağlı olarak sonucun nasıl yanlış olduğunu gösteren bir simülasyon çalışması için referans verebilir misiniz?
James

Ayrıca, özellikle varyans bileşenleri bulunduğunda, MLE'nin ücretsiz gelmediğine dikkat edin. 3 faktörlü ve devam eden ortak değişkenlerle çapraz faktörlü bir tasarım kurmaya çalışın. Ardından saf sabit bir model ve birkaç karışık özellik tahmin etmeye çalışın. OLS'den MLE / REML'e geçişe neden olan rastgele bir bileşen olduğu sürece yakınsama, sıfır veya negatif varyans bileşenlerinin elde edilmesi veya diğer anlamsız sonuçların ortaya çıkması daha olasıdır.
James,

1

Böylece, onları rastgele olarak değerlendirirsiniz, böylece faktörün örneklem büyüklüğüne ve toplam gözlem sayısına dayanarak, o faktörün genel ortalaması ile ortalaması arasında ortalama bir etki vardır. Bu, sonuçlarınızın büyük bir popülasyon için geçerli olduğunu söylemenizi sağlar, çünkü bir tür ağırlıklı ortalamaya ve bu faktöre bağlı olarak bir değişiklik tahminine sahip olursunuz, eğer olmasanız da, gerçekten sonuçlarınızın faktör seviyelerine uygulandığını söyleyebilirsiniz Regresyon, bunları, ağırlıklı ortalamaları alan rastgele olanlar değil, ayrı ayrı faktörler olarak ele alacağı için kullandınız.

Aynı konuyla ilgili tekrarlanan önlemleri aldığınızda da yararlıdır, çünkü aynı konudaki önlemler arasındaki ilişkiyi hesaba katmak için bunları kullanabilirsiniz.


RM'ye gelince, soruyu ilk başta sormamın nedenlerinden biri de bu. Burada bahsettiğim gibi: stats.stackexchange.com/q/112640/54099 Konuyu sabit veya rastgele olarak kabul etmek Tedavi p değerini değiştirmez, neden rahatsız ediyorsun.
James

Bir faktör sabit ve bir rasgele basit Beklemeli tasarıma sahipseniz ve Beklenen Ortalama Kareleri kullandığınızda, sabit faktörün p değeri, her ikisini de sabit olarak değerlendirirseniz alacağınızdan farklı olacaktır.
Emil Friedman,

1

Ybenj=β1Xbenj+β2Zben+eben+μbenj nerede Xbenj bireysel gözlemlerimizin gözlemlenebilirleri ve Zben Aralarındaki gözlemler değişmez ve sadece gruplama düzeyinde gözlemlenir, tahmin etmek istiyorsak sabit etkileri kullanamayız. β2Çünkü tahmin ediciyi kullanırsak, Zben düşer ve her biri için kukla değişken kullanırsak ben, Zbenonlarla collinear olduğunu. Dolayısıyla, bu durumda sabit bir etki tahmincisi kullanırsak, potansiyel olarak önemli bilgileri görmezden geliyoruz.

Durumda bile Ybenj=β1Xbenj+eben+μbenj bizde hiç yok ZbenBununla birlikte, bazıları sorunuzda listelenen sorunlara rağmen, birkaç nedenden dolayı rastgele etkiler kullanmak isteyebiliriz.

Bu tür ayarlarda, rastgele varyasyon iki (veya daha fazla gruplama seviyesi varsa) varyasyon kaynaklarına sahiptir - "grup içinde varyasyon" ve "gruplar arasında varyasyon". Sabit etkiler (veya "içinde") tahmincisi, tahminlerde gruplar arasındaki değişimi tamamen ortadan kaldırırβ1. Rastgele / karışık etki tahmincisi, tahmin edilmesine katkıda bulunacak "arasında" bir varyasyon sağlarβ1teorik olarak daha küçük standart hatalarla sonuçlanır.


(Orijinal Cevap)

Temel olarak rastgele efekt kullanmanız gereken yerlerden biri, sabit etkinin gruplama seviyesine değişmeyen parametreleri dahil etmek istediğiniz zamandır.

Örneğin, doktor özelliklerinin (örn. / Eğitimin) hasta sonuçları üzerindeki etkisini araştırmak istediğinizi varsayalım. Veri seti, gözlemlenen hasta sonuçları ve hasta / doktor özellikleri ile hasta düzeyindedir. Tek bir doktor altında tedavi gören hastalar muhtemelen ilişkili olduğundan, bunu kontrol etmek istersiniz. Buraya bir doktorda sabit bir etki ekleyebilirsiniz ancak bunu yaparken modeldeki doktor özelliklerinden herhangi birinin dahil edilmesini önlersiniz. İlgi doktor düzeyinde özelliklere sahipse hangisi sorunlu.


Bazı model ifadeleri verebilir misiniz?
James

0

Tahminlerin tutarlılığı ile ilgili olduğunu düşünüyorum.

Diyelimki xbenj=birben+bj+e nerede birben sabit etki (bazı deneysel koşullar) anlamına gelir

ve bj rastgele etki anlamına gelir (kişi olabilir).

Neyman ve Scott (1948) tutarlılık problemine dikkat çekiyor

Maksimum Olabilirlik Tahminleri birben ve bj.

Alırsak birben ve bj Her ikisi de sabit etki olarak, tahminler artık

tutarlı. En azından anladığım gibi ...

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.