Karışık efekt modeli ne zaman kullanılır?


11

Doğrusal Karışık Efekt Modelleri, gruplar halinde toplanan ve özetlenen veriler için Doğrusal Regresyon modellerinin Uzantılarıdır. Temel avantajlar katsayıların bir veya daha fazla grup değişkenine göre değişebilmesidir.

Ancak, karma efekt modelini ne zaman kullanacağımla mücadele ediyorum ? Sorularımı, uç durumları olan bir oyuncak örneği kullanarak ele alacağım.

Diyelim ki hayvanlar için boy ve kilo modellemek istiyoruz ve türleri gruplama değişkeni olarak kullanıyoruz.

  • Farklı grup / türler gerçekten farklıysa. Bir köpek ve fil de. Karışık etki modeli kullanmanın bir anlamı olmadığını düşünüyorum, her grup için bir model oluşturmalıyız.

  • Farklı grup / türler gerçekten benzer ise. Bir dişi köpek ve bir erkek köpek de. Bence cinsiyeti modelde kategorik bir değişken olarak kullanmak isteyebiliriz.

Orta durumlarda karma efekt modeli kullanmamız gerektiğini varsayalım? Diyelim ki grup kedi, köpek, tavşan, benzer büyüklükte hayvanlar ama farklı.

Karışık efekt modelinin ne zaman kullanılacağını, yani aralarında çizgi çizmeyi önerecek herhangi bir resmi argüman var mı

  1. Her grup için model oluşturma
  2. Karışık efekt modeli
  3. Grubu regresyonda kategorik değişken olarak kullanma

Benim girişimim: Yöntem 1 en "karmaşık model" / daha az serbestlik derecesi ve yöntem 3 en "basit model" / daha fazla serbestlik derecesi. Ve Karışık efekt modeli ortada. Bais Variance Trade Off'a göre ne kadar verinin ve ne kadar karmaşık verinin doğru modeli seçmemiz gerektiğini düşünebiliriz.


5
Bu, bu forumdaki pek çok konuda tartışılmıştır. Biraz aradınız mı? "Kategorik değişken" ile olan seçeneğiniz "sabit etki" (gruplama değişkeninin) olarak adlandırılırken, "karma model kullanarak" ile kastettiğinizin "rastgele etki" kullandığını unutmayın. Sorduğunuz şey, ne zaman sabit kullanılacağı ve ne zaman rastgele etki kullanılacağıdır. Bu soru hakkında çeşitli görüşler var ve burada CV ile ilgili birçok tartışma bulabilirsiniz. Daha sonra bazı bağlantılar gönderebilirim.
amip

Ayrıca, "ayrı modeller oluşturma" ve "kategorik değişken kullanma" arasındaki fark benim için net değil. activity ~ condition + species + condition*species- Bu, specieskategorik değişken olarak kullanılır, ancak bu, activity ~ conditionher tür için ayrı ayrı ayrı bir regresyona tamamen eşdeğerdir .
amip

2
Bu konuyu kontrol edin: stats.stackexchange.com/questions/120964/… , sorunuza doğrudan cevap vermez, ancak sorunuzla yakından ilgili bir tartışma sağlar.
Tim

3
Eh, okumak zorunda stats.stackexchange.com/a/151800/28666 başlangıç için?
amip

2
"Eğer farklı grup / türler gerçekten farklıysa. Bir köpek ve fil söyle. Bence karışık efekt modeli kullanmanın bir anlamı yok, her grup için bir model oluşturmalıyız." Bu gerçekten sadece diğer tüm özelliklerin etkilerinin türlere göre farklı olmasını beklerseniz doğrudur . Bu, çoğu durumda, çok liberal bir varsayımdır.
Matthew Drury

Yanıtlar:


8

Korkarım, araştırmacı veya veri analisti tarafından öznel bir seçim olduğu nüanslı ve belki de tatmin edici olmayan bir cevaba sahip olabilirim. Bu iş parçacığının başka bir yerinde belirtildiği gibi, verilerin "iç içe bir yapıya" sahip olduğunu söylemek yeterli değildir. Adil olmak gerekirse, çok düzeyli modellerin ne zaman kullanılacağını kaç kitap tanımlamaktadır. Örneğin, Joop Hox'un Çok Düzeyli Analizi kitabını kitaplığımdan çıkardım, bu da bu tanımı veriyor:

Çok düzeyli bir sorun, hiyerarşik bir yapıya sahip bir nüfusla ilgilidir.

Oldukça iyi bir ders kitabında bile, ilk tanım dairesel görünüyor. Bunun kısmen, ne tür bir modelin (çok düzeyli bir model dahil) ne zaman kullanılacağını belirlemenin öznelliğinden kaynaklandığını düşünüyorum.

Başka bir kitap olan West, Welch ve Galecki'nin Doğrusal Karışık Modelleri bu modellerin:

artıkların normal olarak dağıtıldığı ancak bağımsız olmadığı veya sabit varyansının bulunduğu sonuç değişkenleri. LMM'ler kullanılarak uygun bir şekilde analiz edilebilecek veri kümelerine yol açan çalışma tasarımları arasında (1) sınıflardaki öğrenciler gibi kümelenmiş verilerle yapılan çalışmalar veya endüstriyel bir süreç için hammadde grupları gibi rastgele bloklarla deneysel tasarımlar ve (2) deneklerin zaman içinde veya farklı koşullar altında tekrar tekrar ölçüldüğü boylamsal veya tekrarlı ölçüm çalışmaları.

Finch, Bolin ve Kelley'nin R'deki Çok Düzeyli Modellemesi de iid varsayımını ve ilişkili kalıntıları ihlal etmekten bahsediyor:

Çok seviyeli modelleme bağlamında özellikle önemli olan, bir numunedeki bireysel gözlemler için bağımsız olarak dağıtılan hata terimlerinin varsayımıdır (standart regresyonda). Bu varsayım, temel olarak, analizdeki bağımsız değişkenler hesaba katıldığında, numunedeki bağımlı değişken için bireyler arasında hiçbir ilişkinin olmadığı anlamına gelir.

Gözlemlerin birbirinden bağımsız olması gerektiğine inanmak için bir neden olduğunda çok düzeyli bir modelin mantıklı olduğuna inanıyorum. Bu bağımsızlıktan bağımsız olarak ne tür "küme" modellenebilir.

Bunun bariz bir örneği sınıflardaki çocuklar olabilir - hepsi birbirleriyle etkileşime girer ve bu da test puanlarının bağımsız olmamasına neden olabilir. Bir sınıfta, o sınıfta diğer sınıflarda ele alınmayan malzemenin ele alınmasına yol açan bir soru soran birisi varsa ne olur? Öğretmen bazı dersler için diğerlerinden daha uyanıksa ne olur? Bu durumda, verilerin bağımsızlığı bir miktar olabilir; çok düzeyli kelimelerde, bağımlı değişkenteki bazı varyansların kümeye (yani, sınıfa) bağlı olmasını bekleyebiliriz.

Bir filin bir köpeğe karşı örneğiniz, ilginin bağımsız ve bağımlı değişkenlerine bağlıdır. Örneğin, kafeinin aktivite düzeyinde bir etkisi olup olmadığını sorduğumuzu varsayalım. Hayvanat bahçesinin her yerinden gelen hayvanlar, kafeinli bir içecek veya kontrol içeceği almak için rastgele atanır.

Kafeinle ilgilenen bir araştırmacıysak, çok düzeyli bir model belirleyebiliriz, çünkü kafeinin etkisini gerçekten önemsiyoruz. Bu model şu şekilde belirtilir:

activity ~ condition + (1+condition|species)

Bu, bu hipotezi test ettiğimiz çok sayıda tür varsa özellikle yararlıdır. Bununla birlikte, bir araştırmacı kafeinin türe özgü etkileriyle ilgilenebilir. Bu durumda, türleri sabit bir etki olarak belirtebilirler:

activity ~ condition + species + condition*species

Bu, örneğin 30 türün hantal bir 2 x 30 tasarımı oluşturması durumunda bir sorundur. Bununla birlikte, bu ilişkileri nasıl modellediğiyle oldukça yaratıcı olabilirsiniz.

Örneğin, bazı araştırmacılar çok düzeyli modellemenin daha geniş bir kullanımı için tartışıyorlar. Gelman, Hill ve Yajima (2012) , çok düzeyli modellemenin çoklu karşılaştırmalar için bir düzeltme olarak kullanılabileceğini savunmaktadır - verilerin yapısının açık bir şekilde hiyerarşik olmadığı deneysel araştırmalarda bile:

Daha fazla yapıya sahip çoklu karşılaştırmaları modellerken daha zor sorunlar ortaya çıkar. Örneğin, beş sonuç ölçütü, üç çeşit tedavi ve iki cinsiyet ve dört ırk grubuna göre sınıflandırılmış alt gruplarımız olduğunu varsayalım. Bu 2 × 3 × 4 × 5 yapıyı 120 değiştirilebilir grup olarak modellemek istemeyiz. Bu daha karmaşık durumlarda bile, çok seviyeli modellemenin sonunda klasik çoklu karşılaştırma prosedürlerinin yerini alması ve yerini alması gerektiğini düşünüyoruz.

Sorunlar çeşitli şekillerde modellenebilir ve belirsiz durumlarda, çoklu yaklaşımlar çekici görünebilir. Bence işimiz makul ve bilgili bir yaklaşım seçmek ve bunu şeffaf bir şekilde yapmak.


5

Elbette her farklı grup için bir model oluşturabilirsiniz, bununla ilgili yanlış bir şey yoktur. Ancak, daha büyük örnek boyutuna ve birden çok modeli yönetmeniz gerekir.

Karışık model kullanarak, verileri bir araya toplar (ve paylaşırsınız) ve bu nedenle daha küçük örnek boyutu gerektirir.

Bunu yaparken, istatistiksel gücü paylaşıyoruz. Buradaki fikir, bir veri grubunda iyi çıkarım yapabileceğimiz bir şeyin, başka bir veriyle iyi çıkarım edemeyeceğimiz bir şeyle bize yardımcı olabileceğidir.

Karışık modeller ayrıca aşırı örneklenmiş grupların adaletsizce baskın çıkmalarını engeller.

Demek istediğim, temeldeki latern hiyerarşik yapıyı modellemek istiyorsanız, modelinize rastgele efektler eklemelisiniz. Aksi takdirde, modelinizle ilgilenmiyorsanız umursamazsınız.

https://www.dropbox.com/s/rzi2rsou6h817zz/Datascience%20Presentation.pdf?dl=0

konuyla ilgili tartışma yapar. Yazar neden ayrı regresyon modelleri çalıştırmak istemediğini tartıştı.

resim açıklamasını buraya girin


4

Karışık efekt modellerinde, modelinize rastgele (hata) terimleri eklersiniz, böylece sabit ve rastgele efektleri "karıştırırsınız". Bu nedenle, karma efekt modellerinin ne zaman kullanılacağını düşünmek için başka bir yaklaşım, "rastgele bir etkinin" ne olduğuna bakmak olabilir. Böylece, daha önce verilen cevaplara ek olarak, Bates (2010) öğretici, bölüm 1.1 (özellikle sayfa 2) ' den "sabit" ve "rastgele" etkiler arasındaki farkı da buluyorum .

Bir ortak değişkenin belirli seviyeleri ile ilişkili parametrelere bazen seviyelerin “etkileri” denir. Ortak değişkenin olası seviyeleri kümesi sabit ve tekrarlanabilir ise, sabit değişkenler parametrelerini kullanarak ortak değişkeni modelleyebiliriz. Gözlemlediğimiz düzeyler, olası tüm düzeyler kümesinden rasgele bir örneği temsil ediyorsa, modele rastgele etkiler ekleriz. Sabit etkiler parametreleri ve rastgele etkiler arasındaki bu ayrım hakkında dikkat edilmesi gereken iki şey vardır. Birincisi, isimler yanıltıcıdır çünkü sabit ve rastgele arasındaki ayrım, kategorik ortak değişken seviyelerinin kendileriyle ilişkili etkilerin bir özelliğinden daha fazla bir özelliktir.

Bu tanım genellikle ülkeler veya sınıflar gibi bazı hiyerarşik yapı için geçerlidir, çünkü her zaman ülkeler veya sınıfların "rastgele" bir örneğine sahipsiniz - veriler tüm olası ülkelerden veya sınıflardan toplanmamıştır .

Bununla birlikte, cinsiyet sabittir (veya en azından sabit olarak kabul edilir). Erkek ya da kadın bireyleriniz varsa, başka cinsiyet seviyesi kalmaz (bazı cinsiyet istisnaları olabilir, ancak bu çoğunlukla göz ardı edilir).

Veya eğitim düzeyi deyin: İnsanların daha düşük, orta veya yüksek eğitimde olup olmadığını sorarsanız, hiçbir düzey kalmaz, bu nedenle tüm olası eğitim düzeylerinin "rastgele" bir örneğini almadınız (bu nedenle, bu sabit bir etkidir).


2
+1 Neden aşağı oy? Rastgele etkiler modellemesi konusunda saygın bir istatistikçiden alıntıdır; Aşağıdaki yorumlar oldukça basit ve iyi tanımlanmış ...
usεr11852

3

Çalışma tasarımına bağlı olarak, gözlemler arasındaki korelasyonun doğası ve bireysel düzey veya koşullu etkiler üzerinde çıkarımın istenmesi hakkında bazı makul varsayımlar yapılabildiğinde karışık modeller kullanırsınız . Karışık modeller, verilerin toplanmasında doğal olarak ortaya çıkan korelasyon yapılarının uygun bir temsili olan rastgele efektlerin spesifikasyonlarına izin verir.

En yaygın karışık model tipi, veri kümesinde tanımlanan birey kümeleri içinde 0-ortalama, sonlu varyans normal dağılımına sahip ortak sabitlerin gizli dağılımını tahmin eden rastgele kesişim modelidir. Bu yaklaşım, gözlem grupları veya kümeler için ortak olan ancak kümeler arasında değişen potansiyel olarak yüzlerce karıştırıcı faktörü açıklar.

İkinci bir yaygın karışık model türü, rastgele kesişme modeline benzer şekilde, yine bir panel çalışması içindeki 0-ortalama, sonlu varyans normal dağılımından veya kümelerinden gelen zaman-belirleyici etkileşimlerinin gizli dağılımını tahmin eden rastgele eğimler modelidir. Gözlemlerin prospektif olarak veya uzunlamasına olarak ölçülmesi.

Bu sonuçlar, model parametrelerini ve bu bağımlı gözlemler (veya daha kesin olarak bunların kalıntıları) arasındaki kovaryansı tekrar tekrar tahmin etmek için genelleştirilmiş en küçük kareler ve EM-algoritması kullanılarak elde edilen sonuçlara kabaca benzerdir. Gözlemler arasındaki kovaryans bilindiğinde, ağırlıklı en küçük kareler en küçük karelerden daha etkilidir. Kovaryans nadiren bilinmekle birlikte, belirli bir yapı aldığı ve tekrarlı olarak tahmin edildiği varsayılabilir. Rastgele kesişme modeli, değiştirilebilir bir korelasyon yapısına sahip ağırlıklı en küçük karelere benzer çıkarım ve olasılıklar verir.cor(Y1,Y2)=ρY1,Y2cor(Yt,Ys)=ρ|ts|Yt,Yst,sve 0 ise. Sonuçlar aynı değildir, çünkü rastgele kesişim kümeler içindeki gözlemleri pozitif olarak ilişkilendirmeye zorlar, bu da neredeyse her zaman makul bir varsayımdır.

Bireysel seviye veya koşullu etkiler nüfus seviyesi veya marjinal etkilerle kontrastlanabilir. Marjinal etkiler, bir popülasyondaki bir müdahale veya taramadan kaynaklanan etkiyi temsil eder. Örnek olarak, madde kötüye kullanımı rehabilitasyonuna uyumu artırmak için yapılan bir müdahale, çeşitli durumlar için kabul edilen bir hasta panelinde 3 aydan uzun bir süre devam edebilir. Kullanım süresi hastalar arasında değişiklik gösterebilir ve daha fazla bağımlılık eğilimi ve kaçınmaya sahip katılımcıların daha uzun süre kullanılmasıyla atölyeye uyumu kuvvetle tahmin edebilir. Bireysel seviye analizi, daha uzun bağımlılığı olan katılımcıların müdahaleyi almadan önce katılmadıkları ve müdahaleyi aldıktan sonra katılmamalarına rağmen çalışmanın etkili olduğunu ortaya çıkarabilir.

Marjinal etkiler, zaman veya mekandaki kümeler arasındaki homojenliği görmezden gelmek nedeniyle daha az kesin çıkarım yapar. Genelleştirilmiş tahmin denklemleri ile veya karışık modellerin marjinalleştirilmesiyle tahmin edilebilirler.


2
+1, keşke 2 cevap kabul edebiliyorum !. @ Mark'ın cevabına yaptığım yorum da cevabınız için geçerlidir. "kümelerde gözlem" i nasıl tanımladığımızı anlamama yardımcı oldunuz
Haitao Du

2
@ hxd1011 Kesinlikle bir çalışma tasarımı ifadesinden gelir. Tabakalı örnekleri veya tekrar ölçümleri olan herhangi bir tasarım, bağımsız olmayan verilere sahip olacaktır. Bu istatistiksel test için bir durum değildir. Raporlama veya en azından rastgele etkilerin incelenmesi korelasyonun derecesini anlamaya yardımcı olabilir, bir ICC böyle bir önlemin bir örneğidir.
AdamO

0

Veriler iç içe veya hiyerarşik bir yapıya sahipse karma efektler kullanılmalıdır. Bu aslında ölçümlerin bağımsızlığı varsayımını ihlal eder, çünkü aynı grup / seviye içindeki tüm ölçümler birbiriyle ilişkilidir. Durumunda

"Eğer farklı grup / türler gerçekten benzerse. Bir dişi köpek ve bir erkek köpek söyleyin. Bence modelde kategorik bir değişken olarak cinsiyeti kullanmak isteyebiliriz."

cinsiyet faktör değişkeni ve sabit etki olurken, köpek boyutlarının cinsiyet içindeki değişkenliği rastgele bir etkidir. Benim modelim

response ~ sex + (1|size), data=data

Sezgisel olarak, köpekler ve kediler boyutları birbiriyle ilişkili olmadığından, tavşanlar, köpekler ve kasalar ayrı olarak modellenmelidir, ancak iki köpeğin büyüklüğü bir tür "tür içinde" değişkenliktir.


Kişisel olarak "iç içe geçmiş veya hiyerarşik yapı" teriminin çok genel olduğunu ve sınırları tanımlamakta zorlandığını düşünüyorum.
Haitao Du

Belki haklısın. Sanırım LMM, verilerde bulunan bir grup gruplama nedeniyle IID varsayımı ihlal edildiğinde kullanılır.
marianess
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.