Karışık efekt modelleri neden bağımlılığı çözüyor?


14

Öğrenci sınav notlarının, öğrencilerin çalıştığı saat sayısından nasıl etkilendiğini merak ettiğimizi varsayalım. Bu ilişkiyi keşfetmek için aşağıdaki doğrusal regresyonu yürütebiliriz :

exam.gradesi=a+β1×hours.studiedi+ei

Ancak, birkaç farklı okuldan öğrencileri örneklersek, aynı okuldaki öğrencilerin farklı okullardaki öğrencilerden daha çok benzer olmasını bekleyebiliriz. Bu bağımlılık sorunu ile başa çıkmak için, birçok ders kitabında / internette tavsiye, karışık bir efekt çalıştırmak ve okula rastgele bir etki olarak girmektir. Böylece model şöyle olur:

exam.gradesi=a+β1×hours.studiedi+schoolj+ei
Ama bu neden doğrusal regresyonda mevcut olan bağımlılık problemini çözüyor?

Lütfen 12 yaşında biriyle konuşuyormuş gibi cevap verin


Bağımlılık sorununu "çözüp çözmediği" bağlama özgüdür. Ancak muhtemelen, genişletilmiş modelin, en azından kısmen, belirli bir okulla ilgili bir etkiyi açıklayabilecek bir terimi olduğunu görebilirsiniz.
image_doctor

Yanıtlar:


23

Modele rastgele terimler eklemek, notlar arasındaki bazı kovaryans yapısını indüklemenin bir yoludur. Okul için rasgele faktör, aynı okuldaki farklı öğrenciler arasında sıfırdan farklı bir kovaryansa neden olurken , okul farklı olduğunda .0

Diyelim olarak modelinizi yazmak ler indeksleri okul ve i (her okulda) öğrencileri endeksler. Terimleri , okul s bir çizilmiş bağımsız rastgele değişkenler N ( 0 , τ ) . E s , ı bir çizilmiş bağımsız rastgele değişkenler N ( 0 , σ

Ys,i=α+hourss,iβ+schools+es,i
sischoolsN(0,τ)es,i .N(0,σ2)

Bu vektör, beklenen tüm değerler çalışılan saat sayısına göre belirlenir.

[α+hourss,iβ]s,i

Arasındaki kovaryans ve Y ler ' , i ' ise 0 iken s lar ' , hangi öğrencilerin aynı okulda olmadığında beklenen değerlerden notlarının kalkış bağımsız olduğunu demektir.Ys,iYs,i0ss

Arasındaki kovaryans ve Y ler , i ' olduğunu τ zaman i i ' ve varyansını Y ler , i olan den aynı okuldan öğrencilerin notlarının korelasyon olacak kalkışlar: beklenen değerleri.Ys,iYs,iτiiYs,iτ+σ2

Örnek ve simüle edilmiş veriler

İşte beş okuldan elli öğrenci için kısa bir R simülasyonu (burada alıyorum ); değişkenin isimleri kendi kendini belgelemektedir: σ2=τ=1

set.seed(1)
school        <- rep(1:5, each=10)
school_effect <- rnorm(5)

school_effect_by_ind <- rep(school_effect, each=10)
individual_effect    <- rnorm(50)

Her bir öğrenci için beklenen , yani terimleri , her bir okul için ortalama kalkış ile birlikte (noktalı çizgi) :schools+es,i

plot(individual_effect + school_effect_by_ind, col=school, pch=19, 
     xlab="student", ylab="grades departure from expected value")
segments(seq(1,length=5,by=10), school_effect, seq(10,length=5,by=10), col=1:5, lty=3)

karışık model

Şimdi bu konu hakkında yorum yapalım. Her noktalı çizginin seviyesi ( karşılık gelir ) normal bir yasada rastgele çizilir. Öğrenciye özgü rastgele terimler de normal bir yasada rastgele çizilir, noktaların noktalı çizgiden uzaklığına karşılık gelir. Ortaya çıkan değer, her öğrenci için, çalışmak için harcanan zamana göre belirlenen not olan . Sonuç olarak, aynı okuldaki öğrenciler, sorunuzda belirttiğiniz gibi, farklı okullardaki öğrencilerden daha benzerdir. α + saat pschoolsα+hoursβ

Bu örnek için varyans matrisi

Yukarıdaki simülasyonlarda, okul efektleri ve bireysel etkileri ayrı ayrı , bu yüzden başladığım kovaryans düşünceleri burada açıkça görünmüyor. Aslında, blok diyagonal kovaryans matrisi ile 50. boyutta rastgele normal bir vektör çizerek benzer sonuçlar elde ederdik. burada beş blok , aynı okulun öğrencileri arasındaki kovaryansa karşılık gelir: schoolses,i

[A00000A00000A00000A00000A]
10×10A
A=[2111111111121111111111211111111112111111111121111111111211111111112111111111121111111111211111111112].

1
Elvis: Bu muhtemelen istatistiklerde benden daha tecrübeli insanlar için harika bir cevap. Ancak bundan çok az anlam çıkarabilirim. Yanıtınızı 12 yaşında bir çocuğun anlayabileceği şekilde düzenleyebilir misiniz?
luciano

1
A ... 12 yaşında mı ?! Vaov! Yardımcı olabilirse, bazı simülasyonlar ekleyeceğim.
Elvis

5
Bitti. Bu yardımcı olur umarım. Değilse, lütfen ne elde etmediğiniz konusunda daha spesifik olun. 12 yaşın da soruyu anlamayacağını unutmayın ... sorudan daha basit bir cevap isteyemezsiniz.
Elvis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.