Varyans bölümleme ve ikili verilerle korelasyonda boyuna değişiklikler


14

175 okulda 300.000 öğrenciye ait lojistik doğrusal karışık efektler modeliyle (rastgele kesişmeler) veri analiz ediyorum. Her öğrenci tam olarak bir kez oluşur ve veriler 6 yıla yayılır.

  1. Sürekli sonuçlar için VPC / ICC'ye benzer şekilde okul ve öğrenci seviyeleri arasındaki varyansı nasıl bölebilirim? A ve B'nin bana ilginç geldiği 4 yöntem öneren bu makaleyi gördüm , ancak bunlardan birini kullanmanın ne gibi avantajları / dezavantajları olabileceğini ve tabii ki başka yollar varsa bilmek istiyorum. o.

  2. Okul düzeyinde artık varyansı yıldan yıla (veya başka bir zaman diliminde) nasıl karşılaştırabilirim? Şimdiye kadar verileri yıllara bölerek ve modeli her yıl veriye göre çalıştırarak yaptım, ancak bunun kusurlu olduğunu düşünüyorum çünkü: i) yıla göre ayrılmamın açık bir nedeni yok ; ve ii) sabit etki tahminleri her yıl için farklı olduğundan, rastgele etkileri her yıl karşılaştırmak mantıklı olmayabilir (bu sadece sezgimdir, eğer birisi doğru ise, bunu daha resmi olarak açıklayabilirse harika olurdu).

NOT: Bu soruyu whuber ve Macro ile meta tartışmadan sonra tekrar yazdım


3
Bence bu büyük bir gelişme. Soru şimdi çok açık. Şu anda iyi organize edilmiş bir yanıt vermek için zamanım yok ama daha sonra bir cevap göndereceğim.
Makro

3
Lojistik karma efekt modelleri lise için son derece gelişmiş bir konu gibi görünüyor. Lise müfredatınızın bir parçası mı yoksa bağımsız olarak mı çalışıyorsunuz?
mark999

4
@ mark999 Bağımsız çalışıyorum. Aslında "bunu anlamanın bir yolu yok" diyen kardeşimi yanlış kanıtlamaya çalışıyorum . İstatistiklerinde bir derece yapıyor, bu yüzden tüm kitaplarına vb.
Joe King

Yanıtlar:


15

Let öğrencinin tepkisi ve belirleyicisi vektörü (sırasıyla) belirtmek okul içinde .yij,xijij

(1) İkili veriler için, sürekli veriler için yapılanlara benzer varyans ayrışmaları yapmanın standart yolunun, yazarların bağlantınızda Yöntem D (aşağıdaki diğer yöntemlere yorum yapacağım) dediği şey olduğunu düşünüyorum - ikili verileri öngörmek doğrusal bir model tarafından yönetilen ve bu gizli ölçekte varyansı ayrıştıran altta yatan bir sürekli değişkenden kaynaklanır. Bunun nedeni, lojistik modellerin (ve diğer GLM'lerin) doğal olarak bu şekilde ortaya çıkmasıdır.

Bunu görmek için, doğrusal karma bir model tarafından yönetilecek şekilde tanımlayın :yij

yij=α+xijβ+ηj+εij

burada regresyon katsayılarıdır, okul seviyesi rasgele etkisidir ve artık varyans terimidir ve standart lojistik dağılımı vardır . Şimdi izin verα,βηjN(0,σ2)εij

yij={1if   yij00if   yij<0

let basitçe Elimizdeki lojistik CDF'yi kullanarak, şimdipij=P(yij=1|xij,ηj)

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

Şimdi her iki tarafın logit dönüşümünü alıp

log(pij1pij)=α+xijβ+ηj

tam da lojistik karma efektler modelidir. Dolayısıyla, lojistik model yukarıda belirtilen gizli değişken modeline eşdeğerdir. Önemli bir not:

  • ölçeği tanımlanmamıştır, çünkü eğer ölçeği küçültmeniz gerekiyorsa , sabit bir , yukarıdakileri basitçeεijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

        Bu nedenle katsayılar ve rasgele etkiler basitçe ilgili tutar kadar ölçeklendirilir . Bu nedenle, anlamına gelen kullanılır .
      s=1var(εij)=π2/3

Şimdi, bu modeli ve sonra miktarı kullanırsanız

σ^η2σ^η2+π2/3

alttaki latent değişkenlerin sınıf içi korelasyonunu tahmin eder . Bir başka önemli not:

  • Eğer olarak belirtilmişse, bunun yerine, bir standart normal dağılıma sahip, o zaman karma etkiler var modelini probit . Bu durumda rastgele seçilen iki öğrenci arasındaki tetrasik korelasyonu tahmin eder altta yatan sürekli veriler normal olarak dağıtıldığında Pearson tarafından (1900 civarında olduğunu düşünüyorum) istatistiksel olarak tanımlandığı gösterilen aynı okulda (bu çalışma aslında bu korelasyonların ikili durumun ötesinde, bu korelasyonların bulunduğu çoklu kategori vakasına tanımlandığını göstermiştir. polikrik korelasyonlar olarak adlandırılır ).εij
    σ^η2σ^η2+1
    Bu nedenle, birincil ilgi ikili verilerin (tetrashorik) sınıf içi korelasyonunu tahmin ederken bir probit modelinin kullanılması tercih edilebilir (ve benim tavsiyem olacaktır).

Bağladığınız makalede belirtilen diğer yöntemlerle ilgili olarak:

  • (A) Doğrusallaştırma yöntemini hiç görmedim, ancak görebildiğim bir dezavantaj, bunun meydana geldiği yaklaşıklama hatası belirtisi olmaması. Buna ek olarak, eğer modeli doğrusal hale getirecekseniz (potansiyel olarak kaba bir yaklaşımla), neden ilk etapta sadece doğrusal bir model kullanmıyorsunuz (örneğin bir dakika içinde alacağım seçenek (C) )? ICC bağlı olacağından, sunmak da daha karmaşık olacaktır .xij

  • (B) Simülasyon yöntemi, bir istatistikçiye sezgisel olarak çekici geliyor çünkü size verilerin orijinal ölçeğinde tahmini bir varyans ayrışması sunacak, ancak izleyiciye bağlı olarak, (i) bunu "yöntemlerinizde" tanımlamak karmaşık olabilir ve (ii) "daha standart" bir şey arayan bir hakemi kapatabilir

  • (C) Verilerin sürekli olduğunu iddia etmek muhtemelen iyi bir fikir değildir, ancak olasılıkların çoğu 0 veya 1'e çok yakın değilse çok kötü performans göstermez. Ancak, bunu yapmak bir incelemeye neredeyse kesinlikle kırmızı bir bayrak getirecektir. o yüzden uzak dururum.

Sonunda,

(2) Sabit etkiler yıllar boyunca çok farklıysa, yıllar boyunca rastgele etki varyanslarını karşılaştırmanın zor olabileceğini düşünmeye hak kazanırsınız, çünkü potansiyel olarak farklı ölçeklerde bulunurlar (bu, tanımlanamazlık ile ilgilidir) yukarıda belirtilen ölçeklendirme sorununun).

Sabit efektleri zaman içinde tutmak istiyorsanız (ancak, zaman içinde çok değiştiğini görürseniz, bunu yapmak istemeyebilirsiniz), ancak rastgele efekt varyansındaki değişikliğe bakın, rastgele bir etki kullanarak bu efekti keşfedebilirsiniz. eğimler ve kukla değişkenler. Örneğin, ICC'lerin farklı yıllarda farklı olup olmadığını görmek istiyorsanız , gözlem ve 0 yılında yapılmışsa izin ve daha sonra doğrusal öngörücünüzüIk=1k

α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6

bu size her yıl farklı bir ICC verecektir ancak aynı sabit etkiler olacaktır. Zaman içinde rastgele bir eğim kullanmak cazip olabilir, bu da lineer kestiricinizi yapar

α+xijβ+η1+η2t

ancak bunu önermiyorum, çünkü bu sadece derneklerinizin zaman içinde artmasına izin verir , azalmaz .


Bana diyor bu varyans bölümleme teknikle ilgili bağlantılı makalesinde noktayı ele almak Yorumunuzu verecekti Lütfen (0, 1) tepkisi, diyelim ki, altta yatan bir sürekliliğinin kesikleri gibi türetilmiştir Bu yaklaşım makul olabilir" sürekli bir puan ölçeğine dayalı bir başarılı / başarısız yanıtı, ancak yanıtın ölüm ve oylama gibi gerçekten ayrık olduğu durumlarda daha az gerekçesi var gibi görünmektedir " . Benim durumumda, ikinci kategoriye giren zorbalık insidansı ile uğraşıyorum, sanırım ...
Joe King

@JoeKing, lojistik / probit (ve benzeri) regresyon modellerinin zaten verinin temel bir süreklilikten üretildiğini varsaydığını söyleyebilirim, çünkü model buna eşdeğer olduğu gösterilebilir. Bu nedenle, bir kişi bile bu modelleri kullanıyorsa, o zaman bu varsayımı savunulabilir bulmalılar :)
Macro

1
@JoeKing, eğer bu cevabı düşünün kesin :) kabul düşünün lütfen
Makro

Gerçekten yapacağım. Şu anda birkaç noktadan biraz emin değilim ve birazcık okumak için biraz zamanım (birkaç gün) geçtikten sonra size geri dönmek ve verilere biraz daha bakmak istiyorum, eğer sakıncası yoksa?
Joe King

@JoeKing Tabii ki - bazı yeni üyeler farkında değil, bu yüzden bunu işaret edeceğini düşündüm - bu size hiç baskı yapmak değildi
Macro
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.