Çok seviyeli model ve her seviye için ayrı modeller


10

Çok seviyeli modellemeye karşı ayrı model çalıştırmanın avantajları ve dezavantajları nelerdir?

Daha özel olarak, bir çalışmanın, ülkedeki doktor uygulamalarında yuvalanmış hastaları incelediğini varsayalım. Üç seviyeli iç içe bir modele kıyasla her ülke için ayrı modeller çalıştırmanın avantajları / dezavantajları nelerdir?


2
3 seviyeli bir modelde tarafsız parametre tahminleri alacaksanız, teknik olarak biraz seviye 3 birime ihtiyacınız vardır (genel olarak konuşursak, herhangi bir çok seviyeli modeldeki örnek boyutu en üst düzeyde özellikle önemlidir). Büyük bir rastgele örnek ülke (belki de 50+), muhtemelen ayrı 2 seviyeli modeller çalıştırmayı düşünmelisiniz veya az sayıda ülkeniz varsa, ülkeyi 2 seviyeli bir modelde kategorik bir seviye 2 öngörücüsü olarak ele alabilirsiniz
Patrick Coulombe

Merhaba @gung Ben uzaktaydım, şimdi onlara bakacağım.
Peter Flom

Yanıtlar:


6

Soru tarihli ama bence çok önemli. Alabileceğim en iyi cevap Joop J Hox (2010) "Çok Düzeyli Analiz Teknikleri ve Uygulamaları, İkinci Baskı" kitabından.

İki seviyeli hiyerarşik bir veri varsayalım en düşük seviyede açıklayıcı değişkenler ve en üst düzeyde açıklayıcı değişkenler. Sonra 55. sayfada şöyle yazar:qpq

Aynı veriler için sıradan bir tek seviyeli regresyon modeli sadece kesişme, bir hata varyansı ve p + q regresyon eğimlerini tahmin edecektir. Verilerin gruplar halinde kümelendiğini düşünürsek, çok düzeyli regresyon modelinin üstünlüğü açıktır. 100 grubumuz varsa, her grupta sıradan bir çoklu regresyon modelinin ayrı ayrı hesaplanması için 100 × (1 regresyon kesişim + 1 rezidüel varyans + p regresyon eğimi) artı q grup seviyesi değişkenleri ile olası etkileşimler tahmin edilmelidir. Çok düzeyli regresyon, ortalama bir kesişim artı gruplar arasında kalan varyansını tahmin ederek 100 kesişim tahmini yerine geçer ve bu artıklar için normal bir dağılım varsayar. Böylece, çok düzeyli regresyon analizi, iki parametreyi (kesişimlerin ortalaması ve varyansı) artı bir normallik varsayımını tahmin ederek 100 ayrı kesişim tahmininin yerini alır. Aynı basitleştirme, regresyon eğimleri için de kullanılır. Açıklayıcı değişken öğrenci cinsiyeti için 100 eğim tahmin etmek yerine, ortalama eğimi gruplar arasındaki varyansıyla birlikte tahmin ediyoruz ve eğimlerin dağılımının normal olduğunu varsayıyoruz. Bununla birlikte, az sayıda açıklayıcı değişkenle bile, çok düzeyli regresyon analizi karmaşık bir model anlamına gelir. Genel olarak, tam modeli tahmin etmek istemiyoruz, çünkü öncelikle bu bizi hesaplama problemlerine sokuyor, aynı zamanda böyle karmaşık bir modeli yorumlamak çok zor.

Açıklama için bu. Şimdi 29-30. Sayfalar sorunuza daha doğru cevap verecektir.

100 sınıf için tahmin edilen kesişmeler ve eğimler, standart sıradan en küçük kareler (OLS) tekniklerini kullanarak 100 sınıfın her birinde 100 ayrı sıradan regresyon analizi yapsaydık elde edeceğimiz değerlerle aynı değildir. 100 ayrı OLS regresyon analizinden sonuçları çok seviyeli regresyon analizinden elde edilen değerlerle karşılaştıracak olsaydık, ayrı analizlerden elde edilen sonuçların daha değişken olduğunu bulurduk. Bunun nedeni, 100 sınıfın regresyon katsayılarının çok düzeyli tahminlerinin ağırlıklı olmasıdır. Bunlar Ampirik Bayes (EB) veya büzülme tahminleri olarak adlandırılır: her sınıftaki belirli OLS tahmininin ağırlıklı ortalaması ve tüm benzer sınıflar için tahmin edilen genel regresyon katsayısı.

Sonuç olarak, regresyon katsayıları tüm veri seti için ortalama katsayıya doğru küçülür. Büzülme ağırlığı, tahmin edilen katsayının güvenilirliğine bağlıdır. Küçük doğrulukla tahmin edilen katsayılar, çok doğru tahmin edilen katsayılardan daha fazla küçülür. Tahmin doğruluğu iki faktöre bağlıdır: grup örneklem büyüklüğü ve grup tabanlı tahmin ile genel tahmin arasındaki mesafe. Küçük gruplar için tahminler daha az güvenilirdir ve büyük gruplar için tahminlerden daha fazla küçülür. Diğer şeyler eşit olduğunda, genel tahminden çok uzak olan tahminlerin daha az güvenilir olduğu varsayılır ve genel ortalamaya yakın tahminlerden daha fazla küçülürler. Kullanılan istatistiksel yönteme ampirik Bayes kestirimi denir. Bu büzülme etkisi nedeniyle, ampirik Bayes tahmincileri önyargılıdır. Bununla birlikte, genellikle daha kesindirler, genellikle tarafsız olmaktan daha yararlı olan bir özelliktir (bakınız Kendall, 1959).

Umarım tatmin edicidir.


2

Rasgele bir etki belirtmek, bu seviyelerin ortalamalarının normal bir dağılımdan örnekler olduğunu varsaymayı içerir. Bunları sabit etkiler olarak belirtmek daha iyidir, eğer bu varsayım verilerinize uymuyorsa AKA kukla değişkenleri. Bu şekilde, ortalamada (o seviyede) grupsal heterojenliği kontrol edersiniz, ancak alt düzey değişkenlerinize yanıtlarda heterojenliğe izin vermezsiniz.

Alt düzey açıklayıcı değişkenlerinize yanıt olarak heterojenite bekliyorsanız, bir çeşit rastgele katsayı modeli çalıştırmak istemiyorsanız (yine katsayıların normal olarak dağıtıldığı varsayımını içerir) ayrı modeller mantıklıdır.

(Normal olmayan rastgele efektler için yöntemler olduğuna inanıyorum, ancak lme kadar yaygın olarak kullanılan veya erişilebilir bir şey yok)


1

Avantajı: Parametrelerdeki farklılıkları küme ile açık bir şekilde test etme yeteneği (yani önemdeki farklılıklar önemli farklılıklar anlamına gelmez).


2
Bu cevap çok kısa. Bir cevaptan çok bir yorum.
Eric Peterson
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.