8000 küme ve 4 milyon gözlem içeren bir veri setim var. Ne yazık ki istatistiksel yazılımım Stata, lojistik regresyon için panel veri işlevini kullanırken oldukça yavaş çalışıyor: xtlogit
% 10 alt örnekle bile.
Ancak, panel dışı logit
işlevi kullanıldığında sonuçlar çok daha erken görünür. Bu nedenle logit
, sabit etkileri açıklayan değiştirilmiş verilerden yararlanabilirim .
Bu prosedürün "Mundlak sabit etkiler prosedürü" ile birleştirildiğine inanıyorum (Mundlak, Y. 1978. Zaman Serisi ve Kesit Verilerinin Birleştirilmesi. Econometrica, 46 (1), 69-85.)
Antonakis, J., Bendahan, S., Jacquart, P. ve Lalive, R. (2010) tarafından hazırlanan bir makalede bu prosedürün sezgisel bir açıklamasını buldum . Nedensel iddialarda bulunulması: Bir gözden geçirme ve öneriler. Üç Aylık Liderlik, 21 (6). 1086-1120. Alıntı yaparım:
Atlanan sabit etkiler sorununu aşmanın ve hala Düzey 2 değişkenlerini dahil etmenin bir yolu, tahmin edilen modele tüm Düzey 1 ortak değişkenlerinin küme araçlarını dahil etmektir (Mundlak, 1978). Küme araçları regresörler olarak dahil edilebilir veya Seviye 1 değişkeninden çıkarılabilir (yani, küme ortalaması merkezlemesi). Küme araçları küme içinde değişmezdir (ve kümeler arasında değişiklik gösterir) ve sanki sabit etkiler dahil edilmiş gibi Seviye 1 parametrelerinin tutarlı bir şekilde tahmin edilmesine izin verir (bakınız Rabe-Hesketh ve Skrondal, 2008).
Bu nedenle, kümelenme ortalamaları hesaplama problemimi çözmek için ideal ve pratik görünmektedir. Bununla birlikte, bu makaleler doğrusal regresyona (OLS) yönelik gibi görünmektedir.
Bu küme ortalaması merkezleme yöntemi, sabit etkiler ikili lojistik regresyonunu "çoğaltmak" için de uygulanabilir mi?
Aynı yanıtı vermesi gereken daha teknik bir soru şudur: xtlogit depvar indepvars, fe
veri logit depvar indepvars
kümesi B, veri kümesi A'nın küme ortalaması merkezli sürümü olduğunda, veri kümesi A ile veri kümesi B'ye eşit mi?
Bu küme-ortalama merkezlemesinde bulduğum ek bir zorluk, aptallarla nasıl başa çıkılacağıdır. Aptallar ya 0 ya da 1 olduğundan, rastgele ve sabit etkiler regresyonunda aynı mıdır? Bunlar "merkezlenmemeli" mi?