Farklı örnek boyutlarına sahip grup ortalamalarına dayanan tahmin değişkenleriniz varsa ne yapabilirsiniz?


14

sonucunuz olan ve bunun bir dizi belirleyicisiyle nasıl ilişkili olduğu klasik bir veri analizi problemini düşünün . Burada akla gelen temel uygulama türü X, i 1 , . . . , X i pYiXi1,...,Xip

  1. Yi , kentindeki suç oranı gibi grup düzeyinde bir sonuçtur .i

  2. Tahmini, şehir demografik özellikleri gibi grup düzeyinde özelliklerdir .i

Temel amaç bir regresyon modeline uymaktır (belki rastgele etkilerle ama şimdilik bunu unutun):

E(Yi|Xi)=β0+β1Xi1+...+βpXip

Öngörücülerin biri (veya daha fazlası) her birim için farklı örnek boyutlarına sahip bir anketin sonucu olduğunda bazı teknik zorluklar ortaya çıkıyor mu? Örneğin, varsayalım kent için bir özet puanıdır şehirden bireylerin bir örnekten ortalama yanıttır ancak örnek bu ortalamalar dayanmaktadır boyutları çılgınca farklıdır: i iXi1ii

CitySample size120210033004553

Öngörücü değişkenlerin hepsi bir anlamda her şehir için aynı anlama sahip olmadığından, bu değişkenleri bir regresyon modelinde "eşit olarak yaratılmış" gibi koşullandırmanın bazı yanıltıcı çıkarımlara neden olabileceğinden korkuyorum.

Bu tür bir problem için bir isim var mı? Eğer öyleyse, bunun nasıl ele alınacağına dair araştırma var mı?

Benim düşüncem, bunu hata ile ölçülen bir öngörücü değişken olarak ele almak ve bu çizgiler boyunca bir şeyler yapmaktır, ancak ölçüm hatalarında heteroskedastisite vardır, bu yüzden çok karmaşık olacaktır. Bunu yanlış bir şekilde düşünüyor olabilirim veya bunu olduğundan daha karmaşık hale getirebilirdim, ancak buradaki herhangi bir tartışma yardımcı olacaktır.


8
Buna "değişken değişkenli heterossedastik hatalar" sorunu denir. (Bu tabir Google araması için iyi bir hedef.) Son zamanlarda (2007), Delaigle ve Meister bir de parametrik olmayan bir çekirdek yoğunluk kestirimi önerilmiştir JASA makalesinde . Bazı parametrik yöntemler hakkında bir özet (momentler ve MLE yöntemi) bazı ek yaklaşımlar önermektedir: sciencedirect.com/science/article/pii/S1572312709000045 . (Size belirli veri
kümenizi

1
Her iki yorum için @whuber +1. "Değişkenlerde hatalar" aradığım eksik anahtar kelime olduğunu düşünüyorum. Kimse aşağıda kabul edebileceğim güçlü bir cevap vermezse, o zaman literatüre bakacağım ve sonuç olarak cevap olarak ne yaparsam göndereceğim.
Makro

Yanıtlar:



0

Bununla başa çıkmanın bir yolu, her şehrin bireysel cevaplar için aynı varyans sahip olduğunu varsayalım . Daha sonra, her bir şehrin öngörücü için ortalama ölçümü , varyansına sahip olacaktır ; burada , şehir için ortalamada birey sayısıdır . Bu, heteroskedastisite ile başa çıkmanın basit bir yolu olacaktır. Regresyon sorununun bu formu için özel bir isim bilmiyorum.X i σ 2 / n i n i iσ2Xiσ2/ninii


Ölçüm hatasını hiç modellemekten kaçınmayı umuyordum, bu makul görünüyor. Eğer bu yöne gitseydim, hatayla ölçülen bir öngörücünün etkisini tahmin etmek için ne kullanırdınız? Ben SIMEX adlı bir yöntem kullandım ama bu nadir görünüyor ve başka seçenekler olup olmadığını merak ediyorum.
Makro

@Macro Tahmin etmek için bir varyans fonksiyonu ile regresyonu modellemek için belirli bir yazılıma aşina değilim.
Michael R. Chernick

3
Makro, homossedastik değişkenlerde regresyon hatalarında genel bir kural olarak, IV'lerde hatalar DV'deki hatalara kıyasla küçükse, ilkini göz ardı edebilir ve sıradan regresyona başvurabilirsiniz. Bu, sorunu tetiklemek için hızlı ve basit bir yol sağlar.
whuber

1
@whuber, teşekkürler - bu yararlı. Görünüşe göre, bu kural kural mantıklıysa, heteroskedastik durumda "IV'lerde en büyük hata varyansı DV'deki hata varyansına kıyasla küçükse, sorunu güvenle göz ardı edebilirsiniz" kullanmak mantıklı olacaktır. baktığım verilerde gerçekten tatmin olabilecek bir durum olan makul bir kural.
Makro

1
@Michael, ortalamamış ölçümün varyansına baktığım verilerde çok büyük değil. Kontrol etmek zorundayım ama diyelim ki , yani ortalamaların varyansı (varyansın üniteler arasında sabit olduğunu söylemek makul ise - kontrol etmem gereken başka bir şey) , veri örnek boyutları için arasında değişir . hata varyansı muhtemelen bir, belki bundan daha büyük iki büyüklük sırası olabilir (yine kontrol etmem gerekecek). 1 / n ( .05 , 1 ) Y iσ211/n(.05,1)Yi
Makro
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.