Büyük ölçekte% 1 mikro veri örneği ve küçük alan ölçeğinde toplu istatistikler kullanarak küçük alanlar için nüfus sayımı mikro verilerini nasıl simüle edebilirim?

Küçük coğrafi toplamalarda (Avustralya nüfus sayımı toplama bölgeleri) bireysel düzeyde çok değişkenli analiz yapmak istiyorum. Açıkçası, nüfus sayımı gizlilik nedenleriyle bu küçük toplama seviyelerinde mevcut değildir, bu yüzden diğer alternatifleri araştırıyorum. İlgilenilen hemen hemen tüm değişkenler kategoriktir. Elimde iki veri seti var:

% 1 nüfus sayımı örneği çok daha yüksek bir mekansal kümelenme seviyesinde mevcuttur (nüfusu ~ 190,000 olan bir alan ve geniş demografik demografik ayrışma).
Küçük alan düzeyinde ilgilendiğim değişkenler için frekans tabloları (500 küçük alan, ortalama pop = 385, sd = 319, medyan = 355).

Bu iki veri kümesini, küçük alanın gerçek nüfusuna mümkün olduğunca yakın olan küçük alan düzeyinde bir nüfus dağılımını simüle etmek için nasıl kullanabilirim?

Bunu yapmak için rutin yöntemler olabileceğini takdir ediyorum; eğer öyleyse, bir ders kitabına veya ilgili dergi makalelerine bir işaretçi çok takdir edilecektir.

— fmark
kaynak

muhtemelen ilişkili (benzer bir sorun yaşıyorum): stats.stackexchange.com/questions/14399/… Gibbs örneklemesi burada ihtiyaç duyulan şey olabilir.

— mzuba

Sorunuzu Amerikan İstatistik Kurumu'nun SRMSNET e-posta listesinde sormak isteyebilirsiniz. Avustralya'daysanız Ray Chambers'e yaklaşırdım - sanırım kimse SAE'yi Güney yarımkürede ondan daha iyi tanımaz :).

— StasK

Bu sorun "simetrik haritalama" ile yakından ilgilidir.

— whuber

@Whuber ile aynı fikirdeyim ve konu malzeme göz önüne alındığında dasimetrik haritalama fmark için ilgi çekici olabilir. Ne yazık ki, cevabımda bahsettiğim ekolojik çıkarım literatüründen büyük ölçüde ayrı (daha fazla literatürü daha fazla yığını istemiyorum!) Ne düşünüyorsun fmark?

— Andy W

Bazı simetrik haritalama teknikleri, verileri daha küçük alanlara enterpolasyon yapmaya çalışmak için yardımcı verileri kullanmaya başlamıştır. Ekolojik çıkarımın ve simetrik haritalamanın hedefleri biraz farklıdır (tahmin / tahmin ve çıkarım arasındaki farka benzer). Topladığım kaynaklar hakkında da ilgi çekici olacağını düşündüğüm başka bir yazı yazacağım. Ne yazık ki, bir sürü literatür belirtmekten çok daha yararlı tavsiyeler veremem. Bu popüler bir çağdaş konu ve umarım buna katkıda bulunabilirsiniz!

— Andy W

Yanıtlar:

Dasimetrik haritalama, nüfus tahminlerini şu anda yayılan verilerde mevcut olandan daha küçük alanlara enterpolasyona odaklanmıştır ( konuyla ilgili birçok yararlı referans için bu soruya bakın ). Sıklıkla bu, açık bir şekilde nüfusun bulunmadığı alanları (arazi özelliklerine dayalı olarak) tanımlamak ve daha sonra nüfus yoğunluklarını yeniden tahmin etmek (bu alanları atlamak) ile yapıldı. Bir şehirde bir su kütlesi varsa, bir başka örnek de konut nüfusu olmayan endüstriyel arazi parsellerini belirlerseniz olabilir. Simetrik haritalamaya yönelik daha yeni yaklaşımlar, nüfus tahminlerini tahsis etmek için olasılıksal bir çerçevede diğer yardımcı verileri içermektedir (Kyriakidis, 2004; Liu ve diğerleri, 2008; Lin ve diğerleri, 2011; Zhang ve Qiu, 2011).

Artık sorunuzla olan ilişkiyi elinizde görmek çok kolay. Küçük alanların nüfus tahminlerini istiyorsunuz. Ancak, hedeflerinize nasıl ulaşamayacağı da açık olmalıdır. Sadece nüfus verilerini değil, aynı zamanda bu popülasyonların özelliklerini de istersiniz. Bu durumu tanımlamak için kullanılan terimlerden biri destek sorununun değişmesidir (Cressie, 1996; Gotway ve Young, 2002). Nokta örneklerinden geniş bir alan üzerinde belirli bir karakteristiğin tahminlerini yapmaya çalıştığı jeoistatistik literatüründen ödünç alınan son çalışmalar, alansal verileri farklı hedef bölgelere enterpolasyon etmeye çalışmıştır. Pierre Goovaerts'in çalışmalarının çoğu, Coğrafi Analiz dergisinde yeni bir makale olan bu alandan noktaya kriging yöntemlerine odaklanmaktadır. farklı konu materyalleri uygulanan yöntemin birkaç örneğine sahiptir (Haining ve ark., 2010) ve benim en sevdiğim uygulamalarından biri bu makalede (Young ve ark., 2009) bulunmaktadır.

Ne alıntı olsa da sorun için her derde deva olarak görülmelidir. Sonuçta, ekolojik çıkarım ve toplama eğilimi ile aynı konuların birçoğu, alansal enterpolasyon hedefleri için de geçerlidir. Mikro düzeyde veriler arasındaki ilişkilerin çoğu, toplama sürecinde basitçe kaybolur ve bu enterpolasyon teknikleri bunları kurtaramaz. Ayrıca verinin ampirik olarak enterpolasyonu yapılan süreç (toplam seviye verilerinden variogramlar tahmin edilerek) genellikle süreci sorgulanabilir hale getirecek geçici adımlarla doludur (Goovaerts, 2008).

Ne yazık ki, bunu ekolojik çıkarsama literatürü ile eşyometrik haritalama ve alandan noktaya kriging hakkındaki literatür örtüşmediği için ayrı bir cevapta gönderiyorum. Her ne kadar ekolojik çıkarım hakkındaki literatürün bu teknikler üzerinde birçok etkisi vardır. İnterpolasyon teknikleri sadece toplanma yanlılığına maruz kalmaz, aynı zamanda akıllı dasymetrik tekniklerin (daha küçük alanları tahmin etmek için toplanan verileri modellere uydurmak için kullanan) büyük olasılıkla toplanma yanlılığından şüphelenir. Toplama yanlılığının meydana geldiği durumların bilgisi, alan enterpolasyonunun ve simetrik haritalamanın büyük ölçüde başarısız olacağı durumlara ilişkin aydınlatıcı olmalıdır (özellikle ayrıştırılmış düzeyde farklı değişkenler arasındaki korelasyonların tanımlanması açısından).

Atıflar

— Andy W
kaynak

Çağdaş edebiyatın yararlı başlangıç noktası için teşekkürler - Nüfus yoğunluğunu geri almaktan daha fazlasını yapan simetrik yöntemlerin farkında değildim, bu yüzden buna hevesle bakacağım.

— fmark

Gary King'in çalışması, özellikle de "Ekolojik Çıkarım Sorununa Bir Çözüm" (ilk iki bölüm burada mevcuttur ) adlı kitabının (yanı sıra ekolojik çıkarım için kullandığı yazılımın) ilgisini çekecektir. King kitabında, daha düşük seviyeli gruplamaların mevcut toplam verilere dayanarak oluşturduğu potansiyel sınırları inceleyerek, toplam verileri kullanarak regresyon modellerinin tahminlerinin nasıl iyileştirilebileceğini göstermektedir. Verilerinizin çoğunlukla kategorik gruplamalar olması, onları bu tekniğe uygun hale getirir. (Her ne kadar kandırılmasanız da, başlık verildiğinde umduğunuz kadar çok amaçlı bir çözüm değildir!) Daha fazla güncel çalışma var, ancak King'in kitabı IMO'ya başlamak için en iyi yer.

Başka bir olasılık, sadece verilerin kendisinin potansiyel sınırlarını temsil etmek olacaktır (haritalarda veya grafiklerde). Örneğin, cinsiyet dağılımının toplam düzeyde (örneğin 5.000 erkek ve 5.000 kadın) bildirildiğini ve bu toplam seviyenin 9.000 ve 1.000 kişilik 2 farklı küçük alan birimini kapsadığını biliyorsunuz. Daha sonra bunu formun beklenmedik durum tablosu olarak gösterebilirsiniz;

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000

Daha düşük düzeydeki toplamalar için hücrelerdeki bilgilere sahip olmasanız da, marjinal toplamlardan her hücre için minimum veya maksimum potansiyel değerleri oluşturabiliriz. Bu nedenle, bu örnekte Men X Unit1hücre sadece 4.000 ile 5.000 arasındaki değerleri alabilir (Her zaman marjinal dağılımlar, hücrelerin alacağı olası değerlerin aralığı ne kadar küçük olursa, daha düzensizdir). Görünüşe göre tablonun sınırlarını elde etmek beklediğimden daha zor ( Dobra ve Fienberg, 2000 ), ancak R'dekieiPack kütüphanede bir fonksiyonun mevcut olduğu anlaşılıyor ( Lau ve ark., 2007, s. 43 ).

Toplam düzey verileri ile çok değişkenli analiz zordur, çünkü bu tür verilerle toplama eğilimi kaçınılmaz olarak gerçekleşir. (Özetle, sadece bir çok farklı bireysel düzey veri üretme sürecinin toplam düzey ilişkilendirmeleriyle sonuçlanabileceği için toplama yanlılığını tanımlayacağım.) Amerikan Sosyolojik İncelemesinde bir dizi makale 1970'lerde konular için en sevdiğim referanslardan bazıları (Firebaugh, 1978; Hammond, 1973; Hannan ve Burstein, 1974), ancak konuyla ilgili kanonik kaynaklar olabilir (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Çok değişkenli analiz yürütmek için toplu verilerin sınırlamalarına gerçekten bağlı olmanıza rağmen, verilerin alabileceği potansiyel sınırları temsil etmenin potansiyel olarak teşvik edici olabileceğini düşünüyorum. Bu sosyal bilimlerde kimsenin bunu yapmasını engellemez (daha iyi veya daha kötü için!)

(Charlie'nin yorumlarda söylediği gibi), King'in "çözümünün" adil bir eleştiri aldığını unutmayın (Anselin ve Cho, 2002; Freedman ve ark., 1998). Bu eleştiriler King'in yönteminin matematiği hakkında söylenmemesine rağmen, King'in yönteminin hala toplanma yanlılığını açıklayamadığı durumlar hakkında daha fazla (ve verilerin Freedman ve Anselin ile sosyal bilimler hala Kral'ın varsayımlarını karşılayanlardan çok daha yaygındır. Kısmen sınırları incelememizi (bununla ilgili yanlış bir şey yok) kısmen de budur, ancak bu tür verilerden bireysel düzey korelasyonları hakkında çıkarımlarda bulunmak, çoğu durumda nihayetinde haksız olan çok daha fazla inanç sıçraması gerektirir.

Atıflar

— Andy W
kaynak

Diğerlerinin King'in ekolojik yanlışlık konusundaki yaklaşımını eleştirdiğini unutmayın; David Freedman dikkate değer bir örnektir. Freedman ve yardımcılarının King'in yukarıda belirtilen kitabına verdikleri cevap şudur: citeseerx.ist.psu.edu/viewdoc/… Elbette King'in bir yanıtı var ve Freedman ve ark. cevabın cevabına bir yanıt var ... Ne yapmaya çalıştığınızı ve hangi verilere sahip olduğunuzu tam olarak anlayamıyorum, ancak genellikle ekolojik çıkarım tipi analizlerden çok şüpheliyim.

— Charlie

Evet @Charlie Kabul ediyorum (ve özellikle Freedman'ın konuyu genel olarak ele almasından hoşlanıyorum). Bu, yazımın sonunda toplanma yanlılığıyla ilgili genel literatüre işaret etmemin nedeni. "Ne yapmaya çalıştığınızı ve hangi verilere sahip olduğunuzu tam olarak anlayamıyorum, ancak genel olarak ekolojik çıkarım tipi analizlerden çok şüpheliyim" ifadesiyle ne demek istediğinizden emin değilim. Kral ve Freedman hakkında her ikisi de veri paylaşmamaktan şikayetçi mi?

— Andy W

@Andy, Bu teknik, ekonomistlerin kısmen tanımlanmış dağıtımlar olarak bildikleriyle aynı mı ( springer.com/statistics/statistics+theory+and+methods/book/… )?

— StasK

@Andy, Hayır, belirsizlik için özür dilerim. Aslında OP ile konuşuyordum. Küçük alanda frekans tabloları varsa ve küçük alan düzeyinde istatistik almak istiyorsa, eksik olan ne? Gönderinizde önerdiğiniz gibi sadece kenar boşluklarına sahip olması gerekir, ancak hücre içeriğine sahip olmaması gerekir.

— Charlie

@StasK, bilmiyorum. King'in bu hafta ileride kitaba erişebileceğim Manski'ye atıfta bulunup bulunmadığını kontrol edeceğim. Özetde ekolojik çıkarımdan söz edildiğinde bazı örtüşmeler olması muhtemeldir. İkisi arasındaki ilişkiyi araştırmak için bir başka potansiyel (ücretsiz) kaynak, King'in "Ekolojik Çıkarımda Yeni Yöntemler" üzerinde düzenlediği okuyucu olabilir ( tamamen web sitesinde yayınlanmıştır )

— Andy W

Google aramasının temelde çok değişkenli küçük alan kestirimi hakkında üç kullanılabilir referans verdiği göz önüne alındığında, bunun için literatürde iyi tanımlanmış bir yanıt olduğundan emin değilim . Pfeffermann (2002) makalenin 4. bölümünde farklı yanıt değişkenlerini tartışmaktadır, ancak bunlar tek değişkenli modeller olacaktır. Tabii ki, hiyerarşik Bayesian yöntemleri ile ( Rao 2003, Bölüm 10 ), her türlü harikayı yapabilirsiniz, ancak sonunda kendinizi sadece önceliklerinizi çoğaltırsanız (çok az veriniz varsa), bu korkunç olurdu simülasyon egzersizinizin sonucu. Ayrıca Rao sadece sürekli değişkenleri tedavi eder.

Sanırım en büyük zorluk, kovaryans matrisinin küçük alan içindeki ve içindeki alanlara ayrılması olacaktır. % 1 örnekle, SAE'nizden sadece 3 gözleminiz olacaktır, bu nedenle iç bileşen hakkında istikrarlı bir tahmin elde etmek zor olabilir.

Ayakkabılarınızda olsaydım, Pfeffermann'ın modelinin küçük alanın çok değişkenli rastgele etkisi ile çok değişkenli bir uzantısını denerdim. Tasarım tabanlı hiçbir şey işe yaramazsa, bunun için hiyerarşik bir Bayes modeli ile sonuçlanabilir.

GÜNCELLEME (Andy'nin bu cevaba yaptığı yorumu ele almak için): küçük alan tahmini için önyükleme yöntemleri ( Lahiri 2003 ) özellikle çalışmadan makul bir popülasyonu yeniden oluşturur. Önyükleme alıştırmasının odağı, küçük alan tahminlerinin varyanslarını tahmin etmek olmakla birlikte, prosedürler ilgi konusu ve kaydedilen problemle ilgili olmalıdır.

— StasK
kaynak

Bir Google aramasına dayalı bir literatürün durumunu değerlendirmezdim. Küçük alan tahmininin yazarın bu örnekte aradığı şey olduğundan emin değilim. Anladığım kadarıyla, bu literatür ya küçük alanlardaki özelliklerin tahminlerini yapmaya ( Kriegler ve Berk, 2010 ) ya da toplam birim başına seyrek sayıda örneğe dayanan çok seviyeli modellerde parametreleri tahmin etmeye odaklanmıştır .

— Andy W

Küçük alan tahmininin yapmak istediğim şey olduğundan emin değilim. Anladığım kadarıyla, küçük alan tahmini, özet istatistikleri toplamak için küçük bir alandaki birkaç örnekten geçmeyi amaçlamaktadır. (Ben bir büyük alan nüfus dağılımı ve küçük alan toplu özet istatistikleri simüle edilmiş bir küçük alan nüfusa gitmek için) arıyorum. Lahiri 2003 burada iyi bir başlangıç noktası gibi görünüyor.

— fmark