Gary King'in çalışması, özellikle de "Ekolojik Çıkarım Sorununa Bir Çözüm" (ilk iki bölüm burada mevcuttur ) adlı kitabının (yanı sıra ekolojik çıkarım için kullandığı yazılımın) ilgisini çekecektir. King kitabında, daha düşük seviyeli gruplamaların mevcut toplam verilere dayanarak oluşturduğu potansiyel sınırları inceleyerek, toplam verileri kullanarak regresyon modellerinin tahminlerinin nasıl iyileştirilebileceğini göstermektedir. Verilerinizin çoğunlukla kategorik gruplamalar olması, onları bu tekniğe uygun hale getirir. (Her ne kadar kandırılmasanız da, başlık verildiğinde umduğunuz kadar çok amaçlı bir çözüm değildir!) Daha fazla güncel çalışma var, ancak King'in kitabı IMO'ya başlamak için en iyi yer.
Başka bir olasılık, sadece verilerin kendisinin potansiyel sınırlarını temsil etmek olacaktır (haritalarda veya grafiklerde). Örneğin, cinsiyet dağılımının toplam düzeyde (örneğin 5.000 erkek ve 5.000 kadın) bildirildiğini ve bu toplam seviyenin 9.000 ve 1.000 kişilik 2 farklı küçük alan birimini kapsadığını biliyorsunuz. Daha sonra bunu formun beklenmedik durum tablosu olarak gösterebilirsiniz;
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
Daha düşük düzeydeki toplamalar için hücrelerdeki bilgilere sahip olmasanız da, marjinal toplamlardan her hücre için minimum veya maksimum potansiyel değerleri oluşturabiliriz. Bu nedenle, bu örnekte Men X Unit1
hücre sadece 4.000 ile 5.000 arasındaki değerleri alabilir (Her zaman marjinal dağılımlar, hücrelerin alacağı olası değerlerin aralığı ne kadar küçük olursa, daha düzensizdir). Görünüşe göre tablonun sınırlarını elde etmek beklediğimden daha zor ( Dobra ve Fienberg, 2000 ), ancak R'dekieiPack
kütüphanede bir fonksiyonun mevcut olduğu anlaşılıyor ( Lau ve ark., 2007, s. 43 ).
Toplam düzey verileri ile çok değişkenli analiz zordur, çünkü bu tür verilerle toplama eğilimi kaçınılmaz olarak gerçekleşir. (Özetle, sadece bir çok farklı bireysel düzey veri üretme sürecinin toplam düzey ilişkilendirmeleriyle sonuçlanabileceği için toplama yanlılığını tanımlayacağım.) Amerikan Sosyolojik İncelemesinde bir dizi makale 1970'lerde konular için en sevdiğim referanslardan bazıları (Firebaugh, 1978; Hammond, 1973; Hannan ve Burstein, 1974), ancak konuyla ilgili kanonik kaynaklar olabilir (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Çok değişkenli analiz yürütmek için toplu verilerin sınırlamalarına gerçekten bağlı olmanıza rağmen, verilerin alabileceği potansiyel sınırları temsil etmenin potansiyel olarak teşvik edici olabileceğini düşünüyorum. Bu sosyal bilimlerde kimsenin bunu yapmasını engellemez (daha iyi veya daha kötü için!)
(Charlie'nin yorumlarda söylediği gibi), King'in "çözümünün" adil bir eleştiri aldığını unutmayın (Anselin ve Cho, 2002; Freedman ve ark., 1998). Bu eleştiriler King'in yönteminin matematiği hakkında söylenmemesine rağmen, King'in yönteminin hala toplanma yanlılığını açıklayamadığı durumlar hakkında daha fazla (ve verilerin Freedman ve Anselin ile sosyal bilimler hala Kral'ın varsayımlarını karşılayanlardan çok daha yaygındır. Kısmen sınırları incelememizi (bununla ilgili yanlış bir şey yok) kısmen de budur, ancak bu tür verilerden bireysel düzey korelasyonları hakkında çıkarımlarda bulunmak, çoğu durumda nihayetinde haksız olan çok daha fazla inanç sıçraması gerektirir.
Atıflar
- Anselin, L. ve WKT Cho (2002). Mekansal etkiler ve ekolojik çıkarım. Siyasi Analiz 10 (3): 276-297.
- Dobra A. & SE Fienberg (2000). Beklenmedik tablolardaki hücre girişleri için sınırlar, marjinal toplamlar ve ayrıştırılabilir grafikler verildi. Ulusal Bilimler Akademisi Bildirileri 97 (22): 11885-11892
- Firebaugh, G. (1978). Toplu verilerden bireysel ilişkileri çıkarmak için bir kural. Amerikan Sosyolojik İncelemesi 43 (4): 557-572
- Fotheringham, AS & DW Wong (1991). Çok değişkenli istatistiksel analizde değiştirilebilir alan birimi problemi. Çevre ve Planlama A 23 (7): 1025-1044
- Freedman, DA, SP Klein, M. Ostland ve MR Roberts (1998). İncelenen Çalışmalar: G. King tarafından Ekolojik Çıkarım Sorununa Bir Çözüm. Amerikan İstatistik Kurumu Dergisi 93 (444): 1518-1522. (PDF burada )
- Hammond, JL (1973) Ekolojik korelasyonlarda iki hata kaynağı. Amerikan Sosyolojik İncelemesi 38 (6): 764-777
- Hannan, MT ve L. Burstein (1974). Gruplandırılmış gözlemlerden tahmin. Amerikan Sosyolojik İncelemesi 39 (3): 374-392
- King G. (1997). Ekolojik Çıkarım Problemine Bir Çözüm: Toplu Verilerden Bireysel Davranışın Yeniden Oluşturulması . Princeton: Princeton Üniversitesi Yayınları.
- Lau O., RT Moore ve M. Kellerman (2007). eiPack: RXC Ekolojik Çıkarım ve Yüksek Boyutlu Veri Yönetimi. R Haberleri 7 (2): 43-47
- Oppenshaw, S. (1984). Değiştirilebilir Alan Birimi Sorunu . Norwich: Coğrafi Kitaplar. ( PDF burada )
- Robinson, WS (1950). Ekolojik korelasyonlar ve bireylerin davranışları. Amerikan Sosyolojik İncelemesi 15 (3): 351-357. ( PDF burada )