Amerikan Topluluğu Araştırması çeşitlilik verilerinin yeniden ağırlıklandırılması, hata paylarını nasıl etkiler?


10

Arka plan: Kuruluşum şu anda işgücü çeşitliliği istatistiklerini (örn.% Engelli kişiler,% kadın, gazi yüzdesi) Amerikan Topluluğu Araştırması'na (ABD Nüfus Sayım Bürosu tarafından yürütülen bir anket projesi) dayanan bu grupların toplam işgücü mevcudiyeti ile karşılaştırmaktadır. Bu yanlış bir ölçüttür, çünkü bir bütün olarak işgücünden farklı demografik özelliklere sahip çok özel bir iş grubumuz var. Örneğin, kuruluşumun çoğunlukla mühendis olduğunu söyleyin. Mühendislik, eyaletimdeki kadınların sadece% 20'sidir. Kendimizi% 50 kadına benzeyen toplam işgücü kıyaslamasıyla karşılaştırırsak, “sadece% 20 kadınımız var, bu bir felaket!” Gerçekten,% 20 beklediğimiz şeydir çünkü işgücü ortamının görünüşü budur.

Amacım: Yapmak istediğim şey, Amerikan Topluluğu Araştırması meslek verilerini (çeşitlilik kategorisine göre) almak ve işimdeki işlerin bileşimine göre yeniden ağırlıklandırmak. İşte Sosyal Hizmet ve Toplum Hizmeti çalışanları için örnek bir veri kümesi . Birlikte listelenen bu iş kodlarını eklemek istiyorum (çünkü yaya geçidimiz belirli iş kodlarına değil, iş gruplarına yöneliktir), o zaman bu kategoriyi, bu kategorideki insan sayısına (örneğin 3.000 Sosyal ve Topluluk Hizmeti çalışanları), aynı şeyi diğer tüm iş gruplarına yapmak, bu sayıları bir araya getirmek ve toplam işçi sayımıza bölmek istiyorum. Bu bana yeni bir yeniden ağırlıklandırılmış çeşitlilik ölçüsü verecektir (örneğin,% 6'sı engelli kişilerden% 2'si engelli kişilere).

Sorularım: Bu son toplanan karşılaştırmaya nasıl hata payları ekleyebilirim? Ham sayım veri setim yok (açıkçası), ancak tablonun üst kısmındaki "Tahmin" alanını "Hata Marjı" olarak değiştirerek sağladığım bağlantıdaki her sayı için hata paylarını görüntüleyebilirsiniz. Bu verilerle çalışan diğer iş arkadaşlarım, hata paylarını tamamen görmezden gelmeyi amaçlıyorlar, ancak kendimiz için istatistiksel olarak anlamsız bir ölçüt oluşturduğumuzdan endişeliyim. Bu veriler yukarıda açıklanan manipülasyondan sonra bile hala kullanılabilir mi?


3
ACS'yi yeniden gözden geçirmeyin - hassas, son derece sofistike bir üründür ve tüm saygımla, Sayım Bürosu'nun kolektif olduğu kadar iyi bir istatistikçi olduğunuzu düşünmüyorum. Ülke çapında karşılaştırmalar için ACS veya CPS'deki görevinizle tutarlı iş tanımları alabiliyorsanız , elmalar-elmalar karşılaştırması, işletmenizin makul çeşitlilik olarak davranması için ACS'ye dayalı olarak beklenen "çeşitlilik" kategorilerini hesaplamak olacaktır. hedefler.
StasK

2
Stas, sana katılıyorum, ama aşağıda belirttiğim gibi, bu aslında ACS'nin bir yeniden ağırlığı değil.
Steve Samuels

Anket istatistiklerinde, "yeniden ağırlıklandırma" orijinal anket ağırlıklarının dönüşümü anlamına gelir . Bunun bir örneği tabakalaşma sonrası, örnek tırmıklama veya kalibrasyon olabilir, böylelikle yeniden ağırlıklandırılmış örnek için bazı marjinal dağılımlar, örneğin nüfus sayımı veya ACS'den harici olarak bilinen dağılımlarla eşleşir. Danica'nın bahsettiği prosedür ACS ağırlıklarına dokunmuyor.
Steve Samuels

Yardımcı olabilecek şey, bilmek istediğiniz sonlu nüfus miktarını yazmaktır. ACS'nin tekrar ağırlıkları da var mı? Bunlar varyans tahminine yardımcı olabilir.
probabilityislogic

Yanıtlar:


8

2014-01-15 Güncellemesi

Dolaylı olarak ayarlanan devre dışı bırakılmış oran için hata payının ACS'de aynı oran için hata payından daha büyük veya daha küçük olup olmayacağına dair Danica'nın orijinal sorusunu yanıtlamadığımı fark ettim. Cevap: eğer şirket kategori oranları devlet ACS oranlarından büyük ölçüde farklı değilse, aşağıda verilen hata payı ACS hata payından daha küçük olacaktır. Nedeni: dolaylı oran, kuruluş iş kategorisi kişi sayılarını (veya göreli oranlarını) sabit sayılar olarak kabul eder. ACS'nin devre dışı bırakılan oran tahmini, aslında, bu oranların bir tahminini gerektirir ve hata payları bunu yansıtmak için artacaktır.

Açıklamak için, devre dışı bırakılan oranı şu şekilde yazın:

P^adj=ninpi^

p^ii

Öte yandan, ACS tahmini oranı aslında:

P^acs=(NiN)^pi^

NiNNi/Ni

Ni/Npi

SE(P^adj)>SE(P^acs)N1/N=0.7345N2/N=0.2655SE(P^acs)=0.0677

n1/nn2/nSE(P^adj)=0.0375n1/n=0.15n2/n=0.85SE(P^adj)=0.0678SE(P^acs)n1/n=0.001n2/n=0.999SE(P^adj)=0.079

2014-01-14 Güncellemesi

Kısa cevap

Benim düşünceme göre, böyle bir istatistiği CI veya hata payı olmadan (yarım CI uzunluğu) sunmak sorumsuz olacaktır. Bunları hesaplamak için ACS Genel Kullanım Mikro Veri Örneği'ni (PUMS) indirmeniz ve analiz etmeniz gerekir ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ).

Uzun cevap

Bu gerçekten ACS'nin yeniden ağırlığı değil. Dolaylı standardizasyonun bir versiyonudur, epidemiyolojide standart bir prosedürdür (google veya herhangi bir epi metnine bakın). Bu durumda, devlet ACS işi (kategori) özürlülük oranları, kuruluş işi kategorisi çalışan sayılarına göre ağırlıklandırılır. Bu, kuruluşta E, gözlemlenen sayı ile karşılaştırılabilecek beklenen sayıda engelli kişiyi hesaplayacaktır O. Karşılaştırma için normal metrik standartlaştırılmış bir orandır R= (O/E). ("Standartlaştırılmış ölüm oranı" için olağan terim "SMR" dir, ancak burada "sonuç" sakatlıktır.). RAyrıca gözlemlenen sakatlık oranının oranıdır (O/n)ve dolaylı olarak standardize oran (E/n), nkurum çalışanları sayısıdır.

Bu durumda, sadece bir CI için Eveya E/ngerekli olacak gibi görünüyor , bu yüzden bununla başlayacağım:

Eğer

 n_i = the organization employee count in job category i

 p_i = disability rate for job category i in the ACS

Sonra

 E = sum (n_i p_i)

Varyansı E:

 var(E) = nn' V nn

burada nnorganizasyon kategorisinin sütun vektörü sayılır ve VACS kategorisi engellilik oranlarının tahmini varyans-kovaryans matrisidir.

Ayrıca, önemsiz se(E) = sqrt(var(E))ve se(E/n) = se(E)/n.

ve E için% 90 CI

  E ± 1.645 SE(E)

Bölün niçin CI almak için E/n.

Tahmin var(E)etmek için ACS Genel Kullanım Mikro Veri Örneği (PUMS) verilerini ( http://www.census.gov/acs/www/data_documentation/public_use_microdata_sample/ ) indirmeniz ve analiz etmeniz gerekir .

Sadece var(E)Stata'da bilgi işlem sürecinden söz edebilirim . Bunun sizin için uygun olup olmadığını bilmediğim için ayrıntıları erteleyeceğim. Bununla birlikte, R veya (muhtemelen) SAS'ın anket yetenekleri hakkında bilgi sahibi olan biri de yukarıdaki denklemlerden kod sağlayabilir.

Oran için Güven Aralığı R

İçin güven aralıkları Rgenellikle bir Poisson varsayımına dayanır O, ancak bu varsayım yanlış olabilir.

Düşünebilir Ove Ebağımsız olabiliriz, yani

 log R = log(O) - log(E) ->

 var(log R) = var(log O) + var(log(E))

var(log(E))hesaplandıktan sonra bir Stata adımı olarak hesaplanabilir var(E).

Poisson bağımsızlık varsayımı altında:

 var(log O) ~ 1/E(O).

Stata gibi bir program, örneğin, negatif bir binom modeline veya genelleştirilmiş doğrusal modele uyabilir ve size daha doğru bir varyans terimi verebilir.

İçin yaklaşık bir% 90 Cl log RIS

 log R ± 1.645 sqrt(var(log R))

ve uç noktalar CI'yi almak için katlanabilir R.


log(R)R

Bu bana bulaşmanın uygun olduğu bir durum gibi görünmüyordu, ama yanılmış olabilirim. Ne öneriyorsun?
Steve Samuels

Özgeçmişte bahsedilen bazı yöntemler arasında CI'nin güçlendirilmesi, delta yöntemi ve olasılık fonksiyonunun profili vardır.
whuber

Cevabınız için teşekkürler. PUMS verilerini R ile çekmek mümkün müdür? SAS'ım yok. Nüfus sayımı tarafından sağlanan DataFerret aracını kullanmadan önce PUMS verilerini aldım, ancak bana Excel'de kullanışlı bir şekilde manipüle edebileceğim bir şey verdiğinden emin değilim. Açıkçası R'yi yükleyebilirim, ancak bununla ilgili herhangi bir deneyimim yok.
DanicaE

1
Bir şey değil, Danica. Bu yanıt yardımcı olduysa, resmi olarak kabul etmek için lütfen onay işaretine basın. Cevabı güncellediğime dikkat edin. ACS hata paylarını, uygun olanların muhafazakar yedekleri olarak sunmanızı öneririm.
Steve Samuels

4

FWIW, ACS için ve burada PUMS'ye erişmek için iyi kaynaklar var ( http://www.asdfree.com/2012/12/analyze-american-community-survey-acs.html ).

Ayrıca, ACS verileriyle atipik şeyler yapmak için gerçekten yararlı bulduğum, doğal olarak ACS olarak adlandırılan CRAN üzerindeki ACS verilerini işlemek için bir paket var. Bu paket için iyi bir adım adımdır (maalesef belgeler süper sezgisel değildir) - http://dusp.mit.edu/sites/all/files/attachments/publication/working_with_acs_R.pdf


3

@ pricele2'nin cevabındaki http://asdfree.com bağlantısına ekleyerek .. bu sorunu ücretsiz yazılımla çözmek için aşağıdaki adımları izlemenizi tavsiye ederim:

(1) ( iki saatlik sıkı çalışma ) r dili ile tanışır. her biri iki dakika olan ilk 50 videoyu izleyin

http://twotorials.com/

(2) ( bir saatlik kolay talimat takibi ) monetdb'yi bilgisayarınıza yükleyin

http://www.asdfree.com/2013/03/column-store-r-or-how-i-learned-to-stop.html

(3) ( otuz dakika öğretim-takip + gece indirme ) acs pums bilgisayarınıza indirin. sadece ihtiyacınız olan yılları alın.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/download%20all%20microdata.R

(4) ( çalışmanızı dört saat öğrenme, programlama ve kontrol etme ), ihtiyacınız olan özelliklere göre yeniden kodlamanız gereken değişkenleri yeniden kodlayın

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20variable%20recode%20example.R

(5) ( iki saatlik gerçek analiz ) tam aradığınız komutu çalıştırın, standart hatayı yakalayın ve bir güven aralığı hesaplayın.

https://github.com/ajdamico/usgsd/blob/master/American%20Community%20Survey/2011%20single-year%20-%20analysis%20examples.R

(6) ( dört saatlik programlama ) bir oran tahmin edicisine ihtiyacınız varsa, burada oran tahmini örneğini (doğru anket ayarlı standart hatayla) izleyin:

https://github.com/ajdamico/usgsd/blob/master/Censo%20Demografico/variable%20recode%20example.R#L552


Teşekkürler, bunlar mükemmel kaynaklar. Bu bilgiyi arayan başka biri gelirse, kullandığım R öğreticileri datacamp.com ve coursera.org/course/rprog . Veri Kampı harika bir etkileşimli öğreticidir. Coursera kursu, şeyler için teori / yapı / isimler üzerinde daha ağırdır.
DanicaE
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.