Anket yanıtlarında sistematik hatayı hesaba katma ithalatı

Diğer şeylerin yanı sıra öğrencilere annelerinin eğitim seviyelerinin sorulduğu geniş bir anketim var. Bazıları atladı ve bazıları yanlış cevapladı. Bunu biliyorum, çünkü ilk yanıt verenlerin bir alt örneği daha sonra anneler ile görüşülmüş ve aynı soruyu sordular. (Eminim annelerin tepkileriyle ilgili daha küçük bir miktar hata vardır.)

Zorluğum, bu ikinci, daha güvenilir veri kaynağından en iyi şekilde nasıl yararlanacağına karar vermektir. En azından eksik verileri yalnızca tam vakalara güvenebileceğimden daha akıllıca ima etmek için kullanabilirim. Ancak, verileri çapraz kontrol edebildiğim, "Annem ilkokulu hiç bitirmedi" şeklinde cevap veren çocukların 3 / 4'ü annelerinin cevabıyla çelişiyorsa, oradaki belirsizliği yakalamak için birden fazla veri kümesi oluşturmak için itham kullanmalıyım gibi görünüyor. [ekledi: Bir noktaya değmek için 3/4 dedim, ama şimdi verileri kontrol ettiğim için, size% 40'a yakın olanın tutarsız olduğunu söyleyebilirim]

Ben şahsen annenin eğitimini karma bir modelde bir yordayıcı olarak kullanacağım, ancak herhangi birinin başka durumlar hakkında söyleyecek bir şeyi varsa, bunları da öğrenmek isterim.

Geniş darbelerde veya ayrıntılarda tavsiye almak isterim. Teşekkür ederim!

Güncelleme : Will ve Conjugate_Prior'ın yanıtlarını takdir etsem de şimdilik bu soruyu çözümsüz bırakıyorum, daha spesifik ve teknik geri bildirim umudunu veriyorum.

Aşağıdaki dağılım grafiği, her iki değişkenin de bulunduğu 10.000 vakada iki değişkenin nasıl ilişkili olduğu hakkında bir fikir verecektir. 100'den fazla okulda yuvalanmışlardır. Bunlar 0.78 ile ilişkilidir, Öğrenci Yanıtı - ortalama: 5.12 sd = 2.05, Annenin yanıtı, ortalama = 5.02, sd = 1.92 Öğrencilerin cevabı vakaların yaklaşık% 15'inde eksiktir.

resim açıklamasını buraya girin

data-imputation

— Michael Bishop
kaynak

Meraktan ötürü, "Annem ilkokulu hiç bitirmemiş" eğitim sorusuna ilk cevap seçeneği miydi? Eğer öyleyse, bu test katılımcıları için diğer test sonuçlarınızın doğruluğundan endişe duyarım.

— Michelle

"Okulda ne kadar ileri gitti?" - 1) Sekizinci sınıf veya daha az

— Michael Bishop

Muhtemelen her soruya ilk yanıt seçeneğini işaretleyen test katılımcılarından oluşan bir alt kümeniz var. Bunu kontrol edebilir misin?

— Michelle

Bu konu çok anlayışlı. Aslında bir grup çocuk sadece ilk cevabı işaretlediyse beklediğiniz gibi olmayan oldukça simetrik görünüyor. Eğer durum böyle olsaydı, vakalar alt sıra boyunca kümelenme eğilimi gösterirdi. Tabii ki 'görünüşlü' simetrik aslında bunu garanti etmiyor ama güzel bir başlangıç. Anne ve çocuk yanıtı arasında gözlemlediğiniz güçlü korelasyon da bununla tutarlıdır.

— Will

Ahh. Anlıyorum. Sonra da (birazdan fazla) mevcut verileri ima etmek konusunda isteksiz olurum ve bu tür bir argümana rağmen hiç yapılmamasını tavsiye ederim: gking.harvard.edu/gking/files/measure.pdf

— conjugateprior

Yanıtlar:

Dikkat edilmesi gereken ilk şey, değişkenlerinizin "öğrencinin annenin eğitimi hakkında söylediği şey" ve "öğrencinin annesi öğrencinin annesinin eğitimi hakkında ne söylediğidir" dir. Sırasıyla S ve M olarak adlandırın ve gözlemlenmeyen gerçek anne eğitimi düzeyini T olarak etiketleyin.

S ve M'nin her ikisi de eksik değerlere sahiptir ve M ve S'yi bir impütasyon modeline koymakla ilgili ancak yanlış bir şey yoktur (aşağıdaki gözlemde modüler), ancak bir sonraki analizde bunlardan sadece biri kullanılır. Diğer yol her zaman tavsiye edilemez.

Bu, diğer üç sorudan ayrıdır:

Eksik bir değer öğrencilerin anneleri hakkında çok şey bilmedikleri veya söylemek istemedikleri anlamına mı geliyor?
T hakkında bilgi edinmek için S ve M nasıl kullanılır?
Birden fazla impütasyonun çalışmasına izin verecek doğru eksikliğiniz var mı?

Cehalet ve eksiklik

T ile ilgileniyor olabilirsiniz, ancak aşağıdakilere ihtiyacınız yoktur: eğitimsel kazanım algıları (S ve muhtemelen M aracılığıyla) veya öğrenci bilgisi eksikliği T'nin kendisinden daha ilginç olabilir. İtme, birincisi için mantıklı bir yol olabilir, ancak ikincisi için olabilir veya olmayabilir. Sen karar vermelisin.

T hakkında bilgi edinme

Aslında T ile ilgilendiğinizi varsayalım. Altın standart ölçümün yokluğunda (bazen M'den şüphe duyduğunuzdan), T hakkında bilgi edinmek için keyfi olarak S ve M'yi nasıl birleştirebileceğinizi bilmek zordur. mevcut olduğunda M'yi doğru olarak tedavi etmeye istekli olduğunda, S'yi öğrencilerden başka bilgiler içeren bir sınıflandırma modelinde M'yi tahmin etmek için kullanabilir ve ardından son analizde S yerine M'yi kullanabilirsiniz. Buradaki endişe, eğitim aldığınız durumlarda seçim yanlılığıyla ilgilidir, bu da üçüncü soruna yol açar:

Missingness

Birden fazla imputasyonun işe yarayıp yaramayacağı, verilerin rastgele (MCAR) veya rastgele (MAR) eksik olmasına bağlıdır. S rastgele (MAR) eksik mi? Belki de hayır, çünkü öğrenciler annelerinin eğitim eksikliği hakkında cevap vermekten utanabilir ve soruyu atlayabilirler. Daha sonra, değer tek başına eksik olup olmayacağını belirler ve burada birden fazla itimat yardımcı olamaz. Şeyle düşük eğitim covaries Öte yandan, bir istedi ve kısmen anketinde Türkiye'nin gelir bazı göstergesi örneğin, daha sonra MAR daha makul ve Çoklu ikame olabilecek bir kavrama almak için bir şey vardır. M rastgele eksik mi? Aynı hususlar geçerlidir.

Son olarak, T'de ilginç olsanız ve bir sınıflandırma yaklaşımı alsanız bile, yine de bu modele uymak için emir almak istersiniz.

— conjugateprior
kaynak

"Çelişki oranının" tüm örnekleri için, anneleri sorgulanan alt örnek için aynı olduğunu varsayarsanız, alt örnek rastgele çizilmelidir. Açıklamanızda söylemiyorsunuz, bu yüzden bu konuyu gündeme getiriyorum çünkü bence bu örneklerin tüm örneklem hakkında sonuç çıkarmak için alt örnekten nasıl veya kullanıp kullanamayacağınız konusunda önemli etkileri var.

Bana öyle geliyor ki bu çelişki meselesinin üç yönü var.

1 çelişki oranıdır. Öğrencilerin 3 / 4'ünün yanlış tahmin etmesi gerçekten doğru mu?

2 yanlışlık derecesidir - annenizin ilkokulu bitirdiğinde ilkokulunu hiç bitirmediğini, ancak orada durduğunu ve doktora yaptığında ilkokulu hiç bitirmediğini söylemek başka bir şeydir.

3, çapraz kontrol edebileceğiniz numunenin oranıdır. Bu sonuçları 20 alt örneğine çıkarıyorsanız, tahminler oldukça kararsızdır ve muhtemelen çok fazla değmez.

Bana öyle geliyor ki, yaptığınız bu sorulara ve başlangıçta ortaya koyduğum soruya verdiğiniz cevaba bağlı olacaktır. Örneğin, 1 oldukça yüksek ve 3 oldukça yüksekse, sadece alt örneği kullanabilir ve onunla yapılabilirim. 1 yüksek ancak 2 düşükse, sorun o kadar kötü görünmüyor ve yine, rahatsız etmeye değmeyebilir.

Muhtemelen hatanın rastgele veya sistematik olup olmadığını bilmeye değer. Eğer öğrenciler sistematik olarak annelerinin eğitimini tahmin etmeye eğilimliyse, bu bazen sadece tamamen yanlış yaptıklarından daha sorunludur.

Birkaç makaleye biraz itiraf ettim ve sonuç olarak kendim için her zaman daha fazla sorun yarattığım anlaşılıyor. İncelemeciler, en azından benim alanımda, genellikle yöntem üzerinde iyi bir ele sahip değiller ve bu nedenle kullanımından şüpheleniyorlar. Bazen bir yayın açısından, sorunu kabul etmenin ve devam etmenin daha iyi olduğunu hissediyorum. Ancak bu durumda, gerçekten 'eksik veriyi ima etmiyorsunuz', ancak değişken için bir tür tahmin edilen hata varyasyonu ekliyorsunuz. Bu çok ilginç bir soru ve tüm endişeleri bir kenara bırakarak, bunun en iyi eylem yolu olduğuna karar verirsem bu konuda nasıl gideceğimi bile bilmiyorum.

— Niyet
kaynak

Teşekkürler Will, orijinal yazımda bazı şeyleri açıkladım. Alt örnek rastgele. Bir nokta yapmak için 3/4 statını bir şapkadan çıkardım. Gerçek stat daha azdır. Yaklaşık 10.000 vakayı çapraz kontrol edebilirim. Eminim hata tamamen rastgele değildir.

— Michael Bishop