Soruya genel bakış
Uyarı: Bu soru çok fazla kurulum gerektiriyor. Lütfen bana eşlik et.
Bir meslektaşım ve ben bir deney tasarımı üzerinde çalışıyoruz. Tasarım, aşağıda listeleyeceğim çok sayıda kısıtlama etrafında çalışmalıdır. Kısıtlamaları tatmin eden ve bize ilgimizle ilgili etkilerini tarafsız olarak tahmin eden bir tasarım geliştirdim. Ancak, meslektaşım tasarımda bir karışıklık olduğuna inanıyor. Bu noktayı ad nauseum'u bir çözüme varmadan tartıştık, bu noktada dışardan bazı fikirler almak istiyorum.
Çalışmanın amacını, kısıtlarımızı, olası karışıklığı ve bu "karışıklık" ın neden bir sorun olmadığına inandığımı açıklayacağım. Her bölümü okurken genel sorumu aklınızda bulundurun:
Tasarımda tarif ettiğim bir karışıklık var mı?
[Bu deneyin ayrıntıları değiştirildi, ancak sorumu sormak için gereken temel unsurlar aynı kaldı]
Deneme hedefleri
Beyaz erkekler tarafından yazılan makalelerin, Beyaz kadınlar, Siyah erkekler veya Siyah kadınlar ( makale yazarlığı değişkeni) tarafından yazılan makalelerden daha olumlu değerlendirilip değerlendirilmediğini belirlemek istiyoruz . Ayrıca bulduğumuz herhangi bir önyargının yüksek veya düşük kaliteli hibelerde ( kalite değişkeni) daha fazla ortaya çıkıp çıkmadığını belirlemek istiyoruz . Son olarak, yaklaşık 12 farklı konu ( konu değişkeni) ile yazılmış makaleler eklemek istiyoruz . Ancak, sadece ilk iki değişken büyük ilgi görmektedir; konunun denemeler arasında değişiklik göstermesine rağmen, değerlendirmelerin konular arasında nasıl değiştiği ile ilgilenmiyoruz.
Kısıtlamalar
- Hem katılımcı sayısının hem de toplayabileceğimiz deneme sayısının sınırları vardır. Sonuç, yazarlığın tamamen katılımcılar arasında manipüle edilememesi veya tamamen denemeler arasında manipüle edilememesidir (yani, her bir deneme birden fazla koşula atanmalıdır).
- Her makale Beyaz erkek, Beyaz kadın, Siyah erkek ve Siyah kadın versiyonlarına sahip olsa da, her makale sadece yüksek ve düşük kalitede olabilir ve sadece bir konu olabilir. Ya da, bu kısıtı farklı bir şekilde ifade etmek için, belirli bir denemenin doğal özellikleri oldukları için, ne kalite ne de konu denemeler içinde manipüle edilemez.
- Yorgunluk nedeniyle, belirli bir katılımcının değerlendirebileceği makale sayısında bir sınır vardır.
- Belirli bir kişinin okuduğu tüm makaleler tek bir konu hakkında olmalıdır. Diğer bir deyişle, her katılımcının yalnızca benzer bir konunun makalelerini okuduğundan emin olmamız gerektiğinden, makaleler katılımcılara tamamen rastgele atanamaz.
- Katılımcıların deneyin amacı hakkında şüphelenmelerini istemediğimizden, her katılımcı yalnızca Beyaz olmayan bir erkek yazar tarafından yazılan sözde bir makaleyi görüntüleyebilir, çünkü denemelerinin çoğu Siyah veya kadın yazarlar tarafından yazılmıştır.
Önerilen tasarım
Önerilen tasarımım ilk önce her denemeyi 4 farklı yazarlık sürümüne (Beyaz erkek, Beyaz kadın, vb.) Dönüştürüyor. Daha sonra, her biri iki yüksek ve iki düşük kaliteli denemeden oluşan bir "küme" tanımlamak için benzer bir konudan dört deneme kullanılır. Her katılımcı, aşağıdaki şekilde verilen belirli bir setten üç deneme alır. Daha sonra her katılımcı, kendisine tahsis edildiği üç denemenin her birine tek bir derecelendirme sağlar.
Potansiyel karışıklık
Meslektaşım yukarıdaki tasarımın bir karışıklık içerdiğine inanıyor. Sorun, beyaz olmayan bir erkek yazar tarafından yazılmak üzere yüksek kaliteli bir deneme atandığında, her zaman bir yüksek kaliteli deneme ve bir düşük kaliteli deneme ile eşleştirilmesidir (Deneme 1 için bkz. Şekilde). Öte yandan, aynı makale Beyaz erkek yazarlar tarafından yazılmak üzere atandığında, bir yüksek kaliteli deneme ve bir düşük kaliteli deneme üç kez (Deneme 1, Katılımcılar 4-6 için) ve iki düşük kaliteli deneme üç ile eşleştirilir. (Deneme 1, Katılımcılar 7-9 için).
Benzer bir sorun, düşük kaliteli makaleler için de geçerlidir. Düşük kaliteli bir makalede Beyaz olmayan bir erkek yazar varsa, her zaman düşük kaliteli bir deneme ve yüksek kaliteli bir deneme ile görülür (Deneme 3 için bkz. Katılımcılar 7-9). Bununla birlikte, aynı makalenin Beyaz bir erkek yazarı olduğunda, bir yüksek kaliteli deneme ve bir düşük kaliteli deneme ile üç kez (Deneme 3, Katılımcılar 10-12 için) ve iki yüksek kaliteli deneme ile üç kez (Deneme 3, Katılımcılar 1-3).
Yukarıdaki paternlerin sorunlu olabilmesinin nedeni, "kontrast etkilerinin" varlığını varsaymamızdır. Özellikle, yüksek kaliteli denemeler, bir düşük kaliteli deneme ve bir yüksek kaliteli deneme (makul bir varsayım) ile eşleştirildiklerinden daha düşük kaliteli iki deneme ile eşleştirildiklerinde ortalama olarak daha olumlu değerlendirilirse, Beyaz erkek denemeler daha yüksek derecelendirmeler alabilir Yazarlık dışında bir sebeple beyaz kadın, Siyah erkek ve Siyah kadın denemeleri.
Yüksek kaliteli denemeler için bir kontrast etkisi, düşük kaliteli denemeler için bir kontrast etkisi ile dengelenebilir veya dengelenmeyebilir; diğer bir deyişle, iki yüksek kaliteli makale ile eşleştirilmiş düşük kaliteli makaleler özellikle olumsuz değerlendirilmektedir. Ne olursa olsun, meslektaşım, herhangi bir türden kontrast etkisi potansiyeli, beyaz erkeklerin yazdığı makalelerin diğer yazarların makalelerinden daha olumlu değerlendirilip değerlendirilmediğini belirlemek amacıyla bu tasarımı sorunlu hale getiriyor.
Neden olası karışıklığın bir sorun olmadığına inanıyorum
Benim için önemli olan, beyaz erkek denemelerinin diğer denemelerden farklı olarak değerlendirilme derecesini tahmin edip edemediğimizdir (yani, ilgimizi etkilerimizi tahmin edip edemeyeceğimiz), hatta kontrast etkileri varlığında. Bu nedenle, kontrast efektleri içeren ve ilgili etkilerimizi test eden bir modele uyan 50 veri kümesini simüle ettiğim bir simülasyon gerçekleştirdim.
Spesifik model, deneme (her deneme birden fazla katılımcı tarafından değerlendirilir) ve katılımcı (her katılımcı birden fazla deneme değerlendirir) için rastgele kesişmeli karışık efektler modelidir. Deneme seviyesi ayrıca ırk, cinsiyet ve etkileşimleri için rastgele eğimler içerir (her iki değişken de deneme içinde manipüle edilir) ve katılımcı seviyesi kalite için rastgele bir eğim içerir (kalite katılımcılar içinde manipüle edilir). İlginin etkileri ırk, cinsiyet, ırk ve cinsiyet arasındaki etkileşim ve bu değişkenlerin her biri ile kalite arasındaki üst düzey etkileşimlerdir. Bu simülasyonun amacı, verilere kontrast etkilerinin verilmesinin ırk, cinsiyet, ırk ve cinsiyet arasındaki etkileşimin sahte etkilerini yaratıp yaratmayacağını belirlemekti. ve bu değişkenler ve kalite arasındaki üst düzey etkileşimler. Daha fazla ayrıntı için aşağıdaki kod yığınına bakın.
Simülasyona göre, kontrast etkilerinin varlığı, ilgilendiğimiz etkilerden herhangi birinin tahminini etkilemez. Ek olarak, kontrast etkisinin boyutu, tasarımdaki diğer etkilerle aynı istatistiksel modelde tahmin edilebilir; bana göre bu zaten meslektaşım tarafından tanımlanan "kontrast etkilerinin" kafa karıştırıcı olmadığını gösteriyor. Ancak meslektaşım şüpheci olmaya devam ediyor.
require(lme4)
require(plyr)
participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black",
"white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female",
"female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female")
d <- data.frame(participant, essay, quality, race, gender)
for(i in 1:35)
{
participant <- participant + 12
essay <- essay + 4
newdat <- data.frame(participant, essay, quality, race, gender)
d <- rbind(d, newdat)
}
check_var <- function(var)
{
tab <- table(var)
newvar <- character()
for(i in var)
{
if(i == names(tab[tab == 1]))
{
newvar <- c(newvar, "different")
} else
{
newvar <- c(newvar, "same")
}
}
return(newvar)
}
# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))
# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)
# Random seed
set.seed(2352)
# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)
# For each simulation
for(i in 1:reps)
{
# Fixed effects. A quality effect and a contrast effect for quality
d$score <- .5 * d$quality + 1 * d$different * d$quality
# Random effects at the participant level
d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
r_q = rnorm(1, sd = .5),
score = score + r_int + r_q * quality)
# Random effects at the essay level
d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
g_r = rnorm(1, sd = .5),
g_g = rnorm(1, sd = .5),
g_r_g = rnorm(1, sd = .5),
score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)
# Observation-level error
d$score <- d$score + rnorm(dim(d)[1], sd = 1)
# Fit the model
mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)
# Store the coefficients
colnames(effs) <- names(fixef(mod))
effs[i, ] <- fixef(mod)
# Print the current simulation
print(i)
}
# Results
round(colMeans(effs), digits = 2)
(Intercept) race gender quality
0.00 -0.03 0.02 0.50
different race:gender race:quality gender:quality
0.01 -0.03 0.00 0.03
quality:different race:gender:quality
0.97 -0.02
Bir kez daha, genel sorum şu, tarif ettiğim tasarımda bir karışıklık var mı? Bir karışıklık yoksa, potansiyel "kontrast etkilerinin" neden karışıklık olmadığını açıklamak isterim, böylece bunu meslektaşımla açıklayabilirim.