Deney tasarımında potansiyel bir karışıklık

Soruya genel bakış

Uyarı: Bu soru çok fazla kurulum gerektiriyor. Lütfen bana eşlik et.

Bir meslektaşım ve ben bir deney tasarımı üzerinde çalışıyoruz. Tasarım, aşağıda listeleyeceğim çok sayıda kısıtlama etrafında çalışmalıdır. Kısıtlamaları tatmin eden ve bize ilgimizle ilgili etkilerini tarafsız olarak tahmin eden bir tasarım geliştirdim. Ancak, meslektaşım tasarımda bir karışıklık olduğuna inanıyor. Bu noktayı ad nauseum'u bir çözüme varmadan tartıştık, bu noktada dışardan bazı fikirler almak istiyorum.

Çalışmanın amacını, kısıtlarımızı, olası karışıklığı ve bu "karışıklık" ın neden bir sorun olmadığına inandığımı açıklayacağım. Her bölümü okurken genel sorumu aklınızda bulundurun:

Tasarımda tarif ettiğim bir karışıklık var mı?

[Bu deneyin ayrıntıları değiştirildi, ancak sorumu sormak için gereken temel unsurlar aynı kaldı]

Deneme hedefleri

Beyaz erkekler tarafından yazılan makalelerin, Beyaz kadınlar, Siyah erkekler veya Siyah kadınlar ( makale yazarlığı değişkeni) tarafından yazılan makalelerden daha olumlu değerlendirilip değerlendirilmediğini belirlemek istiyoruz . Ayrıca bulduğumuz herhangi bir önyargının yüksek veya düşük kaliteli hibelerde ( kalite değişkeni) daha fazla ortaya çıkıp çıkmadığını belirlemek istiyoruz . Son olarak, yaklaşık 12 farklı konu ( konu değişkeni) ile yazılmış makaleler eklemek istiyoruz . Ancak, sadece ilk iki değişken büyük ilgi görmektedir; konunun denemeler arasında değişiklik göstermesine rağmen, değerlendirmelerin konular arasında nasıl değiştiği ile ilgilenmiyoruz.

Kısıtlamalar

Hem katılımcı sayısının hem de toplayabileceğimiz deneme sayısının sınırları vardır. Sonuç, yazarlığın tamamen katılımcılar arasında manipüle edilememesi veya tamamen denemeler arasında manipüle edilememesidir (yani, her bir deneme birden fazla koşula atanmalıdır).
Her makale Beyaz erkek, Beyaz kadın, Siyah erkek ve Siyah kadın versiyonlarına sahip olsa da, her makale sadece yüksek ve düşük kalitede olabilir ve sadece bir konu olabilir. Ya da, bu kısıtı farklı bir şekilde ifade etmek için, belirli bir denemenin doğal özellikleri oldukları için, ne kalite ne de konu denemeler içinde manipüle edilemez.
Yorgunluk nedeniyle, belirli bir katılımcının değerlendirebileceği makale sayısında bir sınır vardır.
Belirli bir kişinin okuduğu tüm makaleler tek bir konu hakkında olmalıdır. Diğer bir deyişle, her katılımcının yalnızca benzer bir konunun makalelerini okuduğundan emin olmamız gerektiğinden, makaleler katılımcılara tamamen rastgele atanamaz.
Katılımcıların deneyin amacı hakkında şüphelenmelerini istemediğimizden, her katılımcı yalnızca Beyaz olmayan bir erkek yazar tarafından yazılan sözde bir makaleyi görüntüleyebilir, çünkü denemelerinin çoğu Siyah veya kadın yazarlar tarafından yazılmıştır.

Önerilen tasarım

Önerilen tasarımım ilk önce her denemeyi 4 farklı yazarlık sürümüne (Beyaz erkek, Beyaz kadın, vb.) Dönüştürüyor. Daha sonra, her biri iki yüksek ve iki düşük kaliteli denemeden oluşan bir "küme" tanımlamak için benzer bir konudan dört deneme kullanılır. Her katılımcı, aşağıdaki şekilde verilen belirli bir setten üç deneme alır. Daha sonra her katılımcı, kendisine tahsis edildiği üç denemenin her birine tek bir derecelendirme sağlar.

Deneme tasarımı

Potansiyel karışıklık

Meslektaşım yukarıdaki tasarımın bir karışıklık içerdiğine inanıyor. Sorun, beyaz olmayan bir erkek yazar tarafından yazılmak üzere yüksek kaliteli bir deneme atandığında, her zaman bir yüksek kaliteli deneme ve bir düşük kaliteli deneme ile eşleştirilmesidir (Deneme 1 için bkz. Şekilde). Öte yandan, aynı makale Beyaz erkek yazarlar tarafından yazılmak üzere atandığında, bir yüksek kaliteli deneme ve bir düşük kaliteli deneme üç kez (Deneme 1, Katılımcılar 4-6 için) ve iki düşük kaliteli deneme üç ile eşleştirilir. (Deneme 1, Katılımcılar 7-9 için).

Benzer bir sorun, düşük kaliteli makaleler için de geçerlidir. Düşük kaliteli bir makalede Beyaz olmayan bir erkek yazar varsa, her zaman düşük kaliteli bir deneme ve yüksek kaliteli bir deneme ile görülür (Deneme 3 için bkz. Katılımcılar 7-9). Bununla birlikte, aynı makalenin Beyaz bir erkek yazarı olduğunda, bir yüksek kaliteli deneme ve bir düşük kaliteli deneme ile üç kez (Deneme 3, Katılımcılar 10-12 için) ve iki yüksek kaliteli deneme ile üç kez (Deneme 3, Katılımcılar 1-3).

Yukarıdaki paternlerin sorunlu olabilmesinin nedeni, "kontrast etkilerinin" varlığını varsaymamızdır. Özellikle, yüksek kaliteli denemeler, bir düşük kaliteli deneme ve bir yüksek kaliteli deneme (makul bir varsayım) ile eşleştirildiklerinden daha düşük kaliteli iki deneme ile eşleştirildiklerinde ortalama olarak daha olumlu değerlendirilirse, Beyaz erkek denemeler daha yüksek derecelendirmeler alabilir Yazarlık dışında bir sebeple beyaz kadın, Siyah erkek ve Siyah kadın denemeleri.

Yüksek kaliteli denemeler için bir kontrast etkisi, düşük kaliteli denemeler için bir kontrast etkisi ile dengelenebilir veya dengelenmeyebilir; diğer bir deyişle, iki yüksek kaliteli makale ile eşleştirilmiş düşük kaliteli makaleler özellikle olumsuz değerlendirilmektedir. Ne olursa olsun, meslektaşım, herhangi bir türden kontrast etkisi potansiyeli, beyaz erkeklerin yazdığı makalelerin diğer yazarların makalelerinden daha olumlu değerlendirilip değerlendirilmediğini belirlemek amacıyla bu tasarımı sorunlu hale getiriyor.

Neden olası karışıklığın bir sorun olmadığına inanıyorum

Benim için önemli olan, beyaz erkek denemelerinin diğer denemelerden farklı olarak değerlendirilme derecesini tahmin edip edemediğimizdir (yani, ilgimizi etkilerimizi tahmin edip edemeyeceğimiz), hatta kontrast etkileri varlığında. Bu nedenle, kontrast efektleri içeren ve ilgili etkilerimizi test eden bir modele uyan 50 veri kümesini simüle ettiğim bir simülasyon gerçekleştirdim.

Spesifik model, deneme (her deneme birden fazla katılımcı tarafından değerlendirilir) ve katılımcı (her katılımcı birden fazla deneme değerlendirir) için rastgele kesişmeli karışık efektler modelidir. Deneme seviyesi ayrıca ırk, cinsiyet ve etkileşimleri için rastgele eğimler içerir (her iki değişken de deneme içinde manipüle edilir) ve katılımcı seviyesi kalite için rastgele bir eğim içerir (kalite katılımcılar içinde manipüle edilir). İlginin etkileri ırk, cinsiyet, ırk ve cinsiyet arasındaki etkileşim ve bu değişkenlerin her biri ile kalite arasındaki üst düzey etkileşimlerdir. Bu simülasyonun amacı, verilere kontrast etkilerinin verilmesinin ırk, cinsiyet, ırk ve cinsiyet arasındaki etkileşimin sahte etkilerini yaratıp yaratmayacağını belirlemekti. ve bu değişkenler ve kalite arasındaki üst düzey etkileşimler. Daha fazla ayrıntı için aşağıdaki kod yığınına bakın.

Simülasyona göre, kontrast etkilerinin varlığı, ilgilendiğimiz etkilerden herhangi birinin tahminini etkilemez. Ek olarak, kontrast etkisinin boyutu, tasarımdaki diğer etkilerle aynı istatistiksel modelde tahmin edilebilir; bana göre bu zaten meslektaşım tarafından tanımlanan "kontrast etkilerinin" kafa karıştırıcı olmadığını gösteriyor. Ancak meslektaşım şüpheci olmaya devam ediyor.

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

Bir kez daha, genel sorum şu, tarif ettiğim tasarımda bir karışıklık var mı? Bir karışıklık yoksa, potansiyel "kontrast etkilerinin" neden karışıklık olmadığını açıklamak isterim, böylece bunu meslektaşımla açıklayabilirim.

— Patrick S. Forscher
kaynak

Sadece bir yorum: Makaleler nasıl derecelendirilecek? Soruyorum çünkü birden fazla derecelendirici istihdam edilecekse, farklı değerlendiricilerin puanlarının çok tutarlı olmadığını hatırlamanız gerekir, bu nedenle değerlendiriciler arasındaki değişkenliği de hatırlamanız gerekir.

— Tim

Her katılımcı, kendisine atanan üç denemenin her birine bir puan verir.

— Patrick S. Forscher

Derecelendirme prosedürüyle ilgili ayrıntıyı sorunun gövdesine ekledim.

— Patrick S. Forscher

Lmer () konusuna aşina olmayanlarımız için, analizi ve "ilginin etkilerini" kısaca açıklayabilir misiniz?

— Anthony

Sorun değil, @ Anthony. Bu ayrıntıları soruya ekledim.

— Patrick S. Forscher

İlgili bir karışıklıktan endişe duyarım - 'Her katılımcı, Beyaz olmayan bir erkek yazar tarafından yazılan sözde bir makaleyi görebilir, çünkü katılımcıların denemenin amacı hakkında şüphelenmelerini istemiyoruz çünkü denemelerinin çoğu Siyah ya da kadın yazarlar tarafından yazılmış. '

Bu, sonuç ne olursa olsun, bunun beyaz erkek yazarlığı ile diğer yazarlık arasındaki farktan mı yoksa sadece 'çoğunluk yazarlığı' ile 'azınlık yazarlığı' arasındaki farktan mı kaynaklandığını belirleyemeyeceğiniz anlamına gelir.

Gösterildiği gibi tasarım sunum sırasını da yansıtıyorsa (sanmıyorum, ancak kontrol etmek daha iyi), o zaman başka bir sorun gibi görünüyor.

— Charlie
kaynak

Şekil sunum sırasını yansıtmamaktadır.

— Patrick S. Forscher

"Çoğunluk" ve "azınlık" yazarlığı ile, belirli bir ırk / cinsiyet kombinasyonu olan denemelerin oranını mı kastediyorsunuz (yani, 2/3 Beyaz erkek, 1/3 diğer)? Her katılımcı için, Beyaz erkek denemelerinin diğerlerine göre daha fazla miktarda deneme oluşturduğu doğrudur. Bununla birlikte, Beyaz erkekler çalışmak istediğimiz makale yazarlarının daha büyük bir bölümünü oluşturmaktadır. Bu “karışık” (aslında sorunun bir parçası olabilir), Beyaz erkek ve azınlık tarafından yazılmış makalelerin tam yarısının olduğu yapay bir durum yaratmaktan daha az sorunlu olduğuna karar verdik.

— Patrick S. Forscher

Her bir katılımcı sadece iki deneme (bir Beyaz erkek ve bir diğeri) derecelendirirse tasarım daha kolay olmaz mıydı? Öyleyse, katılımcıların iki denemeyi derecelendirmelerini sağlayın, ancak yığının çoğunlukla erkek denemelerini içerdiğine inanmalarını sağlayın. Sadece bu ikisini şans eseri elde ettiler. Kart sihirbazları buna "zorlama" diyor. Bu çok fazla katılımcı gerektiriyorsa, 12'den az konuyu test edin. On iki çoktur.

— dragice
kaynak

Bu örneklem büyüklüğü ile her şeyi nasıl sonuçlandırabilirsiniz? Bu deneyi birçok kez tekrarladıysanız, hem beyaz bir erkek hem de siyah bir erkek alan dört belirteç, 16 yaşın üzerindeki bir denemede beyaz erkeklere daha iyi puanlar verecektir.

— Hugh Morris
kaynak

Bu, bu çalışmanın çok küçük bir versiyonudur. Tüm çalışmada denemeleri değerlendiren 432 kişi bulunmaktadır.

— Patrick S. Forscher