Küçük numunelerle randomizasyon güvenilir midir?


11

Jerome Cornfield şunu yazdı:

Balıkçı devriminin en iyi meyvelerinden biri, rasgeleleştirme fikriydi ve birkaç başka şey üzerinde anlaşan istatistikçiler en azından bu konuda anlaştılar. Ancak bu anlaşmaya ve klinik ve diğer deney şekillerinde randomize tahsis prosedürlerinin yaygın olarak kullanılmasına rağmen, mantıksal durumu, yani tam olarak yerine getirdiği işlev hala belirsizdir.

Cornfield, Jerome (1976). "Klinik Araştırmalara Son Metodolojik Katkılar" . Amerikan Epidemiyoloji Dergisi 104 (4): 408-421.

Bu site boyunca ve çeşitli literatürde sürekli olarak randomizasyonun güçleri hakkında emin iddialar görüyorum. " Karıştırıcı değişkenler sorununu ortadan kaldırır " gibi güçlü terminoloji yaygındır. Örneğin buraya bakınız . Bununla birlikte, birçok kez deneyler pratik / etik nedenlerle küçük örneklerle (grup başına 3-10 örnek) gerçekleştirilir. Bu, hayvanlar ve hücre kültürlerini kullanan klinik öncesi araştırmalarda çok yaygındır ve araştırmacılar genellikle sonuçlarını desteklemek için p değerlerini rapor ederler.

Bu beni şaşırttı, karışıklıkları dengelemede randomizasyonun ne kadar iyi olduğunu. Bu grafik için tedavi ve kontrol gruplarını 50/50 şanslı iki değer alabilen bir kafa karıştırıcıyla karşılaştıran bir durum modellenmiştim (örneğin, tip1 / tip2, erkek / kadın). Çeşitli küçük numune boyutlarında yapılan çalışmalar için "% Dengesiz" (tip1'in muamele ve kontrol numuneleri arasındaki numunenin numune boyutuna bölünmesi arasındaki fark) dağılımını gösterir. Kırmızı çizgiler ve sağ eksenler ecdf'i gösterir.

Küçük numune boyutları için randomizasyon altında çeşitli denge derecelerinin olasılığı: resim açıklamasını buraya girin

İki şey bu arsa açıktır (bir yerde berbat sürece).

1) Numune boyutu arttıkça tam olarak dengeli numune alma olasılığı azalır.

2) Dengesiz bir numune alma olasılığı, numune boyutu arttıkça azalır.

3) Her iki grup için n = 3 olması durumunda, tamamen dengesiz gruplara sahip olma şansı% 3'tür (kontrolde tüm tip1, tedavide tüm tip2). N = 3 moleküler biyoloji deneyleri için yaygındır (örn. PCR ile mRNA'yı veya western blotlu proteinleri ölçmek)

N = 3 vakasını daha fazla incelediğimde, bu koşullar altında p değerlerinin garip davranışını gözlemledim. Sol taraf, tip2 alt grubu için farklı araçların koşulları altında t-testleri kullanılarak hesaplanan değerlerin genel dağılımını gösterir. Tip1 için ortalama 0 ve her iki grup için sd = 1 idi. Sağ paneller .05 ile.0001 arasındaki nominal "anlamlılık kesintileri" için karşılık gelen yanlış pozitif oranları gösterir.

N = 3 için p-değerinin t testi (10000 monte carlo koşusu) ile karşılaştırıldığında iki alt grup ve ikinci alt grubun farklı araçları ile dağılımı: resim açıklamasını buraya girin

Her iki grup için n = 4 için sonuçlar: resim açıklamasını buraya girin

Her iki grup için n = 5 için: resim açıklamasını buraya girin

Her iki grup için n = 10 için: resim açıklamasını buraya girin

Yukarıdaki grafiklerden de görülebileceği gibi, örnek büyüklüğü ile alt gruplar arasındaki fark arasında, null hipotezi altında tekdüze olmayan çeşitli p-değeri dağılımları ile sonuçlanan bir etkileşim olduğu görülmektedir.

Öyleyse, p-değerlerinin küçük örneklem büyüklüğü ile uygun şekilde randomize ve kontrollü deneyler için güvenilir olmadığı sonucuna varabilir miyiz?

İlk çizim için R kodu

require(gtools)

#pdf("sim.pdf")
par(mfrow=c(4,2))
for(n in c(3,4,5,6,7,8,9,10)){
  #n<-3
  p<-permutations(2, n, repeats.allowed=T)

  #a<-p[-which(duplicated(rowSums(p))==T),]
  #b<-p[-which(duplicated(rowSums(p))==T),]

  a<-p
  b<-p

  cnts=matrix(nrow=nrow(a))
  for(i in 1:nrow(a)){
    cnts[i]<-length(which(a[i,]==1))
  }


  d=matrix(nrow=nrow(cnts)^2)
  c<-1
  for(j in 1:nrow(cnts)){
    for(i in 1:nrow(cnts)){
      d[c]<-cnts[j]-cnts[i]
      c<-c+1
    }
  }
  d<-100*abs(d)/n

  perc<-round(100*length(which(d<=50))/length(d),2)

  hist(d, freq=F, col="Grey", breaks=seq(0,100,by=1), xlab="% Unbalanced",
       ylim=c(0,.4), main=c(paste("n=",n))
  )
  axis(side=4, at=seq(0,.4,by=.4*.25),labels=seq(0,1,,by=.25), pos=101)
  segments(0,seq(0,.4,by=.1),100,seq(0,.4,by=.1))
  lines(seq(1,100,by=1),.4*cumsum(hist(d, plot=F, breaks=seq(0,100,by=1))$density),
        col="Red", lwd=2)

}

2-5 parseller için R kodu

for(samp.size in c(6,8,10,20)){
  dev.new()
  par(mfrow=c(4,2))
  for(mean2 in c(2,3,10,100)){
    p.out=matrix(nrow=10000)

    for(i in 1:10000){

      d=NULL
      #samp.size<-20
      for(n in 1:samp.size){
        s<-rbinom(1,1,.5)
        if(s==1){
          d<-rbind(d,rnorm(1,0,1))
        }else{
          d<-rbind(d,rnorm(1,mean2,1))
        }
      }

      p<-t.test(d[1:(samp.size/2)],d[(1+ samp.size/2):samp.size], var.equal=T)$p.value

      p.out[i]<-p
    }


    hist(p.out, main=c(paste("Sample Size=",samp.size/2),
                       paste( "% <0.05 =", round(100*length(which(p.out<0.05))/length(p.out),2)),
                       paste("Mean2=",mean2)
    ), breaks=seq(0,1,by=.05), col="Grey", freq=F
    )

    out=NULL
    alpha<-.05
    while(alpha >.0001){

      out<-rbind(out,cbind(alpha,length(which(p.out<alpha))/length(p.out)))
      alpha<-alpha-.0001
    }

    par(mar=c(5.1,4.1,1.1,2.1))
    plot(out, ylim=c(0,max(.05,out[,2])),
         xlab="Nominal alpha", ylab="False Postive Rate"
    )
    par(mar=c(5.1,4.1,4.1,2.1))
  }

}
#dev.off()

Koşullar ve problemle ilgili açıklamanızı ilk başta anlamak biraz zor buldum. Tip I ve tip II, tip1 alt grup ve tip2 alt grup kullanımınızdan farklı teknik terimlerdir. Söyleyebildiğim kadarıyla, bir araç karışımı içeren bir dağıtımdan verilere bir t-testi uyguluyorsunuz. Bu doğru mu?
Michael Lew

Evet, iki normal dağılımın bir karışımı. "tip1", N (0,1) anlamına gelir; tip2, N (ortalama 2,1) 'dir. Burada ortalama2 = (2,3,10 veya 100). Maalesef, bunun yardımcı olacağını düşünüyorsanız, typeA, typeB olarak değiştirebilir miyim?
Flask

Yanıtlar:


4

Çok küçük örnekler için bilinmeyen karıştırıcı değişkenlerle uğraşırken randomizasyonun sınırlamalarına dikkat çekiyorsunuz. Ancak sorun, P değerlerinin güvenilir olmaması değil, anlamlarının örneklem büyüklüğüne ve yöntemin varsayımları ile popülasyonların gerçek özellikleri arasındaki ilişkiye göre değişmesidir.

Sonuçlarınızı almam, P-değerlerinin alt grup araçlarındaki fark o kadar büyük olana kadar oldukça iyi performans göstermesidir ki, herhangi bir makul deneyci deneyi yapmadan önce bir sorun olduğunu bilir.

Verilerin doğasının doğru bir şekilde anlaşılmasına değinmeden bir deneyin yapılabileceği ve analiz edilebileceği fikri yanlıştır. Küçük bir veri kümesini analiz etmeden önce, analizde yer alan varsayımları güvenle savunabilmek için veriler hakkında yeterli bilgiye sahip olmalısınız. Bu tür bilgiler genellikle aynı veya benzer sistemi kullanan önceki çalışmalardan, resmi yayınlanmış çalışmalar veya gayri resmi 'ön' deneylerden olabilen çalışmalardan gelir.


Söylediğin her şeye katılıyorum, ancak Gerd Gigerenzer'in söylediği gibi t-testleri genellikle "ritüelist" olarak yapılıyor. Uygulamada, bu testleri yapan kişilerin yaptıklarının nüanslarını anlamak için zamanları / eğilimleri yoktur. Bu nedenle "güvenilmez" sıfatın uygun olabileceğini düşünüyorum. Dağıtımı sorduğunuzda (yüksek bir tane var mıydı ya da bu büyük hata çubuğuna neden olan?) Hiç bakmamış araştırmacıları biliyorum.
Flask

1
P-değerlerinin gerçekten 'anlamı' olan şey çoğu insanın varsayımından oldukça farklıdır. P-değerlerini 'kanıtlarla bağdaşmaz' ve benzeri olarak eleştiren birçok makale bile yanlıştır. Dün arXiv'e P-değerlerinin özelliklerini araştıran ve bunların deneycilerin kullanabileceği kanıt türleriyle nasıl ilişkili olduğunu gösteren bir makale yükledim. Başlığı 'P'ye ya da P'ye değil: P değerlerinin kanıtsal doğası ve bilimsel çıkarımdaki yeri hakkında' ve arXiv başvuru numarası 826269'dur. Pazartesi gününden itibaren mevcut olmalıdır.
Michael Lew

Sebepsiz aşk bulamayan bu soruya bir göz atabilir misiniz? . P değerlerinin bir şey olduğunu kabul ediyorum ve makaleniz bunu açıklığa kavuşturmaya yardımcı olabilir, ancak bir araştırmacı olarak, zemin pov'sindeki botların bizi başarısızlığa uğrattıklarını açıkça belirtmeliyim. Yanlış kullanım veya doğuştan gelen uygunsuzluk nedeniyle, bu net değildir. Burada istatistikçilerin bakış açısını bulmaya çalışırken bir dizi soru soruyorum.
Flask

2

Ekolojik araştırmalarda, örneklem boyutları küçük olduğunda ve bir veya daha fazla karıştırıcı değişkenin kanıtı olduğunda, tedavilerin deneysel birimlere (deneklere) randomize olmayan şekilde atanması standart bir uygulamadır. Bu rasgele olmayan atama, olasılıkları karıştırıcı değişkenlerin spektrumu boyunca “serpiştirir”, ki bu tam olarak rastgele atamanın yapması gerekiyordu. Ancak küçük örnek boyutlarında, randomizasyonun bu konuda (yukarıda gösterildiği gibi) kötü performans gösterme olasılığı daha yüksektir ve bu nedenle buna güvenmek kötü bir fikir olabilir.

Rasgeleleştirme çoğu alanda (ve haklı olarak) bu kadar güçlü bir şekilde savunulduğundan, nihai hedefin katı randomizasyona uymak yerine yanlılığı azaltmak olduğunu unutmak kolaydır. Bununla birlikte, karıştırıcı değişkenler takımını etkili bir şekilde karakterize etmek ve rastgele olmayan atamayı deneysel sonuçlara kör olan ve mevcut tüm bilgi ve bağlamdan faydalanan savunulabilir bir şekilde yürütmek araştırmacı (lar) ın görevidir.

Özet için Hurlbert, Stuart H. 1984, s. 192-198'e bakınız. Sözde çoğaltma ve saha deneylerinin tasarımı. Ekolojik Monograflar 54 (2) s.187-211.


Bunu okumaktan keyif aldım, ancak sondan bir önceki paragrafta “önyargı” kullanımınızın yanlış anlaşılabileceğinden endişe duyuyorum çünkü bu terim ifadenizi yanlış yapan belirli bir istatistiksel anlama sahip. Rastgeleleşmenin, önyargıyı azaltmaktan (bir tahmin edicinin yanlışlığının bir ölçüsü olarak) ziyade karıştırmayı (bir dilsel anlamda "önyargı" biçimi) önlemeyi amaçladığını söylemeye mi çalışıyorsunuz ?
whuber

İstatistiksel anlamda önyargıdan söz ediyorum. İstatistiklerde “yanlılık”, bir istatistik ile tahmin ettiği parametre arasındaki farktır. Bahsettiğiniz gibi, bir kestiricinin önyargısı, kestiricinin beklenen değeri ile tahmin ettiği parametrenin gerçek değeri arasındaki farktır. Mesajımda, “önyargı” ile verilerden hesaplanan istatistikler ile tahmin ettikleri parametreler arasındaki farka atıfta bulunuyordum - örneğin, örnek ortalaması (x bar) ve gerçek ortalama (mu) arasında.
Darren James

Bildiğim kadarıyla, randomize örnekleme önyargıyı azaltmak için kullanılmaz, ne de çoğu durumda önyargıyı azalttığı iddia edilemez.
whuber

Yanılıyorsun. Rasgeleleştirmenin birincil amacı bağımsızlığın etkisini simüle etmektir. Bunu, hastalara tedavilerin sistematik olarak atanmasıyla ortaya çıkan önyargıları ortadan kaldırarak yapar. Bu önyargılar yanlış tahminler - en önemlisi, sapmalı varyans tahminleri - ve Tip I ve II hatası üzerinde kontrol kaybı üretir. Şaşırtıcı değişkenler bile (gerçekten bağımsızlık eksikliğine karşılık gelir), basitçe ihmal edilen değişken önyargı durumudur. Ama bunun için benim sözüme gerek yok ... Yukarıdaki Hurlburt gazetesi ile ikna olmamanız durumunda, danışmak için başka kaynaklar da var:
Darren James

Cochran, WG ve GM Cox. 1957. Deneysel Tasarımlar. New York: Wiley. Federer, WT 1955. Deney Tasarımı. New York: Macmillan. Hinkelmann, K. ve Kempthorne, O. 1994. Deney Tasarımı ve Analizi. Wiley: New York. Kuehl, RO 2000. Deney Tasarımı: Araştırma tasarımı ve analizinin istatistiksel ilkeleri. Belmont, CA: Brooks / Cole.
Darren James
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.