Çoklu karşılaştırma neden bir problem?


44

Çoklu karşılaştırmalarla sorunun gerçekten ne olduğunu anlamakta zorlanıyorum . Basit bir benzetmeyle, birçok karar verecek olan kişinin birçok hata yapacağı söylenir. Bu yüzden, Bonferroni düzeltmesi gibi, bu kişinin mümkün olduğunca düşük herhangi bir hata yapma olasılığını arttırmak için çok muhafazakar bir önlem uygulanır.

Fakat neden yanlış kararların yüzdesi yerine, aldığı tüm kararlar arasında bir kişinin hiç hata yapıp yapmadığını önemsiyoruz ?

Başka bir analoji ile beni neyin karıştırdığını açıklamaya çalışayım. Farz edelim ki biri 60 yaşında, diğeri 20 yaşında. Daha sonra Bonferroni düzeltmesi, 20 yaşında olanın mümkün olduğu kadar muhafazakar olduğunu, yürütmeye karar vermesinde, çünkü daha uzun yıllar bir yargıç olarak çalışacağını, daha fazla karar vereceğini, bu yüzden dikkatli olması gerektiğini söyler. Ancak 60 yaşında biri muhtemelen yakında emekli olacak, daha az karar verecek, böylece diğerine göre daha dikkatsiz olabilecektir. Fakat aslında, her iki yargıç da vereceği toplam karar sayısına bakılmaksızın eşit derecede dikkatli veya muhafazakar olmalıdır. Bence bu benzetme, Bonferroni düzeltmesinin uygulandığı ve karşı sezgisel buluyorum.


8
gerçekten sorunuza bir cevap değil, ancak Yanlış Keşif Oranları (FDR) ile karşılaştınız mı? Narum'dan "Bonferroni'nin Ötesinde": springerlink.com/content/c5047h0084528056
apeescape

Yanıtlar:


40

Bonferroni düzeltmelerinde klasik bir karşı argüman olan bir şey söylediniz. Yapacağım her teste dayanarak alfa kriterimi ayarlamam gerekir mi? Bu tür bir reklam absürdum ima bazı nedenleri Bonferroni tarzı düzeltmelerine hiç inanmıyor olmasıdır. Bazen birinin kariyerinde uğraştığı türden veriler, bunun bir sorun olmayacağı şeklindedir. Her yeni kanıt parçası için bir veya çok az karar veren yargıçlar için bu çok geçerli bir argümandır. Peki ya 20 sanıkla olan yargıç ve yargılarını tek bir büyük veri kümesine (örn. Savaş mahkemeleri) dayandıran nedir?

Argümanın teneke kutusundaki vuruşları görmezden geliyorsun. Genellikle bilim adamları bir şey arıyor - alfa'dan daha küçük bir p değeri. Birini bulmak için her girişimi bir başka tekme. Birinde yeterince çekim yaparsa kişi bir tane bulur. Bu nedenle, bunu yaptıkları için cezalandırılmaları gerekir.

Bu iki argümanı uyumlu hale getirme şekliniz, her ikisinin de doğru olduğunu fark etmektir. En basit çözüm, tek bir veri setindeki farklılıkları test etmeyi, problem türünde bir tekme olarak düşünmek, ancak bunun dışındaki düzeltme kapsamını genişletmenin kaygan bir eğim olacaktır.

Bu, birçok alanda, özellikle de binlerce veri noktasının karşılaştırıldığı ve bazılarının tesadüfen önemli olduğu ortaya çıkma zorunluluğu olan FMRI olan, gerçekten zor bir sorundur. Alanın tarihsel olarak çok açıklayıcı olduğu göz önüne alındığında, beynin yüzlerce alanının tamamen tesadüfen önemli görüneceği gerçeğini düzeltmek için bir şeyler yapmak zorundadır. Bu nedenle, bu alanda pek çok kriter ayarlama yöntemi geliştirilmiştir.

Öte yandan, bazı alanlarda bir değişken en fazla 3 ila 5 seviyeye bakıyor olabilir ve kayda değer bir ANOVA meydana gelirse her kombinasyonu her zaman test edin. Bunun bazı problemleri olduğu biliniyor (tip 1 hataları), fakat özellikle korkunç değil.

Bu senin bakış açına bağlı. FMRI araştırmacısı bir kriter değişikliğine gerçek bir ihtiyaç olduğunu kabul ediyor. Küçük bir ANOVA'ya bakan kişi açıkça testten bir şey çıktığını hissedebilir. Çoklu karşılaştırmalarda uygun muhafazakar bakış açısı, onlar hakkında her zaman bir şeyler yapmak, ancak sadece tek bir veri setine dayanmaktır. Herhangi bir yeni veri, ölçütü sıfırlar ... eğer bir Bayesyen olmadıkça ...


Teşekkürler, çok yardımcı oldu. Yeterli temsilcim olduğunda oylayacağım.
AgCl

FMRI araştırmacısı muhtemelen False Discovery Rate (FDR) kriterini de kullanır, çünkü uzun bir test süresi boyunca alfa *% 100 yanlış pozitifleri garanti eder.
Brandon Sherman,

@John, Lütfen bu soruya cevap verir misiniz stats.stackexchange.com/questions/431011/… Bana yardım edebilirseniz sevinirim .
Sabbir Ahmed

26

Saygın istatistikçiler, çoklu karşılaştırmalarda çok çeşitli pozisyonlar almıştır. Bu ince bir konu. Biri basit olduğunu düşünüyorsa, ne kadar düşündüklerini merak ederdim.

İşte Andrew Gelman'dan yapılan çoklu testlere ilişkin ilginç bir Bayesian perspektifi: Neden (genellikle) çoklu karşılaştırmalar hakkında endişelenmiyoruz .


2
Ne bu kağıt hakkında ilginç bulmandır perspektif Bayes olmakla çoklu karşılaştırmalar için düzeltmeler yerine sunulan hiyerarşik modelleme yaklaşımı yok değil Bayes olmanızı gerektirir.
conjugateprior

1
Sadece o makaleye bakıyordum; Bence daha fazla alıntı yapılması gerekebilir. Kanalizasyondaki yıkama etkilerinden nefret ediyorum, çünkü gelişmiş çoklu karşılaştırma teknikleri iyi bilinmemektedir veya yapılması kolay değildir. Buna karşılık, daha yaşlı bir yaklaşım, basit bir şekilde ölü bırakmadır. Dikkat edilmesi gereken ciddi sorunların olup olmadığını merak ediyorum.
russellpierce


13

Önceki yorum ile ilgili olarak, fMRI araştırmacısının hatırlaması gereken, klinik olarak önemli sonuçların, beynin bir fMRI'sındaki tek bir pikselin yoğunluk kayması değil, ne olduğunun önemidir. Klinik bir iyileşme / zarar ile sonuçlanmazsa, önemli değil. Bu, çoklu karşılaştırmalarla ilgili endişeleri azaltmanın bir yoludur.

Ayrıca bakınız:

  1. Bauer, P. (1991). Klinik çalışmalarda çoklu test. Stat Med, 10 (6), 871-89; tartışma 889-90.
  2. Proschan, MA ve Waclawiw, MA (2000). Klinik çalışmalarda çokluk ayarlaması için pratik kılavuzlar. Control Clin Deneme, 21 (6), 527-39.
  3. Rothman, KJ (1990). Birden fazla karşılaştırma için ayar gerekmez. Epidemiyoloji (Cambridge, Mass.), 1 (1), 43-6.
  4. Perneger, TV (1998). Bonferroni ayarlarında yanlış olan ne? BMJ (Clinical Research Ed.), 316 (7139), 1236-8.

Bu da kesinlikle alıntı
nico

Duyguları hakkında ölü bir somon sormaktan çok eğlendiklerine eminim !!!
nico

Bu gönderi ayrıca RCT'ler ile ilgili faydalı referanslara da sahiptir: j.mp/bAgr1B .
chl

10

Fikirleri düzeltmek için: , bağımsız rastgele değişkenler , çizilecek şekilde ele ; . Hangisinin sıfır anlamına gelmediğini bilmek istediğinizi, resmi olarak test etmek istediğinizi varsayıyorum:n(Xi)i=1,,ni=1,,n XiN(θi,1)

H0i:θi=0 VsH1i:θi0

Bir eşik tanımı: You have kararlar ve farklı amaç olabilir. Belirli bir test için kesinlikle bir eşik seçmek olacak ve kabul etmemeye karar eğer .niτiH0i|Xi|>τi

Farklı seçenekler: eşiklerini ve bunun için iki seçeneğiniz var :τi

  1. herkes için aynı eşiği seçin

  2. herkes için farklı bir eşik seçmek için (genellikle veri yönelimli bir eşik, aşağıya bakınız).

Farklı amaçlar: Bu seçenekler gibi farklı amaçlar için kullanılabilir.

  • Bir veya daha fazla için yanlış reddetme olasılığını kontrol etme .H0ii
  • Yanlış alarm oranının (veya Yanlış Keşif Hızı) beklentisini kontrol etme

    Sonunda amacınız ne ise, datawise eşiğini kullanmak iyi bir fikirdir.

Sorunuza cevabım: sezginiz, veri yönelimli bir eşik seçmek için ana buluşsal buluşla ilgilidir. Aşağıdaki (Holm'un prosedürünün kaynağında Bonferoni'den daha güçlü olan):

Zaten bir karar aldık düşünün düşükve karar da herkes için kabul etmektir . Öyleyse sadece karşılaştırmaları yapmak zorundasın ve yanlış reddetme riski ! Bütçenizi kullanmadığınız için, kalan test için biraz daha risk alabilir ve daha büyük bir eşik seçebilirsiniz.| X i | H 0 i n - p H 0 ip|Xi|H0inpH0i

Hakimleriniz için: Her iki hakimin de yaşamları için aynı yanlış suçlama bütçelerine sahip olduğunu (ve aynısını yapmanız gerektiğini tahmin ediyorum) kabul ediyorum. Geçmişte kimseyi suçlamadıysa, 60 yaşındaki hakim daha az muhafazakar olabilir! Fakat eğer zaten çok fazla suçlamada bulunmuşsa, en muhafazakar ve belki de en genç yargıçtan daha fazla olacak.


Bence hipotezinizde bir yazım hatası olduğunu düşünüyorum - ikisi de aynı görünüyor ...
walkytalky

2

Örnekleyici (ve komik) bir yazı; http://www.jsur.org/ar/jsur_ben102010.pdf ) birçok değişken örneğin fmri'yi değiştiren bazı pratik çalışmalarda çoklu test düzeltmesinin gerekliliği hakkında. Bu kısa alıntı, mesajın çoğunu söylüyor:

“[...] konu olarak ölüm sonrası Atlantik Salmonuyla bir fMRI tarama oturumu tamamladık. Somonun daha sonra bir grup insan deneğine uygulanan aynı sosyal perspektif alma görevi gösterildi.”

Bu, benim deneyimime göre, kullanıcıları çoklu test düzeltmeleri kullanmaya teşvik etmek için müthiş bir sav.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.