Bu tabii ki pratikte yapmak için mutlak bir kabus olabilir, ama yapılması herhalde olurdu: biz İstatistiksel Sultan'ı tayin ve herkes hipotez testi çalıştıran onların ham raporları bu despot için-değerlerine. Bir tür global (kelimenin tam anlamıyla) çoklu karşılaştırma düzeltmesini gerçekleştirir ve düzeltilmiş versiyonlarla cevap verir.p
Bu altın bir bilim ve akıl çağında işe yarar mıydı? Hayır muhtemelen değil.
En bir olduğu gibi hipotezler bir çift, dikkate alarak başlayalım testinde gösterilebilir. İki grubun bazı özelliklerini ölçüyoruz ve bu özellik hakkında iki hipotez arasında ayrım yapmak istiyoruz:
Sonlu bir örnekte, gerçekten doğru olsa bile, araçların tam olarak eşit olması muhtemel değildir : ölçüm hatası ve diğer değişkenlik kaynakları, bireysel değerleri etrafa itebilir. Ancak,
H 0 : Gruplar aynı ortalamaya sahiptir. H A : Grupların farklı araçları var. H 0 H 0t'H0:'Hbir: Gruplar aynı ortalamaya sahiptir. Grupların farklı araçları var.
'H0'H0hipotez bir anlamda "sıkıcı" dır ve araştırmacılar genellikle gerçekte var olmayan gruplar arasında bir fark bulduklarını iddia ettikleri "yanlış bir pozitif" durumdan kaçınmakla ilgilenirler. Bu nedenle, sonuçları yalnızca "boş" hipotezi altında pek görünmüyorsa ve konvansiyonel olarak olasılıksızlık eşiğinin% 5 olarak belirlenmiş olması durumunda "anlamlı" olarak adlandırırız.
Bu tek bir test için geçerlidir. Şimdi, birden fazla test yapmaya karar verdiğinizi ve her biri için yanlışlıkla kabul etme % 5'ini kabul etmeye istekli olduğunuzu varsayalım . Yeterince testle, neredeyse kesin olarak hata yapmaya başlayacaksınız ve birçoğu.'H0
Çeşitli çoklu düzeltme yaklaşımları, bireysel testlere katlanmak için zaten seçtiğiniz nominal bir hata oranına geri dönmenize yardımcı olacak şekilde tasarlanmıştır. Bunu biraz farklı şekillerde yaparlar. Bonferroni , Sidak ve Holm prosedürleri gibi Family-Wise Error Rate'i kontrol eden yöntemler "Tek bir testte% 5 hata yapma şansı istediniz, bu yüzden 5'ten fazla olmamanızı sağlayacağız. Tüm testlerinizde hata yapma şansınız% "dedi. Yanlış Bulma Oranını kontrol eden yöntemlerbunun yerine, "Tek bir testle zamanın% 5'ine kadar yanlış olmanız açıkça görülüyor, bu yüzden birden fazla test yaparken" aramalarınızın "% 5'inden fazlasının yanlış olmamasını sağlayacağız" deyin. (Farkı gör?)
Şimdi, şimdiye kadar yapılan
tüm hipotez testlerinin ailevi hata oranını kontrol etmeye çalıştığınızı varsayalım . Esasen, hiç boş bir hipotezi <% 5 oranında yanlış bir şekilde reddetme şansı istediğinizi söylüyorsunuz. Bu imkansız bir şekilde katı bir eşik belirledi ve çıkarım etkili bir şekilde işe yaramazdı, ancak daha da acil bir konu var: küresel düzeltmeniz kesinlikle saçma sapan "bileşik hipotezleri" gibi
'H1:İlaç XYZ, T hücre sayısını değiştirir ∧Üzüm bazı alanlarda daha iyi büyür ∧… ∧ … ∧ … ∧ … ∧Erkekler ve kadınlar farklı miktarlarda dondurma yerler
Yanlış Keşif Hızı düzeltmeleri ile sayısal sorun çok ciddi değildir, ancak felsefi olarak hala bir karışıklıktır. Bunun yerine, bir genom araştırması sırasında aday genlerin bir listesi veya bir spektral analiz sırasında bir dizi zaman-frekans kutusu gibi, ilgili testlerin bir “ailesini” tanımlamak mantıklıdır. Ailenizi belirli bir soruya göre uyarlamak, Tip I hatalarınızı direkt olarak yorumlamanıza olanak tanır. Örneğin, kendi genomik verilerinizden FWER düzeltmeli bir p-değerleri setine bakabilir ve "Bu genlerin herhangi birinin yanlış pozitif olma şansı <% 5'tir" diyebilirsiniz. Bu, umursamadığınız konularda umursamadığınız insanlar tarafından yapılan çıkarımları kapsayan berbat bir garantiden çok daha iyidir.
Bunun en önemli yanı, "aile" nin uygun seçiminin tartışmalı ve biraz öznel olmasıdır (Bütün genler bir aile mi yoksa sadece kinazları düşünebilir miyim?) Ama sorununuzdan haberdar olmalı ve kimseye inanmamalıyım. Neredeyse bu kadar geniş kapsamlı aileleri tanımlamayı şiddetle savundu.
Peki ya Bayes?
Bayesian analizi bu soruna tutarlı bir alternatif sunar - eğer Frequentist Tip I / Tip II hata çerçevesinden biraz uzaklaşmaya istekliysen. Her şeyden önce kesin olmayan bazı şeylerle başlıyoruz. Bir şeyi her öğrendiğimizde, bu bilgi bir posterior dağılım üretmek için öncekiyle birleştirilir ve bu da bir sonraki öğrenmede bir öncekine dönüşür. Bu size tutarlı bir güncelleme kuralı verir ve iki hipotez arasındaki Bayes faktörünü hesaplayarak belirli şeyler hakkındaki farklı hipotezleri karşılaştırabilirsiniz. Muhtemelen modelin büyük parçalarını hesaba katabilirdiniz ki bu da bunu özellikle zahmetli yapmaz.
Bayes yöntemlerinin çoklu karşılaştırma düzeltmeleri gerektirmediği konusunda ısrarcı bir belirti var. Maalesef, arka oranlar, sıkça kullanılanlar için bir başka test istatistiğidir (yani Tip I / II hatalarını önemseyen insanlar). Bu tür hataları kontrol eden herhangi bir özel mülkleri yoktur (Neden öyle?) Böylece, geri çekilemez bir bölgeye geri döndünüz, ama belki biraz daha ilkeli bir zeminde.
Bayes karşı argüman biz bilebiliriz odaklanmak gerektiğidir şimdi ve böylece bu hata oranlarının önemli değildir.
Yeniden Üretilebilirlik Üzerine
Yanlış çoklu karşılaştırma-düzeltmenin birçok yanlış / tekrarlanamayan sonucun arkasındaki neden olduğunu öne sürüyor gibi görünüyorsunuz. Benim düşüncem, diğer faktörlerin bir sorun olma ihtimali daha yüksek. Bariz bir şey yayınlama baskısının insanları hipotezlerini gerçekten vurgulayan deneylerden (yani kötü deneysel tasarım) kaçınmasına yol açtığıdır.
Örneğin, [bu deneyde] Amgen (ir (parçası) İnisiyatif tekrarlanabilirlik 6 , bu fareler ilgilenilen genin dışındaki genlerde mutasyonlar olduğu ortaya çıkar. Andrew Gelman da bahsetmek sever Yolları Çatallanan Bahçe , burada Araştırmacılar verilere dayanarak (makul) bir analiz planı seçiyorlar, ancak veriler farklı görünüyorsa başka analizler yapmış olabilirler. Bu, -değerlerini çoklu karşılaştırmalara benzer şekilde şişirir , ancak daha sonra düzeltilmesi daha zordur. Ayrıca bir rol oynayabilir, ancak benim hissim (ve umudum), bunun giderek gelişmekte olduğu yönünde.p