Gayri resmi / görsel “çoklu karşılaştırmalar” için çoklu karşılaştırma düzeltmeleri gerekli mi?


9

Çoklu karşılaştırma düzeltmesinin ne zaman gerekli olduğu hakkında bir tür felsefi sorum var.

Sürekli zamanla değişen sinyali ölçüyorum (ayrık zaman noktalarında). Zaman zaman ayrı olaylar meydana gelir ve bu olayların ölçülen sinyal üzerinde önemli bir etkisi olup olmadığını belirlemek istiyorum.

Bu yüzden bir olayı takip eden ortalama sinyali alabilirim ve genellikle belirli bir zirveye sahip bazı efektler görebilirim. O zirvenin zamanını seçersem ve olayın gerçekleşmediği zaman anlamlı olup olmadığını belirlemek için bir t testi söylersem, çoklu karşılaştırma düzeltmesi yapmam gerekir mi?

Şimdiye kadar sadece bir t testi (hesaplanmış 1 değer) yapmama rağmen, ilk görsel incelememde, çizdiğim 15 farklı post gecikme zaman noktasından en büyük potansiyel etkiye sahip olanı seçtim. Daha önce hiç yapmadığım 15 test için çoklu karşılaştırma düzeltmesi yapmam gerekir mi?

Eğer görsel denetim kullanmamış olsaydım, ancak her etkinlikte testi geçip en yüksek olanı seçtiysem, kesinlikle düzeltmem gerekecekti. 'En iyi gecikme' seçimi testin kendisinden başka bir kriter tarafından yapılıp yapılmadığına (örneğin görsel seçim, en yüksek ortalama vb.) İhtiyacım olup olmadığı konusunda biraz kafam karıştı.

Yanıtlar:


11

Teknik olarak, testi nerede yapacağınıza dair görsel bir ön seçim yaptığınızda, bunu zaten düzeltmelisiniz: gözleriniz ve beyniniz, verilerde bazı belirsizlikleri atlar, testi o noktada yaparsanız hesaba katmazsınız .

'Zirvenin' gerçekten bir plato olduğunu hayal et ve 'zirve' farkını elle seç, daha sonra bunun üzerinde bir test yap ve zar zor önemli. Testi biraz daha sola veya sağa gerçekleştirirseniz, sonuç değişebilir. Bu şekilde, ön seçim sürecini hesaba katmanız gerekir: belirttiğiniz kesinliğe sahip değilsiniz! Sen edilir kullanarak nedenle, etkili bir iki kez aynı bilgiyi kullanan, seçimi yapmak verileri.

Tabii ki, pratikte, bir el işleme süreci gibi bir şeyi açıklamak çok zordur, ancak bu, bir tuz tanesi ile elde edilen güven aralıklarını / test sonuçlarını almamanız gerektiği anlamına gelmez (veya en azından elde etmeniz / belirtmeniz).

Sonuç : Eğer gereken zaman çoklu karşılaştırmalar için ise ne olursa olsun bu karşılaştırmalar seçilmiş nasıl, çoklu karşılaştırmalar yapmak. Verileri görmeden önce seçilmediylerse , buna ek olarak düzeltmelisiniz.

Not: manuel ön seçim için düzeltmenin bir alternatifi (örneğin, neredeyse imkansız olduğunda) muhtemelen sonuçlarınızı manuel seçime referans içerecek şekilde belirtmektir. Ama bu 'tekrarlanabilir araştırma' değil sanırım.


1
Yine de her zaman düzeltme yapmak, tip II hata oranınızı artırır. Düzeltmeden önce tüm önemli sonuçlarınız varsa, düzeltmeden sonra hepsini kaybedebilirsiniz, tüm önemli sonuçları alma olasılığını hesaba katmayın. Bu, bağlamınızdaki tip I veya tip II hatasının maliyetine bağlı olabilir.
Etienne Low-Décarie

Nick, ilk cevap verirsem vermek istediğim yanıtı verdi. Ancak ilk kurulumda (mkpitas) 15 testi gerçekten uygularsanız, çokluk düzeltmesi yapmak zorunda kalmayacağınızı söylediniz. Bunu neden söylediğini anlamıyorum. Bence bu durumda çokluk düzeltmesi ihtiyacı daha belirgin hale geliyor. @etienne Amacınız, tip I hatasını kontrol etmede çok katı olan FWER düzeltmesi için geçerlidir. FDR kullanırsanız, fazla güçten ödün vermezsiniz.
Michael R.Chernick

8

Uzun zaman önce, ilk istatistik derslerimden birinde, bunu bir metinle okuyordum (bence bu, Cohen'in yeniden yapılanma kitabının eski bir baskısı idi) ve "bu, hangi makul insanların farklı olabileceği hakkında bir soru" dedi.

Hiç kimsenin birden fazla karşılaştırma için düzeltmesi gerekmediği ya da eğer yaparsa, hangi süre ya da karşılaştırmalar düzeltmesi gerektiği açık değildir. Her makale? Her regresyon mu, yoksa ANOVA mı? Bir konuda yayınladıkları her şey? DİĞER kişilerin yayınladığı şey nedir?

İlk satırınıza yazarken, felsefi.


4
Kaç karşılaştırma yapıldığına dair bir soru var, ancak bunun sonucunuzu ima ettiğini düşünmüyorum. Makul insanlar farklı olabilir, çünkü olası sonuçlar için farklı hedefleri ve farklı değerlemeleri (kayıp fonksiyonları) vardır. Birden fazla karşılaştırmayı düzeltmeniz gerekiyorsa, bunun nedeni daha iyi beklenen kayıplara yol açmasıdır. Bu nedenle, bu sadece "felsefe" değil, son derece pratik bir konudur ve bunu çözmek için makul insanların kabul edebileceği rasyonel yollar vardır.
whuber

2
@whuber bazı durumlarda kesinlikle haklısın. Bazen mantıklı bir kayıp fonksiyonu vardır, ancak açıkça belirtilmesi genellikle zordur. Ancak diğer zamanlarda, örneğin keşif çalışmalarında, herhangi bir kayıp fonksiyonunun nasıl mümkün olduğunu görmekte sorun yaşıyorum. Tabii ki, tüm kayıp fonksiyonu fikri bizi p = .05'in kâse benzeri boyundan uzaklaştırır ve tipik olarak = = 8 veya .9 gücünün yeterince iyi olduğunu ve (aklıma) bunları daha sağlam temellere oturtuyoruz.
Peter Flom

1
Cevabınızın kapsamını ve ruhunu açıkladığınız için teşekkür ederiz Peter.
whuber

4
İnsanlar çokluk testinin önemli olmadığını söylediğinde çıldırıyorum. Bu tutumun tıbbi araştırmalarda çok sık ifade edildiğini görüyorum. Çokluk yok sayıldığı için yanlış sonuçlara ulaşan birçok makaleye işaret edebilirsiniz. Tıpta yanlış sonuçlara sahip bildirilerin yayınlanmaması önemlidir, çünkü hastaların nasıl tedavi edildiğini ve hayatların tehlikede olduğunu etkiler. Çokluk, yayın yanlılığına katkıda bulunur (çünkü bir konu birçok kez incelendiğinde, yalnızca önemli sonuçlara sahip çalışmalar yayınlanır), bu da meta analizde ciddi bir konudur,
Michael R. Chernick

1
@MichaelChernick, katılıyorum - insanlar çoklu test düzeltmelerini görmezden geldiğinde çok sorunlu. Ancak, Peter'ın iyi bir noktaya geldiğini düşünüyorum - çoklu testin kapsamı ne olmalı? Tüm testler tek bir kağıtta mı yapıldı? Tüm testler tek bir veri seti ile mi yapıldı? Tüm testler zamanın başından beri yapılıyor mu? Açıkça doğru bir cevap yok gibi görünüyor.
Makro

4

Gerçeklik hakkında bir kereye mahsus kararlar vermeye çalışıyorsanız ve sıfır hipotezini yanlış bir şekilde reddetme oranınızı kontrol etmek istiyorsanız, sıfır hipotez önem testi (NHST) kullanacaksınız ve çoklu karşılaştırmalar için düzeltmeyi kullanmak isteyeceksiniz. Ancak, Peter Flom'un cevabında belirttiği gibi, düzeltmenin uygulanacağı karşılaştırma kümesinin nasıl tanımlanacağı belirsizdir. En kolay seçim, belirli bir veri kümesine uygulanan karşılaştırmalar kümesidir ve bu en yaygın yaklaşımdır.

Bununla birlikte, bilim en iyi şekilde, bir kerelik kararların gerekli olmadığı ve aslında sadece kanıt birikiminin etkinliğini azaltmaya hizmet eden (elde edilen kanıtları tek bir bilgiye indirgeme) kümülatif sistem olarak düşünülebilir. Bu nedenle, olasılık analizleri (muhtemelen Bayesci yaklaşımlar da) gibi araçlar için NHST'den kaçınmak için istatistiksel analize uygun bir bilimsel yaklaşım izlenirse, çoklu karşılaştırmanın "sorunu" kaybolur.


1

Sorunuza bağlı olarak düzeltmenin olası bir alternatifi, p-değerlerinin toplamının önemini test etmektir. Daha sonra, yüksek p değerleri ekleyerek yapılmayan testler için kendinizi cezalandırabilirsiniz.

Fisher'in yönteminin (testin bağımsızlığını gerektiren) eklentileri (bağımsızlık gerektirmeyen) kullanılabilir.

Örneğin. Kost'un yöntemi


Bunlar, münferit çalışmalar sadece p-değerleri sağladığında veya veriler birleştirilemediğinde, ancak her çalışmada bir p-değeri hesaplandığında meta-analizde kullanılan prosedürlere örnektir. Ayrıca Fisher'ın kombinasyon yöntemi ve ters normal, uyarlanabilir tasarımlarda durdurma kuralları oluşturmanın yoludur.
Michael R.Chickick

1

Hatırlanması gereken çok önemli bir nokta, çoklu test düzeltmesinin bağımsız testler yapmasıdır. Analiz ettiğiniz veriler bağımsız değilse, işler yapılan testlerin sayısını düzeltmekten biraz daha karmaşık hale gelirse, analiz edilen veriler arasındaki korelasyonu hesaba katmanız gerekir, aksi takdirde düzeltmeniz muhtemelen çok muhafazakar olacaktır ve yüksek tip II hata oranına sahip. Doğru doğrulama, permütasyon testleri veya önyüklemenin düzgün kullanıldığında birden çok karşılaştırmayla başa çıkmanın etkili yolları olabileceğini fark ettim. Diğerleri FDR kullanarak bahsetmişlerdir, ancak p-değerlerinin null altındaki tüm testlerde aynı olduğunu varsayarsak verilerinizde çok fazla bağımsızlık yoksa bu yanlış sonuçlar verebilir.


2
Siteye hoş geldiniz, Matt. Açılış cezanızla ilgili: Hatırlanması gereken çok önemli bir nokta, çoklu test düzeltmesinin bağımsız testler yapmasıdır. Bunun bazı çoklu test düzeltme prosedürleri için geçerli olduğunu, ancak kesinlikle hepsi için geçerli olmadığını unutmayın. Örneğin, en basiti (Bonferroni) bağımsızlık varsayımı yapmaz ve eğer testler gerçekten bağımsız ise, aslında oldukça verimsizdir! :-) Ayrıca, sürekli bir dağıtım ortamında, tek bir (marjinal) dağılımp-değer, sıfırın altında eşit olacak; açıklamalarınızı netleştirmek için düzenlemeyi düşünebilirsiniz.
kardinal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.