Birden fazla karşılaştırmada p-değerleri ne zaman düzeltilir?


11

Korkarım ki ilgili sorular bana cevap vermedi. > 2 sınıflandırıcı (makine öğrenimi) performansını değerlendiriyoruz. Sıfır hipotezimiz performansların farklı olmadığıdır. Bu hipotezi değerlendirmek için parametrik (ANOVA) ve parametrik olmayan (Friedman) testleri yapıyoruz. Eğer anlamlılarsa, post-hoc bir görevde hangi sınıflandırıcıların farklı olduğunu bulmak istiyoruz.

Sorum iki yönlü:

1) Birden fazla karşılaştırma testinden sonra p-değerlerinin düzeltilmesi hiç gerekli mi? "Alphafehler Kumulierung" daki Alman Wikipedia sitesi, sorunun yalnızca aynı veriler üzerinde birden fazla hipotez test edilmesi durumunda ortaya çıktığını söylüyor. Sınıflandırıcıları (1,2), (1,3), (2,3) karşılaştırırken, veriler sadece kısmen çakışır. P değerlerinin düzeltilmesi hala gerekli mi?

2) P-değeri düzeltmesi genellikle bir t-testi ile çift testten sonra kullanılır. Nemenyi (parametrik olmayan) veya Tukey'in HSD testi gibi özel post-hoc testler yaparken de gerekli mi? Bu cevap Tukey HSD için "hayır" diyor: Tukey HSD testi çoklu karşılaştırmalar için doğru mu? . Bir kural var mı veya her potansiyel post-hoc test için bunu aramam gerekiyor mu?

Teşekkürler!


Neden hem ANOVA hem de Friedman testleri yapıyorsunuz ?
Alexis

Eğer parametrik varsayımlar karşılanmazsa, gözden geçirene hem parametrik hem de parametrik olmayan bir alternatif sunması gereken otomatik bir test çerçevesi ile ilgilidir.
Chris

1
Bahsettiğiniz omnibus testleri hakkında: (A) veri gruplarınız bağımsızsa, ANOVA (parametrik) veya Kruskal-Wallis (parametrik olmayan) testini kullanmalısınız; (B) gruplarınız bağımlıysa (örneğin tekrarlanan ölçümler), o zaman tekrarlanan ölçümler ANOVA (parametrik) veya Friedman (parametrik olmayan) testini kullanmalısınız. (Klasik) ANOVA ve Friedman testi alternatif olarak doğru gelmiyor.
GegznaV

Yanıtlar:


10

Soru 1'in cevabı
Tip I hatası yapma olasılığınızı önemsiyorsanız, çoklu karşılaştırmalar için ayar yapmanız gerekir. Metafor / düşünce deneyinin basit bir kombinasyonu yardımcı olabilir:

Piyangoyu kazanmak istediğinizi düşünün. Bu piyango, garip bir şekilde, size 0.05 kazanma şansı veriyor (yani 20'de 1). M , bu piyangodaki biletin maliyeti, yani tek bir piyango çağrısı için beklenen dönüşünüz M / 20'dir. Şimdi yabancı bile, bilinmeyen nedenlerden dolayı, bu maliyet, M , istediğiniz kadar piyango bileti almanıza izin veriyor (veya en az ikiden fazla). "Ne kadar çok oynarsanız, o kadar çok kazanırsınız" diye düşünerek bir sürü bilet alırsınız. Bir piyango çağrısında beklenen dönüşünüz artık M / 20 değil, biraz daha büyük bir şey. Şimdi "piyangoyu kazanma" yı "Tip I hatası vererek" ile değiştirin.

Hataları önemsemiyorsanız ve insanları tekrar tekrar ve alaycı bir şekilde dikkatinizi denizanası hakkında belirli bir karikatüre yönlendirmiyorsanız , o zaman devam edin ve çoklu karşılaştırmalar için ayarlama yapmayın.

"Aynı veri" sorunu , "aile" kavramı biraz belirsiz olduğundan, aile açısından hata düzeltme yöntemlerinde (örn. Bonferroni, Holm-Sidák, vb.) Ortaya çıkmaktadır. Bununla birlikte, yanlış keşif oranı yöntemleri (örneğin, Benjamini ve Hochberg, Benjamini ve Yeuketeli, vb.) Sonuçlarının farklı çıkarım grupları arasında sağlam olduğu bir özelliğe sahiptir.


Soru 2'nin cevabı
Test olarak adlandırılanlarda üslup ve disiplin farklılıkları olmasına rağmen, çoğu çift testin düzeltilmesi gerekir. Örneğin, bazı insanlar "Bonferroni t testlerine" atıfta bulunur (ki bu da düzgün bir numaradır) çünkü Bonferroni ne t testi ne de çoklu karşılaştırma için Bonferroni ayarını geliştirmedi :). Ben bunu tatmin edici bulmuyorum, çünkü (1) yaptığım çıkarımları etkili bir şekilde anlamak için bir grup istatistiksel test yürütmek ile çoklu karşılaştırmalar yapmak arasında bir ayrım yapmak istiyorum ve (2) sağlam bir tanımı üzerine kurulan yeni bir ikili test , o zaman birden fazla karşılaştırma için ayarlamalar yapabileceğimi biliyorum.α


2
Kapsamlı ve mizahi bir cevap için +1 (ve xkcd'ye atıfta bulunmak için). Özellikle, "Bonferroni-testi" ile "Bonferroni-düzeltmesi" arasında bir fark olup olmadığına dair henüz sözsüz olan sorumla da mücadele ettiniz. Yine de, çoklu karşılaştırma problemini sorun tanımım açısından açıklamak ister misiniz? Bir sınıflandırıcı, çizgi roman / mavi / yeşil / ... jöle fasulye ile bir tedavi grubu gibi anlıyorum.
Chris

@Chris Rica ederim ... Ne istediğini tam olarak bilmiyorum. Evet, çoklu karşılaştırmalar gereklidir. Evet, -değerlerini döndüren herhangi bir çift testte FWER veya FDR ayarlamaları yapabilirsiniz (prosedürler genellikle -değerlerini değiştirebilir veya reddetme seviyesini genel veya sıralı olarak değiştirebilir). ppp
Alexis

Bence bu iyi, çok teşekkür ederim! Piyango örneğini kullanım durumuma uygulamak biraz daha zaman alabilir, ama fikri anladım.
Chris

@Chris piyangonun sadece bir metafor olduğunu anlıyor. FWER veya FDR yöntemlerini uygulama konusunda yardıma ihtiyacınız varsa, Wikipedia girişlerine bakın, burada ilgili soruları arayın veya belki de bunun hakkında yeni bir soru sorun. :)
Alexis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.