Korkarım ki ilgili sorular bana cevap vermedi. > 2 sınıflandırıcı (makine öğrenimi) performansını değerlendiriyoruz. Sıfır hipotezimiz performansların farklı olmadığıdır. Bu hipotezi değerlendirmek için parametrik (ANOVA) ve parametrik olmayan (Friedman) testleri yapıyoruz. Eğer anlamlılarsa, post-hoc bir görevde hangi sınıflandırıcıların farklı olduğunu bulmak istiyoruz.
Sorum iki yönlü:
1) Birden fazla karşılaştırma testinden sonra p-değerlerinin düzeltilmesi hiç gerekli mi? "Alphafehler Kumulierung" daki Alman Wikipedia sitesi, sorunun yalnızca aynı veriler üzerinde birden fazla hipotez test edilmesi durumunda ortaya çıktığını söylüyor. Sınıflandırıcıları (1,2), (1,3), (2,3) karşılaştırırken, veriler sadece kısmen çakışır. P değerlerinin düzeltilmesi hala gerekli mi?
2) P-değeri düzeltmesi genellikle bir t-testi ile çift testten sonra kullanılır. Nemenyi (parametrik olmayan) veya Tukey'in HSD testi gibi özel post-hoc testler yaparken de gerekli mi? Bu cevap Tukey HSD için "hayır" diyor: Tukey HSD testi çoklu karşılaştırmalar için doğru mu? . Bir kural var mı veya her potansiyel post-hoc test için bunu aramam gerekiyor mu?
Teşekkürler!