Birden çok veri setindeki çoklu algoritmaların performansını karşılaştırıyorum. Bu performans ölçümlerinin normal olarak dağıtılacağı garanti edilmediğinden, Demšar'a (2006) dayanan Nemenyi post-hoc testiyle Friedman Testini seçtim .

Daha sonra, Shaffer post-hoc testiyle Quade testi gibi diğer yöntemleri önermek dışında, Nemenyi testini farklı şekilde uygulayan başka bir makale buldum.

Nemenyi post-hoc testini nasıl doğru şekilde uygulayabilirim?

1. Öğrenci aralığı istatistiğini mi kullanıyorsunuz?

Demšar'ın makalesinde, ortalama sıralama farkı kritik mesafe CD'sinden daha büyükse, boş hipotezi (iki algoritmanın performans farkı yok) reddettiğini söyler.

C D = q_{α} \sqrt{\frac{k (k + 1)}{6 N}}

$CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}}$

"qα değerlerinin Studentized range istatistiğine bölünmesiyle $\sqrt{2}.$ "

Biraz kazmadan sonra, bu "kritik değerler" in belirli alfalar için aranabileceğini buldum, örneğin bir tabloda $\alpha = 0.05$ , sonsuz serbestlik dereceleri için (her tablonun altında).

2. veya normal dağılımı mı kullanıyorsunuz?

Ne yapacağımı bildiğimi düşündüğümde, beni yine şaşırtan başka bir kağıt buldum, çünkü sadece normal dağılımı kullanıyorlardı. Demšar benzer bir şeyi 12. sayfada belirtiyor:

Bu yöntemleri kullanarak i-th ve j-th sınıflarını karşılaştırmak için test istatistikleri:
$z = \frac{(R_{i} - R_{j})}{\sqrt{\frac{k (k + 1)}{6 N}}}$ $z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}}$ Z değeri, normal dağılım tablosundan karşılık gelen olasılığı bulmak için kullanılır ve daha sonra uygun bir değerle karşılaştırılır. $\alpha$ . Testler, değerleri $\alpha$ çoklu karşılaştırmaları telafi etmek.

Bu paragrafta, tüm algoritmaları bir kontrol algoritmasıyla karşılaştırmaktan bahsediyordu, ancak "çoklu karşılaştırmaları telafi etmek için ayarladıkları şekilde farklılık gösteriyor" ifadesi, bunun Nemenyi testi için de geçerli olması gerektiğini gösteriyor.

Benim için mantıklı görünen şey p- değerini test istatistiğine dayanarak hesaplamak $z$ , normal olarak dağıtılır ve $k(k-1)/2$ .

Ancak bu, sıfır hipotezini reddetmek için tamamen farklı rütbe farklılıkları verir. Ve şimdi takıldım ve hangi yöntemi uygulayacağımı bilmiyorum. Benim için daha basit ve daha mantıklı olduğu için normal dağılımı kullanarak birine doğru eğiliyordum . Ayrıca tablolarda değerleri aramak gerek yok ve belirli önem değerlerine bağlı değilim.

Sonra tekrar, öğrenci aralığı istatistiği ile hiç çalışmadım ve anlamıyorum.

nonparametric multiple-comparisons post-hoc

— Nöbetçi
kaynak

5

Ayrıca bu soruya da bakmaya başladım.

Daha önce de belirtildiği gibi, her test için p değerlerini hesaplamak için normal dağılımı kullandığımızda, bu p değerleri birden fazla testi dikkate almaz. Bunu düzeltmek ve ailenin hata oranını kontrol etmek için bazı ayarlara ihtiyacımız var. Bonferonni, yani önem düzeyini bölmek veya ham p değerlerini test sayısı ile çarpmak, olası bir düzeltmedir. Birçok durumda daha az tutucu olan çok sayıda başka çoklu test p-değeri düzeltmesi vardır.

Bu p-değeri düzeltmeleri, hipotez testlerinin spesifik yapısını dikkate almaz.

Kruskal-Wallis veya Friedman testlerinde olduğu gibi sıra dönüştürülmüş veriler yerine orijinal verilerin ikili karşılaştırmasına daha aşinayım. Bu durumda, Tukey HSD testi olan çoklu karşılaştırma için test istatistiği, bağımsız örnekler varsayımı altında tüm çift karşılaştırmalar için dağılım olan öğrenci aralık dağılımına göre dağıtılır. Sayısal entegrasyon ile hesaplanabilen ancak genellikle tablolardan kullanılan çok değişkenli normal dağılım olasılıklarına dayanmaktadır.

Benim tahminim, teoriyi bilmediğim için, öğrenci aralığı dağılımının Tukey HSD ikili karşılaştırmalarına benzer bir şekilde sıralama testleri durumunda uygulanabileceğidir.

Dolayısıyla, (2) normal dağılım artı çoklu test p-değeri düzeltmeleri ve (1) öğrenci aralığı dağılımları kullanmak, test istatistiklerinin yaklaşık dağılımını elde etmenin iki farklı yoludur. Bununla birlikte, öğrencileştirilmiş aralık dağılımının kullanımı için varsayımlar karşılanırsa, tüm çift karşılaştırmalardaki özel sorun için tasarlandığından daha iyi bir yaklaşım sağlamalıdır.

— Josef
kaynak

1

Bildiğim kadarıyla, sadece 2 algoritmayı karşılaştırırken Demšar, Friedman + posthoc yerine Wilcoxon imzalı sıralama testini önerir. Ne yazık ki, demšar'ın k-1'e bölünmesinin ne anlama geldiğini deşifre etme konusunda sizin kadar şaşkınım.

— 5xum
kaynak

1

(K-1) 'e bölmek, birden çok algoritmayı bir kontrol yöntemiyle karşılaştırmanızdır. Ama bu her birine karşı, yani NxN. Anlayabildiğim bölünen kısım, ancak Öğrenci aralığı dağılımıyla ilişkisi benim anlayışımın ötesinde.

— Nöbetçi

@Sentry: Buradaki ayar faktörü ile çarpmalısınız, çarparak değil. Lütfen yukarıdaki cevabıma bakın.

— Chris

0

Ayrıca, normal veya öğrenci t-dağılımından p-değerini hesaplayıp hesaplamayacağımı araştırdım. Ne yazık ki, hala cevaplayamıyorum, çünkü farklı makaleler farklı yöntemler iletiyor.

Bununla birlikte, ayarlanan p-değerlerini hesaplamak için düzeltilmemiş p-değerini, bir kontrol yöntemiyle veya p * ((k * (k-1) )) / 2) nxn karşılaştırmaları için.

Ayar faktörüne bölmeniz gereken şey, düzeltilmemiş p'lerle karşılaştırıldığında alfa değeridir.

— Chris
kaynak

Friedman testinden sonra Nemenyi post-hoc testi nasıl doğru uygulanır?

Nemenyi post-hoc testini nasıl doğru şekilde uygulayabilirim?