Kruskal-Wallis yerleşik R işlevi ve manuel hesaplama arasında hafif tutarsızlık

Aşağıdakiler yüzünden kafam karıştı ve başka bir yerde cevabı bulamadım.

Bazı istatistikleri yaparken R'yi öğrenmeye çalışıyorum ve bir egzersiz olarak, R'deki gibi 'elle' de yaparak yerleşik R işlevlerinin sonuçlarını iki kez kontrol etmeye çalışıyorum. , Kruskal-Wallis testi için farklı sonuçlar almaya devam ediyorum ve nedenini anlayamıyorum.

Örneğin, bir alıştırmada verilen aşağıdaki verilere bakıyorum

activity <- c(2, 4, 3, 2, 3, 3, 4, 0, 4, 3, 4, 0, 0, 1, 3, 1, 2, 0, 3, 1, 0, 3, 4, 0, 1, 2, 2, 2, 3, 2) 
group <- c(rep("A", 11), rep("B", 10), rep("C", 9))
group <- factor(group)
data.raw <- data.frame(activity, group)

Etkinliği grup bazında analiz etmek istiyorum. Önce yerleşik R işlevini kullanarak bir Kruskal-Wallis testi yapıyorum

kruskal.test(activity ~ group, data = data.raw)

Hangi döndürür . $H = 8.9056$

Tekrar kontrol etmek için, R'de aynı 'elle' yapmaya çalışıyorum, aşağıdaki (şüphesiz çaresiz) kodla

rank <- rank(activity)
data.rank <- data.frame(rank, group)
rank.sum <- aggregate(rank ~ group, data = data.rank, sum)

x <- rank.sum[1,2]^2 / 11 + rank.sum[2,2]^2 / 10 + rank.sum[3,2]^2 / 9
H <- (12 / (length(activity) * (length(activity) + 1))) * x - 3 * (length(activity) + 1)
H

Bu, aşağıdaki formülü yansıtmak içindir:

'H = \frac{12}{N- (N- + 1)} Σ_{ben = 1}^{g} (\frac{{R,}_{ben}^{2}}{n_{ben}}) - 3 (N- + 1)

$H =\frac{12}{N(N+1)}\sum_{i = 1}^g \left(\frac{R^2_i}{n_i} \right) - 3(N + 1)$

Burada toplam gözlem sayısı, gruplarının sayısı, gözlem sayısı inci grubu ve saflarına toplamıdır inci grup. $N$ $g$ $n_i$ $i$ $R_i$ $i$

Ve şimdi elde , ki bu da benim karışıklığımı ekleyerek, söz konusu egzersiz için verilen cevaptır. Bunu birkaç farklı veri kümesi için denedim ve yerleşik işlevi kullanarak için biraz daha yüksek bir değer elde etme eğilimindeyim . $H = 8.499$ $H$

Neyi yanlış yaptığımı veya anlayamadığımı anlamaya çalıştım, ama boşuna. Herkes dahili kruskal.testfonksiyonun neden bir şeyleri heceleyerek elde ettiğim değerden farklı bir değer döndürdüğünü anlamama yardımcı olabilir mi?

r kruskal-wallis ties

— MSR
kaynak

kruskal.testbu Wikipedia makalesinde (nokta 4) açıklanan bağlar için bir düzeltme uygular :

Önceki noktada açıklanan kısa yol formülünü kullanarak bağlar için düzeltme, H'yi , ... $1 - \frac{\sum_{i=1}^G (t_i^3 - t_i)}{N^3-N}$

Kodunuz devam ediyor:

TIES <- table(activity)
H / (1 - sum(TIES^3 - TIES)/(length(activity)^3 - length(activity)))
#[1] 8.9056

Kullanarak görebileceğiniz kodu dikkatlice inceleyerek R işlevinin ne yaptığını öğrenebilirsiniz getAnywhere(kruskal.test.default).

— Roland
kaynak

@MichaelChernick Hayır, değil. Mesele şu ki, OP'ye sadece bir bağ yoksa kullanılması gereken testin basitleştirilmesi öğretildi.

— Roland

@MichaelChernick Stack Overflow'a uymayacağını söylemiyorum. Ama CV'ye eşit derecede uyduğunu iddia ediyorum. Açıkçası, OP sadece kodlarını değil, aynı zamanda kullandıkları formülleri de paylaşsaydı faydalı olurdu.

— Roland

@Michael Bu iş parçacığının durumu kolay bir çağrıdır: istatistiksel olarak anlamaya çalıştığı için dürüstçe düşünüyoruz.

— whuber

Kodda yansıtılan formülü içerecek şekilde düzenlendi. Bunu ilk kez yapmayı düşünmeliydim. Özür.

— MSR

Ayrıca bağlar için orta sarımları kullanan R Hmiscpaketi spearman2fonksiyonuna ve FKruskal-Wallis'i almak için bir sınamaya bakın. Bunun bazı yöntemlerden daha doğru olduğunu düşünüyorum.

— Frank Harrell