Kolmogorov-Smirnov test fonksiyonunun çıktısını anlamaya çalışıyorum (iki örnek, iki taraflı). İşte basit bir test.
x <- c(1,2,2,3,3,3,3,4,5,6)
y <- c(2,3,4,5,5,6,6,6,6,7)
z <- c(12,13,14,15,15,16,16,16,16,17)
ks.test(x,y)
# Two-sample Kolmogorov-Smirnov test
#
#data: x and y
#D = 0.5, p-value = 0.1641
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, y) : cannot compute exact p-value with ties
ks.test(x,z)
#Two-sample Kolmogorov-Smirnov test
#data: x and z
#D = 1, p-value = 9.08e-05
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, z) : cannot compute exact p-value with ties
ks.test(x,x)
#Two-sample Kolmogorov-Smirnov test
#data: x and x
#D = 0, p-value = 1
#alternative hypothesis: two-sided
#
#Warning message:
#In ks.test(x, x) : cannot compute exact p-value with ties
Burada anlamadığım birkaç şey var.
Gönderen yardımıyla , p-değeri hipotezi ifade eder gibi görünüyor
var1=var2
. Ancak, burada testin (p<0.05
) yazdığı anlamına gelir :a. Bunu söyleyemem
X = Y
;b. Bunu söyleyebiliriz
X = Z
;c. Bunu söyleyemem
X = X
(!)
X'in kendisinden farklı olduğunu (!) Göstermenin x=z
yanı sıra, iki dağılımın sıfır örtüşen desteğe sahip olması da benim için oldukça garip . Bu nasıl mümkün olabilir?
Testin tanımına göre,
D
iki olasılık dağılımları arasındaki maksimum fark olması gerekir, ama durumda, örneğin(x,y)
olması gerektiğiD = Max|P(x)-P(y)| = 4
(zaman durumdaP(x)
,P(y)
normalize edilmemiş) ya daD=0.3
(bunlar normalize halinde). D neden bundan farklı?Birlikte çalıştığım verilerin çok fazla özdeş değeri olduğu için kasıtlı olarak birçok bağ ile örnek yaptım . Bu testi neden karıştırıyor? Tekrarlanan değerlerden etkilenmemesi gereken bir olasılık dağılımı hesapladığını düşündüm. Herhangi bir fikir?