P-değerleri ve ks-test istatistikleri, artan örneklem büyüklüğü ile neden azalıyor? Bu Python kodunu örnek olarak alalım:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Sonuçlar:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Sezgisel olarak, n büyüdükçe, testin iki dağılımın farklı olduğundan "daha emin" olduğunu anlıyorum. Ancak örnek boyutu çok büyükse, bunun gibi benzerlik testlerinde nokta nedir ve Anderson Darling testi veya t-testi deyin, çünkü n çok büyük olduğunda, dağılımlar her zaman bulunacaktır. "önemli ölçüde farklı!? Şimdi dünyada p-değerlerinin ne olduğunu merak ediyorum. Örneklem büyüklüğüne çok bağlıdır ... p> 0.05 ise ve daha düşük olmasını istiyorsanız, sadece daha fazla veri alın; ve p <0.05 ise ve daha yüksek olmasını istiyorsanız, sadece bazı verileri kaldırın.
Ayrıca, iki dağılım aynı olsaydı, ks testi istatistiği 0 ve p değeri 1 olur. Fakat örneğimde, n arttıkça ks testi istatistiği dağılımların zamanla gittikçe daha benzer hale geldiğini (azalır) ancak p değerine göre zamanla daha da farklılaşırlar (azalır).