Kolmogorov – Smirnov testi: p-değeri ve ks-test istatistiği örneklem büyüklüğü arttıkça azalır


12

P-değerleri ve ks-test istatistikleri, artan örneklem büyüklüğü ile neden azalıyor? Bu Python kodunu örnek olarak alalım:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

Sonuçlar:

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

Sezgisel olarak, n büyüdükçe, testin iki dağılımın farklı olduğundan "daha emin" olduğunu anlıyorum. Ancak örnek boyutu çok büyükse, bunun gibi benzerlik testlerinde nokta nedir ve Anderson Darling testi veya t-testi deyin, çünkü n çok büyük olduğunda, dağılımlar her zaman bulunacaktır. "önemli ölçüde farklı!? Şimdi dünyada p-değerlerinin ne olduğunu merak ediyorum. Örneklem büyüklüğüne çok bağlıdır ... p> 0.05 ise ve daha düşük olmasını istiyorsanız, sadece daha fazla veri alın; ve p <0.05 ise ve daha yüksek olmasını istiyorsanız, sadece bazı verileri kaldırın.

Ayrıca, iki dağılım aynı olsaydı, ks testi istatistiği 0 ve p değeri 1 olur. Fakat örneğimde, n arttıkça ks testi istatistiği dağılımların zamanla gittikçe daha benzer hale geldiğini (azalır) ancak p değerine göre zamanla daha da farklılaşırlar (azalır).


Bkz. Normallik testi 'esasen işe yaramaz mı? . Söylediklerinizin tam olarak doğru olmadığını unutmayın: eğer dağılımlar aslında aynıysa, örnek boyutunu artırsanız bile p-değerinin dağılımı eşit kalır.
Scortchi - Monica'yı eski durumuna döndürün

2
Bununla ilgili bir sorun yaşadım: stats.stackexchange.com/questions/301628/… Bu beni bu test hakkında gerçekten şüpheci kıldı.
Aleksandar Jovanovic

Doğru, yeterli veri ile, rastgele küçük ancak sıfır olmayan efekt boyutlarının istatistiksel olarak anlamlı olduğunu gösterebilirsiniz. Buradaki anahtar, istatistiksel anlamlılık ile pratik anlamlılık arasındaki farkı tanımaktır. Homer Simpson'ı yanlış kullanmak için, "uzaktan bile doğru olan her şeyi kanıtlamak için p değerlerini kullanabilirsiniz".
Nükleer Wang

Yanıtlar:


5

Test istatistiği azalır, çünkü dağılımlarınız çok benzerdir ve daha büyük numuneler daha az gürültüye sahiptir. Kullandığınız iki teorik dağılımı karşılaştırırsanız, "gerçek" KS istatistiğini almalısınız. Daha fazla veri ekledikçe, tahmini KS istatistiğiniz bu gerçek değere yaklaşmalıdır. Bununla birlikte, KS istatistiğiniz azalsa bile, güveniniz iki farklı dağılım olduğuna (yani p-değeri azalır) olan güveniniz artar, çünkü bireysel dağılım tahminlerine daha fazla güvenirsiniz.


3

Pratik bir not: Daha fazla veri elde etmek o kadar kolay değil (ben olsaydı). Sadece almak için verileri kaldırmapİstediğiniz değer akademik sahtekarlıktır ve yakalanırsanız başınız belaya girer.

Yine de haklısın p-değer tek başına sınırlı bir değere sahiptir. En iyi ihtimalle analizin sadece başlangıcı ve kesinlikle sonu değil. Daha fazla bilgi için ASA'nınpdeğerleri .


Referansınız için teşekkürler, ancak ks testi istatistiği neden daha büyük n'yi azalttığından emin değilim.
Oliver Angelil
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.