Kolmogorov-Smirnov testinin p-değeri nasıl yorumlanır (python)?


30

Aynı dağılımdan alınmışlarsa (python kullanarak) test etmek istediğim iki örneğim var. Bunu yapmak için scipy.stats'dan gelen ks_2samp istatistiksel fonksiyonunu kullanıyorum. 2 değer döndürüyor ve bunları nasıl yorumlayacağımı zor buluyorum. Yardım lütfen!

Yanıtlar:


23

Stijn'in işaret ettiği gibi, ks testi bir D istatistiği ve D istatistiğine karşılık gelen bir p değeri döndürür. D istatistiği, iki örneğin CDF'leri arasındaki mutlak maksimum mesafedir (supremum). Bu sayıya ne kadar yakınsa, iki numunenin de aynı dağılımdan alınması muhtemeldir. Ks testi için Wikipedia sayfasına göz atın. İyi bir açıklama sağlar: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Ks testi tarafından döndürülen p değeri, diğer p değerleri ile aynı yoruma sahiptir. Eğer p değeri anlamlılık seviyenizden az ise, iki numunenin aynı dağılımdan alındığına dair boş hipotezi reddedersiniz. Prosedürle ilgileniyorsanız, D istatistiğinin bir p-değerine dönüştürülmesi için çevrimiçi olarak tabloları bulabilirsiniz.


Cevabınız için teşekkür ederim. Aslında, 2 ve D değerlerinin anlamını biliyorum ama aralarındaki ilişkiyi göremiyorum. Anlamlılık seviyesini nasıl tanımlayabilirim? D istatistiğinin p değerine dönüştürülmesi için bana bir link verebilir misiniz?
meri

Tabii, D statüsünü p-değerine çevirme tablosu: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf
CrossValidatedTrading

@CrossValidatedTrading: D-stat-to-p-value tablosuna bağlantınız şimdi 404.
james.garriss

@CrossValidatedTrading 2 taraflı KS testindeki p değerleri ile D değerleri arasında bir ilişki olmalı mı? Bazı durumlarda, D-istatistiğinin p-değeri ile arttığı, orantılı bir ilişki gördüm. Bunun tersi olur gibi görünüyor: daha büyük farklara sahip iki eğrinin (daha büyük D-istatistiği), daha belirgin şekilde farklı olacağı (düşük p-değeri) ...
Thomas Matthew

p değeri> 0.05 ise, iki örneğiniz aynı ve dengeli olmalıdır.
user798719

5

Ks_2samp için bir Google araması yaparken, ilk hit bu web sitesidir. Üzerinde fonksiyon özelliğini görebilirsiniz:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

A ve b parametreleri benim veri dizilimimdir veya ks_2samp kullanmak için CDF'leri hesaplamalı mıyım?
meri

@meri: Bağlantı verdiğim sayfada bir örnek var.
Stijn
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.