Kolmogorov-Smirnov testi neden çalışıyor?


25

2 örnekli KS testi hakkında okurken, tam olarak ne yaptığını biliyorum ama neden işe yaradığını anlamıyorum .

Başka bir deyişle, ampirik dağılım fonksiyonlarını hesaplamak, D istatistiklerini bulmak için ikisi arasındaki maksimum farkı bulmak, kritik değerleri hesaplamak, D istatistiklerini bir p değerine dönüştürmek vb.

Ancak, bunların hiçbirinin neden iki dağıtım hakkında bir şey söylediğini bilmiyorum.

Birisi bana bir eşeğe atlamam gerektiğini ve ne kadar hızlı kaçtığını ve hızın 2 km / s'den daha az olması durumunda null hipotezini reddettiğimi söyleyebilir. Yapmamı istediğin şeyi yapabilirim, fakat bunların boş hipotezle ne ilgisi var?

2 örnekli KS testi neden çalışıyor? ECDF'ler arasındaki maksimum farkın, iki dağıtımın ne kadar farklı olduğu ile ilgili ne yapması gerekir?

Herhangi bir yardım takdir edilmektedir. Ben istatistikçi değilim, mümkünse aptal olduğumu varsayalım.


4
CV'ye hoş geldin, Darcy! Harika soru!
Alexis

1
Bir eşeğin üzerinden atla ... :)
Richard Hardy

Yanıtlar:


9

Temel olarak, test, ampirik süreçlerin ve belki de istatistiklerin en önemli sonuçlarından biri olan Glivenko Cantelli teoreminin doğrudan bir sonucu olarak tutarlıdır.

GC, Kolmogorov Smirnov test istatistiğinin , sıfır hipotezi altında olarak 0'a gittiğini söyledi . Gerçek analizle boğuşana ve teoremleri sınırlayana kadar sezgisel görünebilir. Bu bir vahiydir, çünkü işlem sayılmaz bir şekilde sınırsız sayıda rastgele işlem olarak düşünülebilir, bu nedenle yasalar veya olasılık her zaman epsilon sınırını aşabilecek bir noktanın olduğuna inanır, ancak hayır, supremum'un yakınlaşacağına inanır. uzun koşu.n

Ne kadar? Mmyyeeaa bilmiyorum. Testin gücü biraz şüpheli. Asla gerçek hayatta kullanmam.

http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf


2
+1 Merhaba AdamO! İktidarı "biraz şüpheli" olmakla bir ila iki cümle mi aldın? Bu perspektifi sevmek isterdim (Testin kolayca "aşırı güç" sayıldığı sonucuna vardım).
Alexis

1
Test etkisiz hale edilmez @Alexis, neredeyse boş gerçek olmasını bekliyoruz asla RL, daha doğrusu biz sadece umurumda değil arasındaki 0,1 bakış açılarından farklı yüzdelik 99,999-th olmadığını ve ., Bu yüzden gördüklerinde dan KS testi, bence bütün "bir yanlış negatif olduğunu" ve ben gördüklerinde olduğu bence "dee-do çığlık-Senin o kadar ne söylenebilir ki bu ?". Güçlü boş hipotezin testleri bilimsel kanıt sunmanın zorlayıcı bir yolu değildir. F 2 p > 0,05 p < 0,05 F 1 = F 2F1F2p>0.05p<0.05F1=F2
AdamO

1
Tamam. Farklılık için hipotez testlerinden endişe duyuyorum. Peki iktidar hakkındaki endişeniz neredeyse kesinlikle ' nin basit ontolojik inancından mı kaynaklanıyor? ya da asimptotikle ilgili daha fazla matematik var mı, yoksa başka bir şey var mı? F 2F1F2
Alexis

2
@Alexis hayır, testin matematiği ile ilgili endişelerim yok. Aslında, bence oldukça zarif ve limit teoremi sonucu çok etkileyici.
AdamO

2
Ben diyecekler @Alexis, bu ayarlarda olduğu için olası tam olarak eşit olacak şekilde test oldukça kullanışlı olabilir. Pek çok önemli bilimsel uygulamanın bu tasarıya uymadığını, ancak yazdığınız bazı yazılımların bilinen bir dağıtımdan sözde rasgele sayılar ürettiğini doğrulamak istediğiniz istatistiksel bir hesaplama bağlamında kabul ediyorum. Olasılık alanlarına bakmaktan alacağınız sezgiyi etkili bir şekilde kodlar. F 2F1F2
jcz

9

İki bağımsız, tek değişkenli örneğimiz var:

X1,X2,...,XNiidFY1,Y2,...,YMiidG,
burada ve sürekli kümülatif dağılım fonksiyonlarıdır. Kolmogorov-Smirnov testi, Boş hipotez doğruysa, ve aynı dağıtımdan örneklerdir. Bunun için gereken tüm ve olmak farklı dağılımlarının çizer içindir veGF
H0:F(x)=G(x)for all xRH1:F(x)G(x)for some xR.
{Xi}i=1N{Yj}j=1MXiYjFGen az bir değerinde herhangi bir miktarda farklılık göstermek için . Bu yüzden, KS testi ve her numunenin ampirik CDF'leriyle tahmin ediyor , ikisi arasındaki en büyük nokta farkına dayanıyor ve bu farkın sonucuna varmak için "yeterince büyük" olup olmadığını soruyor. bazı .xFGF(x)G(x)xR


8

Sezgisel bir çekim:

Kolmogorov-Smirnov testi, temelde dağıtım yoluyla gözlemlerin sırasına dayanıyor. Mantık, eğer iki temel dağılım aynıysa, o zaman - örneklem büyüklüğüne bağlı olarak - sıralamanın ikisi arasında oldukça iyi bir şekilde karıştırılması gerektiğidir.

Numune siparişi yeterince aşırı bir şekilde "karıştırılmamışsa" (örneğin, dağılımındaki gözlemlerin tamamı veya çoğu , dağılımını çok daha büyük hale getirecek olan dağılımındaki gözlemlerden önce gelir ) temel dağılımların aynı olmadığı hipotezi.YX DXD

İki örnek dağılımının iyi karıştırılması durumunda, çok büyük olma fırsatına sahip olmaz, çünkü ve sıralı değerleri birbiriyle eşleşme eğiliminde olur ve boş değeri reddetmek için yeterli kanıtınız olmaz .DXY

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.