Kolmogorov-Smirnov testi kesikli dağılımlarda geçerli midir?


29

Bir örneği karşılaştırıp bazı, ayrık, dağılım olarak dağıtıp dağıtmadığını kontrol ediyorum. Ancak, Kolmogorov-Smirnov'un uygulandığından emin değilim. Vikipedi öyle olmadığı anlamına geliyor. Olmazsa, numunenin dağılımını nasıl test edebilirim?


+1 Yanlışlıkla KS Testini verilere (çok sayıda) bağlı verilerle uygulamanın güzel bir örneği, Real-statistics.com/non-parametric-tests/goodness-of-fit- adresindeki bir Excel istatistik eki için yardım sayfasında verilmiştir. testler /… . Sonuç birçok nedenden dolayı yanlıştır. Uyarıcı lektörü!
whuber

Kesikli boş dağılımlar için KS testleri mevcuttur: en.wikipedia.org/wiki/…
Astrid,

Yanıtlar:


14

Ayrık dağılımlar için geçerli değildir. Bkz http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm örneğin.

Ki-kare uyum iyiliği testini kullanamamanızın bir nedeni var mı? Daha fazla bilgi için http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm adresini ziyaret edin .


İzinsiz giriş için üzgünüm ama neden sürekli dağıtım için geçerli olduğunu gerçekten anlamıyorum (KS ve diğer doğrulama testleri). Birisi bana bu gerçeği açıklayabilir mi?
Maurizio

6
@Maurizio - KS test istatistiği, tüm sürekli dağılımlar altında aynı dağılıma sahiptir , ancak eğer gerçek dağılım sürekli değilse ve bir dağılımın sürekli olduğunu varsayarsak, testin gerçek seviyesini varsayarak bir seviye testi oluşturmaya çalışırsa daha az a . (cf Lehmann & Romano Test İstatiksel Hipotezler, Üçüncü Baskı , s. 584). KS istatistiklerine göre seviye α testi yapabilirsiniz , ancak kritik değeri elde etmek için başka bir yöntem bulmanız gerekir, örneğin simülasyon yoluyla. ααα
DavidR


7

İstatistiklerde sıklıkla olduğu gibi, ne demek istediğinizi temel alır .

  1. "Test istatistiğimi belirli bir dağılımdan çizilen bir örnek üzerinde hesaplarım ve sonra standart tablolara bakarım" demek isterseniz, o zaman seçtiğinizden daha düşük (muhtemelen çok daha düşük) gerçek bir tip I hata oranı elde edersiniz.

    Dağılımın ne kadar “ayrık” olduğuna bağlıdır. Herhangi bir sonucun olasılığı oldukça düşükse (bu nedenle verilerdeki bağlı değerlerin oranının düşük olması beklenir) o zaman çok önemli olmayacaktır - çoğu insan 5'i çalıştırmada sorun yaşamazdı % 4.5,% test diyor. Örneğin, [1,1000] üzerinde ayrı bir üniforma test ediyorsanız, muhtemelen endişelenmenize gerek yoktur.

    Ancak, bir değere bağlı bir yüksek olasılık varsa, o zaman Tip I hata oranı üzerindeki etkisi işaretlenebilir. 0.05 istediğinizde 0.005 anlamlılık seviyesine sahipseniz, buna bağlı olarak gücü etkileyeceği için bu bir sorun olabilir.

  2. Bunun yerine "Ayrık bir dağılımdan çizilmiş bir örnek üzerinde test istatistiğimi hesaplarım ve daha sonra uygun bir kritik değer kullanırım / durumum için uygun bir p-değeri hesaplarım" (örneğin, bir permütasyon testi ile) Tabii ki, doğru tip I hata oranını alacağınız ve tabii ki test istatistiklerinin mahremiyetine kadar kesinlikle geçerlidir . (Her ne kadar sürekli durumda olduğu gibi, kendi amacınız için daha iyi testler olsa da)

    Test istatistiğinin kendi dağılımının artık dağılımsız olmadığını, ancak bir permütasyon testinin bu konuyu önlediğini unutmayın.

Bu yüzden bazen standart tabloları ayrık dağılımlarda bile kullanmakta sorun yoktur ve tamam olmasa bile, sorunla ilgili kullandığınız kritik değerler / p değerleri kadar test istatistiği değildir.


Her zamanki Glen, cevabın yüksek kalitede. Fakat belki de en iyi yanı, bu yazıdaki istatistikçiler hakkında yaptığım şakayı “buna bağlı” diyerek yinelemeniz olabilir! stats.stackexchange.com/questions/182442/…
Sycorax, Monica

1
@ user777 yanlışlıkla değildi; beni eğlendirdi ve bu soruyu okuduğumu düşünüyordum, "peki, duruma göre değişir" ... bu yüzden yazınızı yankılamanın açıkça söylendiğinden emin oldum.
Glen_b

1
Akşamım daha da iyi oldu. Şerefe!
Sycorax, Reinstate Monica,

2

XFF(X)XXF(X)=X

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.