Kolmogorov-Smirnov testini kullanabilir ve dağıtım parametrelerini tahmin edebilir miyim?


14

Kolmogorov-Smirnov testinin, parametreleri numuneden tahmin edilen bir dağılımın uygunluğunu test etmek için kullanılmaması gerektiğini okudum.

Numunemi ikiye bölmek ve parametre tahmininde ilk yarıyı KS testi için ikinci yarıyı kullanmak mantıklı mı?

Şimdiden teşekkürler


1
Hangi dağılıma karşı test etmek istiyorsunuz ve neden?
gung - Monica'yı eski durumuna döndürün

Verilerin üstel bir dağılım izlediğinden şüpheleniyorum.
sortega

Yanıtlar:


13

Daha iyi bir yaklaşım, p-değeri için kritik değerinizi simülasyonla hesaplamaktır. Sorun, varsayılmış değerleri kullanmak yerine verilerden parametreleri tahmin ettiğinizde KS istatistiğinin dağılımının boş dağılımı izlememesidir.

Bunun yerine KS testindeki p-değerlerini yok sayabilir ve bunun yerine, gerçek verilerinizle aynı boyuttaki aday dağıtımından (anlamlı bir parametre kümesiyle) bir grup veri kümesini simüle edebilirsiniz. Daha sonra her set için parametreleri tahmin edin ve tahmini parametreleri kullanarak KS testini yapın. P-değeriniz, orijinal verilerinizden daha fazla dışlanan benzetilmiş setlerden test istatistiklerinin oranı olacaktır.


2
Çözümü biraz kafa karıştırıcı buluyorum (en azından benim için); aday dağılımı için "anlamlı bir parametre kümesi" ne demek? Başlangıçta aday dağılımının parametrelerini bilmiyorsunuz, “anlamlı parametre seti” nin ne olduğunu nasıl bilebilirsiniz?
Néstor

Bir fark yaratıp yaratmadığını görmek için farklı parametre kümelerini deneyebilirsiniz (normal için yapmaz, ancak bazı dağılımlar olabilir). Sonra verilerinizin arkasındaki bilimi düşünün veya bölgedeki bir uzmanla konuşun, nereden başlayacağınıza dair genel bir fikir edinebilmelisiniz, örneğin Nijerya'da yetişkin erkeklerin ortalama boyunun ne olduğu hakkında bir fikrim var, ama ben olumlu ve 3 metreden az olduğundan emin.
Greg Snow

@GregSnow Şu anki işimle alakalı olduğu için bu yazıyla karşılaştım. Önerdiğiniz yöntem için herhangi bir teorik gerekçe olup olmadığını merak ediyordum. Yani, önerilen "p-değeri" nin gerçekten 0'dan 1'e eşit olarak dağıldığını nasıl bilebiliriz? Önerilen p değeri geleneksel n değeri gibi görünmüyor çünkü Null hipotezi artık bir dizi dağıtımdır
renrenthehamster

@renrenthehamster, iyi bir noktanız var, bu yüzden farklı koşullar altında simüle etmeyi önerdim. Bazı dağılımlar için (normali beklerim) çok önemli olmayacaktır, ancak diğerleri farklı gerçek parametre değerleri için farklı kesimler gerektirebilir. Bu durumda, kullanıcı (hem), hem dağıtımın şeklini hem de sizin rahat olduğunuz bir dizi parametreyi içeren anlamlı bir boş değer bulmanız gerekir.
Greg Snow

1
@LilyLong, simülasyonlar eskiden çok daha zor ve zaman alıcıydı, bu yüzden testler simülasyondan daha hızlı / daha kolay olacak şekilde geliştirildi, bazı erken tablolar simülasyonla oluşturuldu. Birçok test artık kolayca simülasyonla değiştirilebilir, ancak gelenek ve sadelik nedeniyle muhtemelen bir süre daha bizimle olacak.
Greg Snow

7

Örnek bölme, istatistiğin dağılımı ile ilgili sorunu belki azaltabilir, ancak kaldırmaz.

Fikriniz, tahminlerin aynı örneğe dayandığı için nüfus değerlerine göre 'çok yakın' olacağı sorununu önler.

Hala tahmin ettikleri problemden kaçınmıyorsunuz. Test istatistiğinin dağılımı tablo halinde verilmemiştir.

Bu durumda, önemli ölçüde azaltmak yerine, sıfırın altındaki reddetme oranını artırır.

Daha iyi bir seçim, Shapiro Wilk gibi parametrelerin bilinmediği bir test kullanmaktır.

Kolmogorov-Smirnov tipi bir teste bağlıysanız, Lilliefors'un testine yaklaşabilirsiniz.

Yani, KS istatistiğini kullanmak ancak test istatistiğinin dağılımının parametre tahmininin etkisini yansıtmasını sağlamak - test istatistiğinin parametre tahmini altında dağılımını simüle edin. (Artık dağıtımdan bağımsız değil, bu nedenle her dağıtım için yeni tablolara ihtiyacınız var.)

http://en.wikipedia.org/wiki/Lilliefors_test

Liliefors, normal ve üstel durum için simülasyon kullandı, ancak herhangi bir belirli dağıtım için kolayca yapabilirsiniz; R gibi bir şeyde 10.000 veya 100.000 örneği simüle etmek ve test istatistiğinin null altında dağılımını sağlamak anlar meselesidir.

[Alternatif, aynı konuya sahip olan Anderson-Darling'i düşünmek olabilir, ancak bu - D'Agostino ve Stephens'in ( uygunluk teknikleri ) kitabından yola çıkarak konuya daha az duyarlı görünüyor. Lilliefors fikrini uyarlayabilirsiniz, ancak oldukça iyi işleyen nispeten basit bir ayarlama önermektedirler.]

Ama yine de başka yaklaşımlar var; örneğin, bazı özel durumlarda parametre tahmini ile başa çıkabilen (örneğin Rayner ve Best'in kitabına bakınız) uygunluk iyiliği testlerinin aileleri vardır.

* etki hala oldukça büyük olabilir - belki de normal olarak kabul edilebilir olarak kabul edilenden daha büyük olabilir; Momo bu konuda endişelerini dile getirmekte haklıdır. Daha yüksek bir tip I hata oranı (ve daha düz bir güç eğrisi) bir sorunsa, bu bir iyileşme olmayabilir!


1
"Örnek bölünmenin istatistiğin dağılımı ile sorunu nasıl çözeceğini" açıklayabilir misiniz? Kanımca, parametreler bir alt örnekten tahmin edilecek ve daha sonra ikinci alt numunenin KS testi için takılacak, ancak parametreler yine de null dağılımında hesaba katılmayan örnekleme hatası ile ilişkilendirilecektir. Bu bana benzer bir fikri olan bir örneği normal bir dağılımdan ayırabiliyormuş gibi geliyor, bir alt örnekte standart sapmaları tahmin edin ve ikinci alt örnekte t-dist yerine standart normal ile ortalama bir karşılaştırma yapın.
Momo

1
@Momo 'çözmek' çok güçlü; 'azaltmak' daha iyidir. Parametreler test ettiğiniz aynı gözlemlerden tahmin ediliyorsa, - bu etkiyi hesaba katmazsanız - numunenin dağıtımdan sapmaları 'çok küçük' olacaktır - ret oranı azalır . Başka bir örnek kullanıldığında bu etki kaldırılır. İkinci bir numuneden tahmin edilmesinden kaynaklanan parametre değerleri hala örnekleme hatasından muzdariptir. Bunun test üzerinde bir etkisi olacaktır (tip I hata oranını yükseltir), ancak her ikisi için de aynı verileri kullanmanın dramatik önyargı etkisi olmaz.
Glen_b

@Momo 'çözmek' kaldırmak ve bazı açıklama ile değiştirmek için yorum düzenledim
Glen_b -Restate Monica

5

Korkarım bu sorunu çözmez. Sorun, parametrelerin aynı örnekten değil, herhangi bir örnekten tahmin edildiği inancındayım . KS testinin olağan null dağılımının türetilmesi, referans dağılım parametrelerinde herhangi bir tahmin hatasını hesaba katmaz, aksine verilenleri görür. Ayrıca , bu konuları uzun süre tartışan ve çözümler sunan Durbin 1973'e bakınız .


1
Bunlar aslında iki ayrı problem. Parametreleri tahmin etmek ve KS-Testini yapmak için aynı verileri kullanırsanız, genellikle şişirilmiş p-değerlerini görürsünüz , çünkü esasen verilere karşı test etmeden önce dağılımı uyarlarsınız . Bununla birlikte, iki bağımsız örnek seti kullanırsanız, durum böyle değildir. Ancak, kesin olmayan parametre tahminleri , bu durumda elde ettiğiniz p değerlerini düşürebilir , çünkü şimdi esasen (biraz) yanlış dağıtıma karşı test ediyorsunuz .
fgp
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.