Bir veri örneğinin Gamma dağılımı ailesine uyup uymadığını nasıl test edebilirim?


13

Sürekli rasgele bir değişken X'ten üretilen bir veri örneğim var. Ve R kullanarak çizilen histogramdan, X'in dağılımının belirli bir Gamma dağılımına uyduğunu tahmin ediyorum. Ama bu Gamma dağılımının kesin parametrelerini bilmiyorum.

Sorum X'in dağılımının bir Gamma dağılımı ailesine ait olup olmadığını nasıl test edeceğim? Kolmogorov-Smirnov testi, Anderson-Darling testi ve benzeri gibi bazı uyum iyiliği testleri vardır, ancak bu testleri kullanırken kısıtlamalardan biri, teorik dağılım parametrelerinin önceden bilinmesi gerektiğidir. Birisi bana bu sorunun nasıl çözüleceğini söyler mi?


Belki de bir şey eksik, ama dağıtımın uyumunu test etmek için bir test zaten biliyorsanız ve bilmeniz gereken tek şey teorik dağılımın değerleridir, o zaman gama parametrelerinin maksimum olabilirlik tahmincilerini kullanabilirsiniz parametrelerin tahminlerini almak için verilerinize dağıtım. Daha sonra bu tahminleri testinizdeki teorik dağılımı tanımlamak için kullanabilirsiniz.
David

David, cevabın için teşekkürler. Cevap da düşündüğüm şey, ama bu fikri destekleyebilecek bazı teoriler olup olmadığından emin değilim, bana cevap verebilir misiniz?
user8363

R kullanıyorsanız, bu tür şeyleri yapmak için imkanları olan fitdistrplus paketine bir göz atmak isteyebilirsiniz .
gung - Monica'yı eski haline getirin

Yanıtlar:


8

Soru, histogram karşılaştırması için değil, kesin bir istatistiksel test ister. Kullanırken tahmini parametrelerle Kolmogorov-Smirnov testi hiç tahmin parametresi ile durum tersine, boş altında test istatistiğinin dağılımı, test dağılımına bağlıdır. Örneğin, (R cinsinden)

x <- rnorm(100)
ks.test(x, "pnorm", mean=mean(x), sd=sd(x))

sebep olur

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.0701, p-value = 0.7096
alternative hypothesis: two-sided

alırken

> ks.test(x, "pnorm")

        One-sample Kolmogorov-Smirnov test

data:  x 
D = 0.1294, p-value = 0.07022
alternative hypothesis: two-sided 

aynı numune için x. Anlamlılık seviyesi veya p-değeri bu nedenle Monte Carlo simülasyonu ile null altında belirlenmeli ve Kolmogorov-Smirnov istatistiklerinin tahmini dağılım altında simüle edilen örneklerden dağılımını üretmelidir (sonuçta gözlemlenen örneğin hafif bir yaklaşımı ile) null altında bile başka bir dağıtımdan gelir).


1
(+1) Tahmin edilen dağılım altında örnekleri simüle etmenin neden doğru olduğunu anlamıyorum. Parametreler için bir önceliğe ihtiyacımız olduğunu düşünebilirdim ve tüm olası dağıtımlardan örnek ... biraz daha açıklayabilir misiniz?
Elvis

1
Xi'an, cevabın tam olarak endişelendiğim şey. "Kolmogorov-Smirnov testini tahmini parametrelerle kullanırken, test istatistiklerinin sıfırın altındaki dağılımı test edilen dağılıma bağlıdır". Bununla birlikte, X'in dağılımını bilmiyoruz, daha kesin olarak, X'in sıfır hipotezi altındaki dağılımının parametresini bilmiyoruz, bu nedenle test istatistiklerinin dağılımı, bu nedenle monte carlo kullanıyoruz. P değerini almak için monte carlo kullanmadan çözmenin başka yolları var mı? Teşekkür ederim
user8363

"Gözlenen numunenin null altında bile başka bir dağıtımdan geldiği" gerçeğini dikkate almak için, her bir kopyadaki parametreleri yeniden tahmin ederek örneği önyüklemek uygun olmaz mı?
Elvis

1
@Elvis (1): Bu, klasik istatistiktir, uyum sorununun Bayes çözümü değildir. Konum ölçeği parametrelerine sahip dağıtımlar için, simüle edilmiş örnekleri simüle etmek için kullanılan parametrelerin seçimi önemli değildir.
Xi'an

1
@Elvis (2): Yine öğrencilerimle tartıştığım bir şey! Bootstrap, Kolmogorov-Smirnov mesafesinin davranışını, verilerin gerçek dağılımı altında değil, null altında değerlendirmede yardımcı olacaktır! Fisher-Neyman-Pearson prensibi, önemli olan Kolmogorov-Smirnov mesafesinin sıfırın altındaki davranışı olmasıdır, böylece gözlenen mesafe sıfırın altındaki bu dağılımdan çok fazla ise reddedilir.
Xi'an

4

Verileriniz için bir gama dağılımı varsayarak parametrelerin MLE'lerini hesaplayın ve teorik yoğunluğu verilerinizin histogramıyla karşılaştırın. Eğer ikisi birbirinden çok farklıysa, gama dağılımı verilerinizin zayıf bir yaklaşımıdır. Resmi bir test için, örneğin, Kolmogorov-Smirnoff test istatistiğini, en uygun gama dağılımını ampirik dağılım ve karşılaştırma testi ile karşılaştırarak hesaplayabilirsiniz.


3
+1, bu sağlam bir cevap. Bununla birlikte, bir histogramdan ziyade teorik gama karşı bir qq-grafiğini incelemeyi öneririm - sapmaları değerlendirmek daha kolay olacaktır.
gung - Monica'yı eski durumuna döndürün

1
Sorun, KS testinin, verilerden tahmin edilmeden önceden verilecek teorik dağılımı varsaymasıdır. Xi'an (kısmen) bu noktaya cevap verdi ...
Elvis

öncelikle bu veri örneğini bir MLS tahmini elde etmek için kullandığımızı ve Gamma dağılımında MLS tahmincisinin değerini kullandığımızı, ardından KS testini kullanarak verileri Gamma dağılımı (tahmini parametreyle) ile karşılaştırdığımızı mı söylüyorsunuz?
user8363

Elvis, lütfen bana teorik dağılım parametresi bilinmediğinde ve tahmin edilmesi gereken sorunun nasıl çözüleceğini söyler misiniz? Bu yazıda, hipotezin nispeten doğru bir değerlendirmesini almak için KS testini nasıl kullanabilirsiniz, teşekkür ederim!
user8363

1
@Elvis: Gama dağılımı durumunda kesin derivasyonun mümkün olduğunu düşünmüyorum. CDF'nin kendisi kapalı formda mevcut değildir. Ayrıca, şekil parametresinin ne ölçek ne de konum olması, şekil parametresinin her değeri için farklı bir dağılım olduğu anlamına gelir ...
Xi'an
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.