Verilerin üstel veya normal dağılımları takip edip etmediğini görmek için standart istatistiksel testler nelerdir?


12

Verilerin üstel veya normal dağılımları takip edip etmediğini görmek için standart istatistiksel testler nelerdir?


2
En iyi test muhtemelen normallik / üstel için neden tam olarak test ettiğinize bağlıdır (bu nedenle bazı arka plan yararlı olacaktır), ancak belirli bir veri kümesinin önceden belirlenmiş herhangi bir dağılıma uyup uymadığını test etmek için her zaman Kolmogorov Smirnov testini kullanabilirsiniz ( en.wikipedia .org / wiki / Kolmogorov% E2% 80% 93Smirnov_test ). Normal dağılım için özel olarak kullanılan birçok yöntem vardır: en.wikipedia.org/wiki/Normality_test
Macro

Karşılaştığım değişkenlerin normal veya üstel dağılımları takip etmesi muhtemeldir. Ayrıca umursamadığım bir faktör var. Ancak, verilerime bazı değişkenlikler getiriyor. Bu nedenle, bu sıkıntı faktörünün etkisini bastırmak için değişkenleri normalleştirmek istiyorum. Bu nedenle, her bir değişkeni temel dağılımlarına göre normalleştirmenin daha iyi olduğunu düşündüm. Bu yüzden bu iki dağıtım arasında karar vermek için bir teste ihtiyacım var.
smo

1
Normalleştirmek bu cümlede ne anlama geliyor: Her bir değişkeni temel dağılımlarına göre normalleştirmenin daha iyi olduğunu düşündüm ?
Makro

2
Bir test olmasa da, QQ grafikleri , verilerinizin bir dağıtımla eşleşip eşleşmediğini hızlı bir şekilde sezgisel bir şekilde incelemek için harika.
naught101

Yanıtlar:


13

Görünüşe göre verilerinizi normal veya üstel dağılımı kullanarak modellemeye karar verin. Bu dağılımlar birbirinden çok farklı olduğu için bu benim için biraz garip görünüyor.

Normal dağılım simetrikken, üstel dağılım negatif değere sahip olmadan sağa doğru eğimlidir. Tipik üstel dağılımından örnek nispeten yakın birçok gözlemler içerecektir ve gelen sağa kadar sapma birkaç obervations . Bu farkı grafik olarak görmek genellikle kolaydır.00

Burada simüle ettik bir örnek , normal ortalama ile dağıtım gözlemler ve varyans , ortalama bir üstel dağılım ve varyans :n=1002424

Normal ve üstel: simüle edilmiş veri

Normal dağılımın simetrisi ve üstelin çarpıklığı, yukarıdaki şekilde gösterildiği gibi histogramlar, kutu grafikleri ve saçılım grafikleri kullanılarak görülebilir.

Bir başka çok yararlı araç da QQ grafiğidir . Aşağıdaki örnekte, numune normal bir dağılımdan geliyorsa noktalar yaklaşık olarak çizgiyi takip etmelidir. Gördüğünüz gibi, bu normal veriler için geçerlidir, ancak üstel veriler için geçerli değildir.

Simüle edilmiş veriler için QQ grafikleri

Herhangi bir nedenle grafik inceleme sizin için yeterli değilse, dağıtımınızın normal veya üstel olup olmadığını belirlemek için bir test kullanabilirsiniz. Normal dağılım bir ölçek ve konum ailesi olduğundan, ölçek ve konumdaki değişiklikler altında değişmez bir test kullanmak isteyeceksiniz (yani ölçümlerinizi inçten santimetreye değiştirirseniz veya ).+1

Sıfır hipotezi dağılımın normal, alternatif hipotez ise üstel olması durumunda, en güçlü yer ve ölçek değişmez testi burada örnek ortalaması, örnekteki en küçük gözlemdir ve , örnek standart sapmasıdır. çok büyükse normallik üstellik lehine reddedilir .

TE,N=x¯x(1)s
x¯x(1)sTE,N

Bu test aslında Grubbs'un aykırı değerlere yönelik testinin tek taraflı bir versiyonudur . Bunu çoğu istatistiksel yazılımda uygulanmış bulacaksınız (ancak doğru sürümü kullandığınızdan emin olun - aykırı test için kullanılan birkaç alternatif test istatistikleri vardır!).

En güçlü test olan için referans :TE,N HC Thode tarafından Normallik Testi için Bölüm 4.2.4 .


OP, normalliği test edip etmediğinizi sordu, hangi testi seçeceğinizi üstel olarak test ederseniz, ayrı bir durumda ve hangi testi seçeceğinizi sordu. Her iki testi de aynı veri setinde denemeyi önerdiği ifadesini okudum.
Michael R. Chernick

Bu şekilde yorumladım, çünkü soruya yapılan bir takip yorumunda OP şöyle yazdı: "Karşılaştığım değişkenlerin normal veya üstel dağılımları takip etmesi muhtemel. [...] Bu yüzden bir teste ihtiyacım var bu iki dağıtım arasında karar verin. "
MånsT

Fark etmedim. Bu durumda cevabınız çok uygun. Sanki bir kerede bir test yapıyormuş gibi cevap veriyordum.
Michael R. Chernick

@Michael: Orijinal soruyu da okuduğumda bu şekilde yorumladım, ancak yorumu okuduktan sonra cevabımı yazmaya karar verdim. Aksi takdirde, (+1) yanıtınıza eklenecek çok şey olacağını düşünmüyorum (orada bir yorumda yaptığım küçük açıklamalar dışında).
MånsT

5

Üstel dağılım için Moran veya Bartlett testi denen bir test kullanabilirsiniz. Test istatistiği , kaydedilen için örnek ortalama ve örnek ortalama içerir Boş hipotez altında yaklaşık ve iki taraflı bir test çalışır. Bu test gama alternatiflerine karşı tasarlanmıştır.BnY¯logY¯Yi B nχ 2 ( n - 1 )

Bn=bn×{logY¯logY¯}bn=2n×{1+(n+1)/(6n)}1
Bnχ2(n1)

Mühendislik tasarımında KC Kapur ve LR Lamberson Güvenilirliği bölümüne bakınız . Wiley 1977.


2
Üstelliği test etmek için bazı daha yeni ve kapsamlı kaynaklarla karşılaştım. 1) Bir makale: Bir Henze, N. ve Meintanis, SG (2005): 'Üstellik için yeni ve klasik testler: karşılaştırmalı kısmi bir inceleme'. Metrika, cilt. 61, s.29-45. 2) Söz konusu makalenin testlerini uygulayan 'exptest' adlı bir CRAN R paketi.
Yves

B_n'nin dağılımı çok açık değil. N-1 df ile Chi kare veya n-1 df ile Chi kare n-1 ile çarpıldı mı?
Dovini Jayasinghe

Yazıldığı gibi çalışır. Birkaç satır R kodu kullanarak kontrol edebilirsiniz.
Yves

Teşekkürler. Gördüğüm gibi çarpma olmalı. Bu anlamda, serbestlik derecesi n-1 olmalı?
Dovini Jayasinghe

Üzgünüm, gösterimle ilgili sorunuzdaki noktayı kaçırdım. istatistikleri yaklaşık olarak serbestlik derecesi ile ki-kare dağılımını takip eder. n - 1Bnn1
Yves

4

Normallik için Anderson-Darling ve Shapiro-Wilk en iyisi olarak kabul edilir. Üstel Lillerfors testi için özel olarak tasarlanmıştır.


5
bu cevap, her testin neden diğerlerinden daha iyi / daha iyi olarak değerlendirildiği hakkında biraz ayrıntı ile geliştirilebilir.
naught101

Bu testler normalden (Anderson-Darling) ve üstelden (Lillefors) ayrılmak için en güçlü olan anlamında daha iyidir. Test formunun sezgisel bir açıklama sağlamanın kolay olduğunu düşünmüyorum.
Michael R. Chernick

3
@Michael: Anderson-Darling normallik testi (Shapiro-Wilk dito gibi) çok çeşitli alternatiflere karşı saygın bir güce sahiptir, ancak kesinlikle en güçlü değildir (ne genel olarak ne de ortalama). Test seçimi eldeki alternatife bağlı olmalıdır. Lillerfors testini hiç duymadım - Lilliefors testini mi kastediyordunuz (bu aslında normallik için bir testtir ve üstellik için bir test değildir)?
MånsT

Tabii ki üstel dağılım varsayımları için önerdiğim gibi üstellik için Lillefors testinden bahsediyordum. Shapiro-Wilk ve Anderson-Darling'i listeledim, çünkü bilgim dahilinde normallik testleri arasında en güçlü olanlar arasındalar. Bahsettiğiniz daha güçlü testler nelerdir?
Michael R. Chernick

1
Ne tür bir seçeneğiniz olduğuna bağlıdır. Örneğin çarpıklık alternatiflerine karşı, örnek çarpıklığı genellikle SW ve AD'den daha güçlüdür. İkincisi, ortalama olarak oldukça iyi olan omnibus testleridir, ancak ne tür bir normallikten endişe duyduğunuzu biliyorsanız, yönlendirilmiş bir test kullanmak daha iyidir (örneğin çarpıklık alternatiflerine yönelik örnek çarpıklık testi gibi) .
MånsT

4

Verilerin nasıl davrandığını görmek için grafik yöntemleri düşündünüz mü?

Olasılık grafiği teknikleri genellikle verileri sıralamayı, ters CDF'yi uygulamayı ve ardından sonuçları Kartezyen düzlemde çizmeyi içerir. Bu, birkaç değerin varsayılan dağıtımdan sapıp sapmadığını ve muhtemelen sapma nedenini açıklayıp açıklamadığını görmenizi sağlar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.