Histogramım çan şeklinde bir eğri gösteriyorsa verilerimin normal olarak dağıtıldığını söyleyebilir miyim?


11

Yanıtlayan Yaş için bir histogram oluşturdum ve çok güzel bir çan şekilli eğri elde etmeyi başardım, bu da dağılımın normal olduğu sonucuna vardım.

Sonra SPSS'de normallik testini n = 169 ile çalıştırdım . Kolmogorov-Smirnov testinin p- değeri (Sig.) 0.05'ten düşüktür ve bu nedenle veriler normallik varsayımını ihlal etmiştir.

Test neden yaş dağılımının normal olmadığını gösteriyor, ancak histogram benim anlayışımdan normal olan çan şeklindeki eğri gösterdi? Hangi sonucu takip etmeliyim?


8
Neden normalliği test ediyorsunuz?
Glen_b

6
@ Glen_b'in mükemmel yorumuna ve Aksakal'ın eşit derecede mükemmel cevabına ek olarak , KS sürekli dağılımlar için bile verilerden tahmin edilmeyen ortalama ve sd'nin önceden bilinmesini gerektirir . Bu aslında KS testini işe yaramaz hale getirir. "Kolmogorov-Smirnov testi sadece tarihi bir meraktır. Asla kullanılmamalıdır." (D'Agostino, d'Agostino ve Stephens, ed., 1986). Eğer öyleyse, bunun yerine Shapiro-Wilks kullanın.
Stephan Kolassa

6
@Stephan Kolassa İyi tavsiye, ama Shapiro-Wilk demek istedin. (MB Wilk ve SS Wilks'in önerileri genellikle karıştırılır veya karıştırılır; burada İngilizce olarak sahipliklerinin garip kullanımı, ilk dili İngilizce olan birçok kişi için bile karışıklığa katkıda bulunabilir.)
Nick Cox

2
@StephanKolassa yorumuyla ilgili olarak, bkz. Shapiro-Wilk en iyi normallik testi mi? ... cevabı, hangi alternatifle ilgilendiğinize bağlı olarak mutlaka olması gerekmez, ancak genellikle iyi bir seçimdir.
Silverfish

Yanıtlar:


34

Biz genellikle değişken olması imkansız olduğunu biliyorum tam olarak normal dağılıma sahip ...

Normal dağılımın her iki yönde uzanan sonsuz uzun kuyrukları vardır - verilerin bu uçlarda çok fazla uzanması olası değildir, ancak gerçek bir normal dağılım için fiziksel olarak mümkün olması gerekir. Yaşlar için, normal olarak dağıtılmış bir model, ortalamanın üstünde veya altında 5 standart sapma bulunan sıfır olmayan bir veri olasılığı olduğunu tahmin edecektir - bu, 0'ın altında veya 150'nin üstünde gibi fiziksel olarak imkansız yaşlara karşılık gelecektir. bir nüfus piramidi , neden ilk etapta yaşın yaklaşık olarak normal olarak dağılmasını beklediğiniz açık değildir.) Benzer şekilde, sezgisel olarak daha "normal benzeri" bir dağılım izleyebilecek yükseklik verileriniz varsa, sadece gerçekten olabilir 0 cm'nin altında veya 300 cm'nin üzerinde bir yükseklik şansı varsa normal.

Bazen verileri ortalama sıfır olacak şekilde ortalayarak bu problemden kaçınabileceğimizi gördüm. Bu şekilde hem pozitif hem de negatif "merkezlenmiş çağlar" mümkündür. Ancak bu, hem negatif değerleri fiziksel olarak makul ve yorumlanabilir hale getirse de (negatif merkezli değerler, ortalamanın altında yatan gerçek değerlere karşılık gelir), normal modelin, sıfır olmayan olasılıkla fiziksel olarak imkansız tahminler üreteceği sorunu çözmez. modellenen "merkezlenmiş yaşı" tekrar "gerçek yaş" olarak çözer.

... öyleyse neden test ettiniz? Kesin olmasa bile, normallik hala yararlı bir model olabilir

Önemli soru, verilerin tam olarak normal olup olmadığı değil - bir hipotez testi yapmadan bile, çoğu durumda durum böyle olamayacak bir önsezi biliyoruz - ancak yaklaşımın ihtiyaçlarınız için yeterince yakın olup olmadığı . Soru normallik testi temelde işe yaramaz mı? Normal dağılım birçok amaç için uygun bir yaklaşımdır. Nadiren "doğru" - ancak yararlı olmak için genellikle tam olarak doğru olması gerekmez. Normal dağılımın insanların boyları için genellikle makul bir model olmasını beklerdim, ancak normal dağılımın insanların yaşlarına bir model olarak anlamlı olması daha olağandışı bir bağlam gerektirir.

Gerçekten bir normallik testi yapma gereğini hissediyorsanız, Kolmogorov-Smirnov muhtemelen en iyi seçenek değildir: yorumlarda belirtildiği gibi, daha güçlü testler mevcuttur. Shapiro-Wilk, bir dizi olası alternatife karşı iyi bir güce sahiptir ve önceden gerçek ortalamayı ve varyansı bilmeniz gerekmemesi avantajına sahiptir . Ancak küçük örneklerde normallikten potansiyel olarak oldukça büyük sapmaların hala fark edilmeyebileceğini, büyük örneklerde bile çok küçük (ve pratik amaçlar için alakasız) sapmaların "yüksek derecede önemli" (düşük p -değeri).

"Çan biçimli" mutlaka normal değildir

Görünüşe göre "çan şeklinde" veri - ortada zirve yapan ve kuyruklarda olasılığı düşük - simetrik veri - "normal" olarak düşünmeniz söylendi. Ancak normal dağılım zirve ve kuyruklarına özel bir şekil gerektirir. İlk bakışta "çan şeklinde" olarak nitelendirebileceğiniz, ancak normal olmayan benzer şekle sahip başka dağıtımlar da vardır. Çok fazla veriye sahip olmadığınız sürece , "bu kullanıma hazır dağıtım gibi görünür, ancak diğerleri gibi değil" ifadesini ayırt edemezsiniz. Eğer çok fazla veri var eğer, büyük olasılıkla gözükmüyor bulacaksınız oldukça hiç bir "kullanıma hazır" dağıtım gibi! Ama bu durumda birçok amaç için

"Çan biçimli" dağıtımların galerisi

Normal dağılım alıştığınız "çan şekli" dir; Cauchy keskin bir tepe ve "ağır" kuyrukları (yani daha fazla olasılık ihtiva etmektedir) sahiptir; T dağılımı serbestlik 5 derece ile arasında bir yere gelir (normal T sonsuz df Cauchy olan t , 1 df ile çok yapar anlamda olduğu); Laplace veya çift üstel dağılım PDF, normal dağılım daha net bir tepe ile sonuçlanan geri sırta iki yeniden olçeklendirilmiş üstel dağılımları, den oluşmuş; Beta dağılımıoldukça farklı - keskin kesimlere sahip olmak için sonsuzluğa giden kuyrukları yok - ama yine de ortada "kambur" şekline sahip olabilir. Aslında parametrelerle oynayarak, bir çeşit "çarpık kambur", hatta bir "U" şekli elde edebilirsiniz - bağlantılı Wikipedia sayfasındaki galeri bu dağıtımın esnekliği hakkında oldukça öğreticidir. Son olarak, üçgen dağılım , genellikle risk modellemesinde kullanılan sonlu bir destek üzerindeki basit bir dağıtımdır.

Muhtemelen bu dağılımların hiçbiri verilerinizi tam olarak tanımlamamaktadır ve benzer şekillere sahip başka pek çok dağıtım vardır, ancak "ortada kabaca simetrik ve kabaca normal anlamına gelen" yanlış algısını ele almak istedim. Yaş verileri üzerinde fiziksel sınırlar bulunduğundan, yaş verileriniz ortada "engellenirse", Beta gibi sonlu desteğe sahip bir dağıtım veya hatta üçgen dağılımı normal gibi sonsuz kuyruklara sahip bir modelden daha iyi bir model olabilir. Verileriniz normal olarak dağıtılmış olsa bile, örnek boyutunuz oldukça büyük olmadıkça histogramınızın klasik "zile" benzemesinin hala mümkün olmadığını unutmayın. Lapabı gibi bir dağıtımdan, pdf'si cusp nedeniyle normalden ayırt edilebilir bir örnek bile,

Çeşitli örnek boyutlarındaki normal ve Laplace örnekleri

R kodu

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)

11

Yaş normal dağılımdan olamaz. Mantıksal olarak düşünün: negatif yaşınız olamaz, ancak normal dağılım negatif sayılara izin verir.

Dışarıda birçok çan biçimli dağılım var. Eğer bir şey çan şeklinde görünüyorsa, normal olması gerektiği anlamına gelmez.

Verilerin hangi dağıtımdan geldiği de dahil olmak üzere istatistiklerde hiçbir şeyden emin olmanın bir yolu yoktur. Şekil bir ipucudur: çan şekli normal dağılım için bir argümandır. Ayrıca, verilerinizi anlamak çok önemlidir. Yaş gibi değişken, genellikle normalliği dışlayan çarpıktır. Belirtildiği gibi, normal dağılımın sınırı yoktur, ancak bazen sınırlı değişkenler için kullanılır. Örneğin, ortalama yaş 20 yıl ve standart sapma 1 ise, <17 veya> 23 yaş olasılığı% 0,3'ten azdır. Bu nedenle, normal dağılımın iyi bir yaklaşım olması mümkündür .

Örneğin çarpıklığını ve basıklığını hesaba katan Jarque-Bera gibi normallik için istatistiksel bir test yapmayı deneyebilirsiniz. Bazı durumlarda basıklık önemli olabilir. Finansta çok önemlidir, çünkü verileri normal dağılıma göre modellerseniz, ancak veriler aslında kuyruklu bir dağıtımdan geliyorsa, varlıkların risklerini ve fiyatlarını hafife alabilirsiniz.

Ortalama, varyans, çarpıklık, basıklık gibi bazı tanımlayıcı istatistikler veya yaş ve boy verilerinizin histogramını raporlamanız size yardımcı olacaktır.


Yardımınız için teşekkür ederim, bazı verilerin normal dağılımdan geldiğini nasıl bilebilirim, örneğin cevabınızda, yaşın normal dağılımdan olamayacağını, yükseklik gibi diğer veriler hakkında ne söyleyeceğinizi söyleyebilir misiniz? Bu konuda daha fazla bilgi edinmek istiyorum çünkü bu konuda yeni olduğum için konsepti yanlış anladığım anlaşılıyor. tekrar teşekkürler.
NoraNorad

4
Bununla birlikte, normal dağılım genellikle olduğu bir şekilde kullanılan yaklaşım yaşı gibi değişkenler için. Ve gerçekten bir sorun değil, çünkü age_centredolarak tanımlayabilir age - mean(age)ve ortalama 0 ile, bazı standart sapma, pozitif ve negatif değerlere sahip bir değişkeniniz vardır. Bu yüzden bu kadar katı olmazdım.
Tim

3
İnsanlar için de negatif boyunuz olamaz, ancak bu benim için iyi bir yaklaşım olsaydı, yüksekliği normal olarak dağıtılmış olarak tanımlamamın önünde bir engel olmazdı. Bu nedenle, neden sadece sonlu olabilen ölçümler için sonsuz sınırlarla herhangi bir dağılım kullanıyorsunuz? @Tim'in dediği gibi, veriler ve amaç göz önüne alındığında kabul edilebilir bir yaklaşım meselesidir.
Nick Cox

1
Normal dağılımın bazen sınırlı veriler için iyi bir yaklaşım olabileceğini kabul ediyorum , ancak soru verinin normalden olup olmadığıyla ilgiliydi.
Aksakal

Liseden mezun olan yaşlıların yaşı potansiyel olarak normal şekilde dağıtılabilir ve ayrıca ortalama olarak @Tim'de belirtildiği takdirde negatif değerler alabilir.
ui_90jax
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.