Biz genellikle değişken olması imkansız olduğunu biliyorum tam olarak normal dağılıma sahip ...
Normal dağılımın her iki yönde uzanan sonsuz uzun kuyrukları vardır - verilerin bu uçlarda çok fazla uzanması olası değildir, ancak gerçek bir normal dağılım için fiziksel olarak mümkün olması gerekir. Yaşlar için, normal olarak dağıtılmış bir model, ortalamanın üstünde veya altında 5 standart sapma bulunan sıfır olmayan bir veri olasılığı olduğunu tahmin edecektir - bu, 0'ın altında veya 150'nin üstünde gibi fiziksel olarak imkansız yaşlara karşılık gelecektir. bir nüfus piramidi , neden ilk etapta yaşın yaklaşık olarak normal olarak dağılmasını beklediğiniz açık değildir.) Benzer şekilde, sezgisel olarak daha "normal benzeri" bir dağılım izleyebilecek yükseklik verileriniz varsa, sadece gerçekten olabilir 0 cm'nin altında veya 300 cm'nin üzerinde bir yükseklik şansı varsa normal.
Bazen verileri ortalama sıfır olacak şekilde ortalayarak bu problemden kaçınabileceğimizi gördüm. Bu şekilde hem pozitif hem de negatif "merkezlenmiş çağlar" mümkündür. Ancak bu, hem negatif değerleri fiziksel olarak makul ve yorumlanabilir hale getirse de (negatif merkezli değerler, ortalamanın altında yatan gerçek değerlere karşılık gelir), normal modelin, sıfır olmayan olasılıkla fiziksel olarak imkansız tahminler üreteceği sorunu çözmez. modellenen "merkezlenmiş yaşı" tekrar "gerçek yaş" olarak çözer.
... öyleyse neden test ettiniz? Kesin olmasa bile, normallik hala yararlı bir model olabilir
Önemli soru, verilerin tam olarak normal olup olmadığı değil - bir hipotez testi yapmadan bile, çoğu durumda durum böyle olamayacak bir önsezi biliyoruz - ancak yaklaşımın ihtiyaçlarınız için yeterince yakın olup olmadığı . Soru normallik testi temelde işe yaramaz mı? Normal dağılım birçok amaç için uygun bir yaklaşımdır. Nadiren "doğru" - ancak yararlı olmak için genellikle tam olarak doğru olması gerekmez. Normal dağılımın insanların boyları için genellikle makul bir model olmasını beklerdim, ancak normal dağılımın insanların yaşlarına bir model olarak anlamlı olması daha olağandışı bir bağlam gerektirir.
Gerçekten bir normallik testi yapma gereğini hissediyorsanız, Kolmogorov-Smirnov muhtemelen en iyi seçenek değildir: yorumlarda belirtildiği gibi, daha güçlü testler mevcuttur. Shapiro-Wilk, bir dizi olası alternatife karşı iyi bir güce sahiptir ve önceden gerçek ortalamayı ve varyansı bilmeniz gerekmemesi avantajına sahiptir . Ancak küçük örneklerde normallikten potansiyel olarak oldukça büyük sapmaların hala fark edilmeyebileceğini, büyük örneklerde bile çok küçük (ve pratik amaçlar için alakasız) sapmaların "yüksek derecede önemli" (düşük p -değeri).
"Çan biçimli" mutlaka normal değildir
Görünüşe göre "çan şeklinde" veri - ortada zirve yapan ve kuyruklarda olasılığı düşük - simetrik veri - "normal" olarak düşünmeniz söylendi. Ancak normal dağılım zirve ve kuyruklarına özel bir şekil gerektirir. İlk bakışta "çan şeklinde" olarak nitelendirebileceğiniz, ancak normal olmayan benzer şekle sahip başka dağıtımlar da vardır. Çok fazla veriye sahip olmadığınız sürece , "bu kullanıma hazır dağıtım gibi görünür, ancak diğerleri gibi değil" ifadesini ayırt edemezsiniz. Eğer çok fazla veri var eğer, büyük olasılıkla gözükmüyor bulacaksınız oldukça hiç bir "kullanıma hazır" dağıtım gibi! Ama bu durumda birçok amaç için
Normal dağılım alıştığınız "çan şekli" dir; Cauchy keskin bir tepe ve "ağır" kuyrukları (yani daha fazla olasılık ihtiva etmektedir) sahiptir; T dağılımı serbestlik 5 derece ile arasında bir yere gelir (normal T sonsuz df Cauchy olan t , 1 df ile çok yapar anlamda olduğu); Laplace veya çift üstel dağılım PDF, normal dağılım daha net bir tepe ile sonuçlanan geri sırta iki yeniden olçeklendirilmiş üstel dağılımları, den oluşmuş; Beta dağılımıoldukça farklı - keskin kesimlere sahip olmak için sonsuzluğa giden kuyrukları yok - ama yine de ortada "kambur" şekline sahip olabilir. Aslında parametrelerle oynayarak, bir çeşit "çarpık kambur", hatta bir "U" şekli elde edebilirsiniz - bağlantılı Wikipedia sayfasındaki galeri bu dağıtımın esnekliği hakkında oldukça öğreticidir. Son olarak, üçgen dağılım , genellikle risk modellemesinde kullanılan sonlu bir destek üzerindeki basit bir dağıtımdır.
Muhtemelen bu dağılımların hiçbiri verilerinizi tam olarak tanımlamamaktadır ve benzer şekillere sahip başka pek çok dağıtım vardır, ancak "ortada kabaca simetrik ve kabaca normal anlamına gelen" yanlış algısını ele almak istedim. Yaş verileri üzerinde fiziksel sınırlar bulunduğundan, yaş verileriniz ortada "engellenirse", Beta gibi sonlu desteğe sahip bir dağıtım veya hatta üçgen dağılımı normal gibi sonsuz kuyruklara sahip bir modelden daha iyi bir model olabilir. Verileriniz normal olarak dağıtılmış olsa bile, örnek boyutunuz oldukça büyük olmadıkça histogramınızın klasik "zile" benzemesinin hala mümkün olmadığını unutmayın. Lapabı gibi bir dağıtımdan, pdf'si cusp nedeniyle normalden ayırt edilebilir bir örnek bile,
R kodu
par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)")
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy")
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df")
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)")
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")
par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}
# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)