Yanıtlar:
Normallik varsayımı, sadece temelde rastgele ilgilenilen değişkenin normal dağılışı ya da yaklaşık olarak dağıtıldığı varsayımıdır . Sezgisel olarak, normallik, çok sayıda bağımsız rastgele olayın toplamının bir sonucu olarak anlaşılabilir.
Daha spesifik olarak, normal dağılımlar aşağıdaki işlev tarafından tanımlanır:
burada ve sırasıyla ortalama ve varyanstır ve bunlar şöyle görünür:
Bu, n'nin ebadı gibi özellikleriyle sorununuza daha fazla ya da daha az uygun olabilecek birçok şekilde kontrol edilebilir. Temel olarak, hepsi dağılımın normal olup olmadığını beklenen özellikleri test eder (örneğin beklenen kuantil dağılım ).
Bir not: Normallik varsayımı, genellikle değişkenlerinizle ilgili değil, artıklar tarafından tahmin edilen hata ile ilgilidir. Örneğin, doğrusal regresyonda ; normal olarak dağıldığı, sadece olduğu varsayımı yoktur .
Burada hatanın normal varsayımı hakkında (veya veriler hakkında önceden bir bilgimiz yoksa daha genel olarak veriler hakkında) ilgili bir soru bulunabilir .
Temel olarak,
Buradan çıkan önemli bir not, Terence Tao'nun burada belirttiği gibi , "Kabaca söylemek gerekirse, bu teorem, birinin bir bütünün üzerinde belirleyici bir etkiye sahip olmayan, birçok bağımsız ve rastgele dalgalanan bileşenin bir birleşimi olduğunu söyler. o zaman bu istatistik yaklaşık olarak normal dağılım denilen bir yasaya göre dağıtılacak ".
Bunu netleştirmek için, bir Python kod pasajı yazmama izin verin
# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem
@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""
import scipy, scipy.stats
import numpy as np
import pylab
#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random
y = y / sum(y);
N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)
# Plotting details
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])
#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
y = np.convolve(y,y)
y = y / sum(y);
x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
ax = pylab.subplot(N+1,1,i+1)
pylab.plot(x,y)
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_xticks([2**i * 10])
ax.set_yticks([round(np.max(y),3)])
pylab.show()
Şekillerden görülebileceği gibi, sonuçta ortaya çıkan dağılım (toplam), her bir dağıtım tipine bakılmaksızın normal bir dağılıma yönelir. Dolayısıyla, verilerdeki altta yatan etkiler hakkında yeterli bilgiye sahip değilsek, normallik varsayımı makul olur.
Normallik olup olmadığını bilemezsiniz ve bu yüzden orada olduğunu varsaymak zorundasınız. Normalliğin yokluğunu ancak istatistik testlerle ispatlayabilirsiniz.
Daha da kötüsü, gerçek dünya verileriyle çalışırken, verilerinizde gerçek bir normallik olmadığı kesindir.
Bu, istatistiksel testinizin her zaman biraz önyargılı olduğu anlamına gelir. Asıl soru, onun önyargısıyla yaşayabileceğiniz mi? Bunu yapmak için verilerinizi ve istatistiksel aracınızın varsaydığı normallik türünü anlamanız gerekir.
Frequentist araçlarının Bayesian araçları kadar öznel olmasının nedeni budur. Normal olarak dağıtılan verilere dayanarak karar veremezsiniz. Normallik üstlenmelisin.
Normallik varsayımı, verilerinizin normal olarak dağıldığını varsayar (çan eğrisi veya gauss dağılımı). Bunu, verileri çizerek veya kurtozis (tepe noktası ne kadar keskin) ve çarpıklık (?) (Verinin yarısından fazlası pikin bir tarafındaysa) önlemlerini kontrol ederek kontrol edebilirsiniz.
Diğer cevaplar normalin ne olduğunu ve önerilen normallik test yöntemlerini kapsamıştır. Christian, pratikte mükemmel bir normalliğin zar zor var olduğunu vurguladı.
Normallikten gözlemlenen sapmanın illa ki normallik olduğunu varsayan metotların kullanılamayacağını ve normallik testinin çok faydalı olamayacağı anlamına gelmediğini vurguluyorum.
Yukarıdaki cevaplara eklemek için: "Normallik varsayımı", modelinde, teriminin normal dağılışı olduğu şeklindedir. (İ ANOVA gibi) sık sık bazı diğer gider Bu varsayım: 2) varyans arasında sabiti, gözlemlerin 3) bağımsızlığıdır.
Bu üç varsayımdan, 2) ve 3) çoğunlukla 1) 'den çok daha vaskülerdir! Bu yüzden onlarla daha çok meşgulsün. George Box "" Değişkenler üzerine bir ön deneme yapmak, bir okyanus gemisinin limandan çıkması için koşulların yeterince sakin olup olmadığını bulmak için sıralı bir tekneye denize girmek gibidir! "- [Kutu," -normallik ve varyanslar üzerinde testler ", 1953, Biometrika 40, s. 318-335]"
Bu, eşit olmayan varyansların büyük endişe verici olduğu, ancak gerçekte onlar için test yapmanın çok zor olduğu anlamına gelir, çünkü testler normal olmayan özellikten etkilenir, testler araçların testleri için önemli değildir. Günümüzde, KESİNLİKLE kullanılması gereken eşitsiz varyanslar için parametrik olmayan testler vardır.
Kısacası, eşitliksiz farklar, sonra normallik konusunda İLK kendiniz meşgul olun. Kendine onlar hakkında bir fikir verdiğinde, normallik hakkında düşünebilirsin!
İşte size pek çok iyi tavsiye: http://rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt