Normallik nedir?


Yanıtlar:


29

Normallik varsayımı, sadece temelde rastgele ilgilenilen değişkenin normal dağılışı ya da yaklaşık olarak dağıtıldığı varsayımıdır . Sezgisel olarak, normallik, çok sayıda bağımsız rastgele olayın toplamının bir sonucu olarak anlaşılabilir.

Daha spesifik olarak, normal dağılımlar aşağıdaki işlev tarafından tanımlanır:

alt metin

burada ve sırasıyla ortalama ve varyanstır ve bunlar şöyle görünür:μσ2

alt metin

Bu, n'nin ebadı gibi özellikleriyle sorununuza daha fazla ya da daha az uygun olabilecek birçok şekilde kontrol edilebilir. Temel olarak, hepsi dağılımın normal olup olmadığını beklenen özellikleri test eder (örneğin beklenen kuantil dağılım ).


33

Bir not: Normallik varsayımı, genellikle değişkenlerinizle ilgili değil, artıklar tarafından tahmin edilen hata ile ilgilidir. Örneğin, doğrusal regresyonda ; normal olarak dağıldığı, sadece olduğu varsayımı yoktur .Y=a+bx+eYe


16
+1. Sonunda birisi, bu sorunun belki de en önemli yönünün ne olduğuna dikkat çekti: Çoğu durumda, “normallik” artıklar için veya nüfusların dağılımına ilişkin olarak istatistik dağılımlarını örnekleme açısından önemlidir!
whuber

4
normal dağılmışsa, Y'nin de en azından koşullu olarak normal olduğunu ekleyeceğim . Sanırım bu kaçırılan şey - insanlar Y'nin marjinal olarak normal olduğunu, ancak gerçekte şartlı olan normal durum olduğunu düşünüyorlar. Bunun en basit örneği ANOVA'nın tek yönlü yoludur. e
olasılıklılık

Neye bağlı?
bill_e

1
@bill_e bağımsız değişkenleri
Glen_b -Reinstate Monica

10

Burada hatanın normal varsayımı hakkında (veya veriler hakkında önceden bir bilgimiz yoksa daha genel olarak veriler hakkında) ilgili bir soru bulunabilir .

Temel olarak,

  1. Normal dağılım kullanmak matematiksel olarak uygundur. (En Küçük Kareler ile ilgilidir ve sözde ters ile çözülmesi kolaydır)
  2. Merkezi Limit Teoremi nedeniyle, süreci etkileyen birçok temel gerçeğin olduğunu ve bu bireysel etkilerin toplamının normal dağılım gibi davranma eğiliminde olacağını varsayabiliriz. Uygulamada, öyle görünüyor.

Buradan çıkan önemli bir not, Terence Tao'nun burada belirttiği gibi , "Kabaca söylemek gerekirse, bu teorem, birinin bir bütünün üzerinde belirleyici bir etkiye sahip olmayan, birçok bağımsız ve rastgele dalgalanan bileşenin bir birleşimi olduğunu söyler. o zaman bu istatistik yaklaşık olarak normal dağılım denilen bir yasaya göre dağıtılacak ".

Bunu netleştirmek için, bir Python kod pasajı yazmama izin verin

# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem

@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""

import scipy, scipy.stats
import numpy as np
import pylab

#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random

y = y / sum(y);

N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)

# Plotting details 
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])

#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
    y = np.convolve(y,y)
    y = y / sum(y);    

    x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
    ax = pylab.subplot(N+1,1,i+1)
    pylab.plot(x,y)
    ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
    ax.set_xticks([2**i * 10])
    ax.set_yticks([round(np.max(y),3)])

pylab.show()

Rastgele dağılım

Üstel dağılım

Üniforma dağıtımı

Şekillerden görülebileceği gibi, sonuçta ortaya çıkan dağılım (toplam), her bir dağıtım tipine bakılmaksızın normal bir dağılıma yönelir. Dolayısıyla, verilerdeki altta yatan etkiler hakkında yeterli bilgiye sahip değilsek, normallik varsayımı makul olur.


1
CLT vermez izin verilen herhangi bir işlemde bireysel etkilerin sürü bize varsaymak - biz eğer verilen bir ölçüm katkıda değil çok bağımlı bireysel faktörler çok (olduğu hiçbiri çok fazla toplam sahip varyasyon), CLT'yi çağırarak normallik varsayarak haklı olabiliriz. Birçok katkı varsayımı, CLT'nin uygulanmasından önce gelir; hiçbir şekilde CLT'nin bir sonucu değildir. Aksi taktirde, aslında sadece bazen kabaca doğru olduğunda, her şey normal olacaktır.
Glen_b -Reinstate Monica,

5

Normallik olup olmadığını bilemezsiniz ve bu yüzden orada olduğunu varsaymak zorundasınız. Normalliğin yokluğunu ancak istatistik testlerle ispatlayabilirsiniz.

Daha da kötüsü, gerçek dünya verileriyle çalışırken, verilerinizde gerçek bir normallik olmadığı kesindir.

Bu, istatistiksel testinizin her zaman biraz önyargılı olduğu anlamına gelir. Asıl soru, onun önyargısıyla yaşayabileceğiniz mi? Bunu yapmak için verilerinizi ve istatistiksel aracınızın varsaydığı normallik türünü anlamanız gerekir.

Frequentist araçlarının Bayesian araçları kadar öznel olmasının nedeni budur. Normal olarak dağıtılan verilere dayanarak karar veremezsiniz. Normallik üstlenmelisin.


5
İstatistikleri kullanarak hiçbir şey ispat edemezsiniz. Bir kanıtın kesin olması gerekiyordu. İstatistikler olasılıklarla ilgilidir. Bir Ki kare nin ap = 0.99 sonucu bile altta yatan dağılımın normal olmadığını kanıtlamaz. Sadece normal olması çok düşük bir ihtimal.
xmjx

@ xmjx: Verilen bir dağıtımın normal dağılım gösterdiğini bile söyleyemezsiniz. Değerlerinizin% 99,99'unun 1, ancak değerlerin% 0,01'i 1000000 olduğu bir dağılımınız varsa, 100 değerinin örneklendiğine dair istatistiksel bir test, 100 değerinin size dağıtımınızın normal olarak dağıtıldığını yanlış bir şekilde söyleme şansı olduğunu gösterir.
Hıristiyan

2
Çok fazla istatistiksel uzman değilim, bu yüzden aptalca bir soru gibi görünebilir ... veriyi değil, değişkeni oluşturan temel süreçte "gerçek normallik" yok mu? Aptalca bir ayrım gibi görünebilir, ama belki de bazı ruh arayışlarını kurtarabilir. Toplanan veriler tam olarak normal değilse, ancak altta yatan rastgele süreç temelde normal şekilde çalışırsa, “önyargıyla yaşamaya” karar verebileceğiniz bir durum mu?
Jonathan

@Christian - "... 100 değerin iyi bir şansı var ..." şeklindeki yorumunuz hack tarafından karşılanmadı: x = c (rep (1,99), rep (1000000,1)); ks.test (x, pnorm)> Normallik varsayımı KS Testi tarafından hala "reddedilmiştir".
rolando2

Bu cevabı beğendim (+1), ancak normallik varsayımıyla yapılabilecekler hakkında biraz karamsar. Herhangi bir modelleme için genellikle iyi bir başlangıç ​​noktasıdır ve normal dağılmış rasgele değişkenlerin karışımlarını veya işlevlerini alarak çok geniş bir dağılım sınıfına genelleştirebilirsiniz.
Olasılıksal

4

Normallik varsayımı, verilerinizin normal olarak dağıldığını varsayar (çan eğrisi veya gauss dağılımı). Bunu, verileri çizerek veya kurtozis (tepe noktası ne kadar keskin) ve çarpıklık (?) (Verinin yarısından fazlası pikin bir tarafındaysa) önlemlerini kontrol ederek kontrol edebilirsiniz.


2
Normallik varsayımını karşılamak için hangi kurtosis ve çarpıklık seviyeleri kabul edilebilir?
Bir Aslan

5
İstatistiksel yöntemlerin çoğu, verilerin değil normal bir varsayım değişkeninin yerine, örneğin doğrusal bir regresyondaki hata terimini, normal kabul eder. Kontrol, asıl verilere değil artıklara bakmaktan ibarettir!

3

Diğer cevaplar normalin ne olduğunu ve önerilen normallik test yöntemlerini kapsamıştır. Christian, pratikte mükemmel bir normalliğin zar zor var olduğunu vurguladı.

Normallikten gözlemlenen sapmanın illa ki normallik olduğunu varsayan metotların kullanılamayacağını ve normallik testinin çok faydalı olamayacağı anlamına gelmediğini vurguluyorum.

  1. Normallikten sapma, veri toplamadaki hatalardan kaynaklanan aykırılıklardan kaynaklanabilir. Birçok durumda veri toplama kayıtlarını kontrol etmek, bu rakamları düzeltebilir ve normallik genellikle gelişir.
  2. Büyük numuneler için bir normallik testi, normallikten ihmal edilebilir bir sapmayı tespit edebilecektir.
  3. Normallik kabul eden yöntemler normallikten daha sağlam olabilir ve kabul edilebilir doğrulukta sonuçlar verebilir. T-testinin bu anlamda sağlam olduğu bilinirken, F testi kaynak değildir ( kalıcı bağlantı ) . Belirli bir yöntemle ilgili olarak, sağlamlık hakkındaki literatürü kontrol etmek en iyisidir.

1
Normalliğin iyi bir varsayım olmasının sebebinin, verilerin kullanımdaki görece yetersizliğinden kaynaklandığını düşünüyorum - normal dağılıma ilişkin tahminlerde yalnızca ilk iki an kullanılır. Bu, en küçük kareler modelinin tanısal kontrolünü çok kolaylaştırır - temel olarak sadece yeterli istatistikleri etkileyebilecek ayraçları ararsınız.
olasılıklılık

3

Yukarıdaki cevaplara eklemek için: "Normallik varsayımı", modelinde, teriminin normal dağılışı olduğu şeklindedir. (İ ANOVA gibi) sık sık bazı diğer gider Bu varsayım: 2) varyans arasında sabiti, gözlemlerin 3) bağımsızlığıdır.Y=μ+Xβ+ϵϵσ2ϵ

Bu üç varsayımdan, 2) ve 3) çoğunlukla 1) 'den çok daha vaskülerdir! Bu yüzden onlarla daha çok meşgulsün. George Box "" Değişkenler üzerine bir ön deneme yapmak, bir okyanus gemisinin limandan çıkması için koşulların yeterince sakin olup olmadığını bulmak için sıralı bir tekneye denize girmek gibidir! "- [Kutu," -normallik ve varyanslar üzerinde testler ", 1953, Biometrika 40, s. 318-335]"

Bu, eşit olmayan varyansların büyük endişe verici olduğu, ancak gerçekte onlar için test yapmanın çok zor olduğu anlamına gelir, çünkü testler normal olmayan özellikten etkilenir, testler araçların testleri için önemli değildir. Günümüzde, KESİNLİKLE kullanılması gereken eşitsiz varyanslar için parametrik olmayan testler vardır.

Kısacası, eşitliksiz farklar, sonra normallik konusunda İLK kendiniz meşgul olun. Kendine onlar hakkında bir fikir verdiğinde, normallik hakkında düşünebilirsin!

İşte size pek çok iyi tavsiye: http://rfd.uoregon.edu/files/rfd/StatisticalResources/glm10_homog_var.txt


Yorumumun doğru olduğundan eminim. Box, bununla ilgili olarak Box, Hunter & Hunter: Uzunca okuduğum Deneme İstatistikleri'ne yazmıştır. Ama şimdi anlıyorum ki, hakkında yazdıklarım ne demek istediğimi değil, normaliteyle ilgili ... demeliler! eşitsiz varyanslar normallikten çok daha önemlidir. Elbette, bağımsızlık tüm varsayımların annesidir.
kjetil b halvorsen
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.