Normallik testi 'esasen işe yaramaz mı'?


298

Eski bir meslektaşım bir keresinde bana şöyle tartışmıştı:

Normalde, null altında sadece asimptotik veya neredeyse normal olan rastgele değişkenler üreten (nihayetinde büyük yapamayacağımız miktarlara bağlı 'asimptotik' kısmı olan) süreçlerin sonuçlarına normalite testleri uygularız ; Ucuz bellek, büyük veri ve hızlı işlemciler çağında, normallik testleri, büyük (delicesine büyük olmasa da) örnekler için normal dağılımın boşluğunu her zaman reddetmelidir. Bu nedenle, normal olarak testler yalnızca küçük numuneler için kullanılmalıdır, büyük olasılıkla daha düşük güce ve tip I oranı üzerinde daha az kontrole sahiplerse.

Bu geçerli bir argüman mı? Bu iyi bilinen bir argüman mı? Normallikten daha 'boş' bir boş hipotez için bilinen testler var mı?


23
Başvuru için: Bunun toplum wiki olması gerektiğini düşünmüyorum.
Shane

2
'Doğru bir cevap' olduğundan emin değildim ...
18

5
Belirli bir anlamda, bu sınırlı sayıda parametre için yapılan tüm testler için geçerlidir. İle sabit (test yapılarak belirlenen edildiği parametrelerinin sayısı) ve bir noktada sınırları olmadan growthing iki grup arasında herhangi bir fark (ne kadar küçük) daima kıracak boş. Aslında bu, bayes testlerinin lehine bir argümandır. nkn
kullanıcı603

2
Benim için geçerli bir argüman değil. Her neyse, herhangi bir cevap vermeden önce işleri biraz resmileştirmeniz gerekir. Yanlış olabilir ve olmayabilirsin ama şimdi sahip olduğun sezgiden başka bir şey değil: Benim için cümle "Ucuz bellek, büyük veri ve hızlı işlemciler çağında, normallik testleri her zaman normalin reddetmeli" açıklamalara ihtiyacı var :) Daha resmi bir kesinlik vermeye çalışırsanız cevabın basit olacağını düşünüyorum.
Robin Girard

8
"Hipotez testleri için uygun olmayan büyük veri kümeleri uygun mu?" Başlıklı konu, bu sorunun genelleştirilmesini tartışıyor. ( stats.stackexchange.com/questions/2516/… )
whuber

Yanıtlar:


229

Bu bir tartışma değil. Resmi normallik testlerinin her zaman bugün birlikte çalıştığımız devasa örneklem büyüklüğünü reddettiği (biraz belirtilmiş) bir gerçek. N büyüdüğünde mükemmel normallikten en küçük sapmanın bile önemli bir sonuç vereceğini kanıtlamak bile kolaydır. Her veri setinin bir dereceye kadar rastgelelik derecesine sahip olması nedeniyle, hiçbir veri kümesi tamamen normal dağılıma sahip bir örnek olmayacaktır. Ancak uygulamalı istatistiklerde soru, verilerin / artıkların tamamen normal olup olmadığı değil, varsayımların tutması için yeterince normal olup olmadığıdır.

Shapiro-Wilk testi ile göstereyim . Aşağıdaki kod normalliğe yaklaşan ancak tamamen normal olmayan bir dizi dağıtım oluşturur. Daha sonra, shapiro.testbu neredeyse normal dağılımlardan bir numunenin normallikten sapıp sapmadığını test ediyoruz . R'de:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

Son satır, her bir örneklem büyüklüğü için simülasyonların hangi kısmının normaliteden önemli ölçüde saptığını kontrol eder. Dolayısıyla, vakaların% 87'sinde, 5000 gözlem örneği, Shapiro-Wilks'e göre normallikten önemli ölçüde sapmaktadır. Ancak, qq grafiklerini görürseniz, asla normallikten sapmaya karar vermezsiniz. Aşağıda bir örnek olarak rastgele örneklemlerin bir seti için qq-plotları görüyorsunuz.

alt metin

p-değerleri ile

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 

40
Bir yandan, merkezi limit teoremi, n'nin büyük olduğu birçok durumda resmi normallik kontrolünü gereksiz kılar.
Joris Meys

31
evet, asıl soru verinin gerçekte normal dağılıp dağılmadığı değil, temel normallik varsayımının analizin pratik amacı için makul olması için yeterince normal olup olmadıklarıdır ve CLT temelli argümanın normal olduğunu düşünürdüm. Bunun için yeterli.
Dikran Marsupial

53
Bu cevap soruyu ele almıyor gibi görünüyor: yalnızca SW testinin nominal güven seviyesine ulaşmadığını ve bu testte (veya en azından Ruygulamasında) bir kusur olduğunu tespit ettiğini gösteriyor . Ancak hepsi bu kadar - genel olarak normallik testinin yararı kapsamında değil. Normallik testlerinin her zaman büyük örneklem boyutlarında reddettiği iddiası yanlıştır.
whuber

19
@whuber Bu cevap soruyu ele almaktadır. Sorunun asıl amacı “normallik” içinde “yakın” dır. SW, numunenin normal bir dağılımdan alınma şansını test eder. Yaptığım dağılımlar kasıtlı olarak normal olmadığından, SW testinin vaat ettiği şeyi yapmasını beklersiniz: boş değeri reddetmek. Bütün mesele, bu reddetmenin normal örneklemeden sapmanın orada güç kaybıyla sonuçlanmadığından, büyük numunelerde anlamsız olmasıdır. Test doğru, ancak QQplots
Joris Meys

11
Yazdıklarınıza ve "neredeyse Normal" bir dağıtımla ne demek istediğinizi yanlış anladığınıza güvenmiştim. Şimdi anlıyorum - ama yalnızca kodu okuyarak ve dikkatlice test ederek - ve ortalamalarla üç standart Normal dağılımdan simüle ettiğiniz ve sonuçları oranında birleştirdiğinizi görüyorum . Eğer olmaz umut Normallik iyi bir test, bu durumda null adlı harekete karşı çıkacağını? Etkin bir şekilde gösterdiğiniz şey, QQ parsellerinin bu tür karışımları tespit etmede çok iyi olmadığı, hepsi bu! 1 , 2 2 : 2 : 10, 1,22:2:1
whuber

172

Normallik testinin 'esasen işe yaramaz' olup olmadığını düşünürken, ilk önce ne için faydalı olması gerektiğini düşünmek gerekir. Pek çok insan (en azından ... en azından birçok bilim insanı) normallik testinin cevapladığı soruyu yanlış anlıyor.

Soru normallik testleri cevap veriyor: Gaussian idealinden sapma olduğuna dair ikna edici kanıtlar var mı? Orta büyüklükteki gerçek veri setleriyle cevap neredeyse her zaman evet.

Bilim adamları genellikle normallik testinin cevap vermesini bekliyorlar: Veriler, Gaussian idealinden Gauss dağılımını gösteren bir testin "yasaklanmasına" yetecek kadar sapıyor mu? Bilim adamları genellikle normallik testinin ne zaman konvansiyonel (ANOVA, vb.) Testlerden ne zaman vazgeçileceğine karar veren ve bunun yerine dönüştürülmüş verileri analiz eden veya sıra tabanlı parametrik olmayan bir test veya yeniden örnekleme veya önyükleme yaklaşımı kullanan hakem olmasını ister. Bu amaçla normallik testleri çok kullanışlı değildir.


16
İyi ve bilgilendirici bir cevap için +1. Sık rastlanan bir yanlış anlaşılma için iyi bir açıklama görmeyi yararlı buluyorum (ki bu arada kendimi deneyimliyorum: stats.stackexchange.com/questions/7022/… ). Yine de özlediğim şey, bu yaygın yanlış anlaşılmaya alternatif bir çözüm. Eğer normallik testleri gitmenin yanlış yolu ise, normal bir yaklaşımın kabul edilebilir / gerekçeli olup olmadığı nasıl kontrol edilir?
postaf

6
Analistin (ya da araştırmacının / bilim adamının) (ortak) duygusunun yerine geçmez. Ve deneyim (deneyerek ve görerek öğrenilir: normal olduğunu varsayarsam ne gibi sonuçlar alırım? Eğer değilse ne fark eder?). Grafikler senin en iyi arkadaşların.
FairMiles

2
Bu makaleyi sevdim, ki bu sizin belirttiğiniz noktayı belirtir: Micceri, T. (1989). Tek boynuzlu at, normal eğri ve diğer imkansız yaratıklar. Psikolojik Bülten, 105 (1), 156-166.
Jeremy Miles

4
Grafiklere bakmak harika, ama ya el ile incelemek için çok fazla varsa? Olası sorunlu noktaları işaret etmek için makul istatistiksel prosedürleri formüle edebilir miyiz? A / B deneyi gibi durumları büyük ölçekte düşünüyorum: exp-platform.com/Pages/… .
dfrankow

118

Normallik testlerinin grafik muayenelere eşlik edebileceğini düşünüyorum. Yine de doğru şekilde kullanılması gerekiyor. Bence bu , Shapiro-Wilk, Anderson-Darling ve Jarque-Bera testleri gibi birçok popüler testin asla kullanılmaması gerektiği anlamına geliyor.

Bakış açımı açıklamadan önce birkaç açıklama yapmama izin verin:

  • 100,000 ya da daha fazla kez ...).
  • Örgün bir test yapmak istemeseniz bile, örneğin normal olmayanlığı , örneğin örnek çarpıklığını hesaplayarak ölçmek faydalı olacaktır .
  • Çok değişkenli normalliğin grafiksel olarak değerlendirilmesi zor olabilir ve çok değişkenli istatistikler için asimptotik dağılımlara yakınsama yavaş olabilir. Normallik testleri bu nedenle çok değişkenli bir ortamda daha faydalıdır.
  • Normallik testleri belki de istatistiği bir kara kutu yöntemi olarak kullanan uygulayıcılar için özellikle yararlıdır . Normallik reddedildiğinde, uygulayıcı alarm vermeli ve normallik varsayımına dayanan standart bir prosedür yerine, parametrik olmayan bir prosedür kullanmayı, dönüşüm uygulamayı ya da daha deneyimli bir istatistikçiye danışmayı düşünmelidir.
  • n

(Benim tanımımda) eğer bir sınıfın alternatifi, eğer o sınıfın alternatiflerine duyarlı, fakat diğer sınıfların alternatiflerine duyarlı değilse, bir alternatif sınıfına karşı yönlendirilir. Tipik örnekler, çarpık veya kurtotik alternatiflere yönelik yapılan testlerdir . En basit örnekler, test istatistiği olarak örnek eğriliği ve kurtozu kullanır.

Yönlendirilmiş normallik testleri, genellikle omnibus testlerine (Shapiro-Wilk ve Jarque-Bera testleri gibi) tercih edilir, çünkü sadece bazı normal olmayan türlerin belirli bir çıkarım prosedürü için endişe verici olması yaygındır. .

γ=E(Xμ)3σ3κ=E(Xμ)4σ43.Xγ=0γκ normal dağılıma için 0 olarak kalır.

Tn

P(Tnx)=Φ(x)+n1/216γ(2x2+1)ϕ(x)n1x(112κ(x23)118γ2(x4+2x23)14(x2+3))ϕ(x)+o(n1),

Φ()ϕ()

γn1/2κn1Tn

n

Genel bir kural olarak ( doğanın bir yasası değil ), araçlarla ilgili çıkarım çarpıklığa ve sapmalarla ilgili çıkarımın kurtosise karşı hassastır.

Normallik için yönlendirilmiş bir test kullanmak, '' tehlikeli '' alternatiflere karşı daha yüksek güç elde etmenin ve '' tehlikeli '' alternatiflere karşı daha düşük güç elde etmenin yararını yaratır; çıkarımsal prosedürümüzün performansını etkilemez. Normal olmama, eldeki sorunla ilgili olarak ölçülür. Bu grafiksel olarak yapmak her zaman kolay değildir.

n|γ|1

|n1/216γ(2zα/22+1)ϕ(zα/2)|0.01
γ=0n


2
Şimdi bu harika bir cevap!
kullanıcı603

10
Evet bu kabul edilmiş, gerçekten harika bir cevap
olmalı

2
“Sadece bazı normallik olmayan türlerin belirli bir çıkarımsal prosedür için endişe verici olması yaygındır.” - tabii ki, o zaman normal olmayan türden birine yönelik bir test kullanılmalıdır. Ancak, bir normallik testi kullanıyor olması, normallik ile ilgili tüm hususları umursadığı anlamına gelir . Soru şudur: Bu durumda bir normallik sınavı iyi bir seçenektir.
rbm,

Belirli testler için varsayımların yeterliliği için test yaygınlaşıyor ve bu da tahminde bulunabilecek bazı çalışmaları nezaketle ortadan kaldırıyor.
Carl

1
@Carl: Bunun için bazı referanslar / örnekler ekleyebilir misiniz?
kjetil b halvorsen

58

IMHO normallik testleri aşağıdaki nedenlerden dolayı kesinlikle yararsızdır:

  1. Küçük örneklerde, popülasyonun gerçek dağılımının büyük ölçüde normal olmadığı, ancak normallik testinin bunu almak için güçlü olmadığı ihtimali yüksektir.

  2. Büyük örneklerde, T testi ve ANOVA gibi şeyler normal olmayan duruma oldukça dayanıklıdır.

  3. Normal olarak dağılmış bir popülasyonun fikri, nasıl olsa uygun bir matematiksel yaklaşımdır. Genellikle istatistiksel olarak ele alınan miktarların hiçbiri, tüm gerçek sayıların desteğiyle makul bir şekilde dağılımlara sahip olamaz. Örneğin, insanlar negatif bir yüksekliğe sahip olamazlar. Bir şey, evrenden daha fazla veya daha fazla kütleye sahip olamaz. Bu nedenle, söylemek güvenlidir şey olduğunu tam olarak normalde gerçek dünyada dağıttı.


2
Elektriksel potansiyel farkı, negatif olabilen gerçek dünya miktarına bir örnektir.
nico,

16
@ nico: Olumsuz olacağından emin olun, ancak bununla sınırlı bir sınır var çünkü evrende sadece çok fazla proton ve elektron var. Elbette bu pratikte konu dışı, ama bu benim amacım. Hiçbir şey tam olarak normal dağılmaz (model yanlış), ancak yeterince yakın olan birçok şey var (model faydalıdır). Temel olarak, modelin yanlış olduğunu zaten biliyordunuz ve boş değeri reddetmek veya reddetmek, yine de yararlı olup olmadığı hakkında hiçbir bilgi vermiyor.
dsimcha

1
@ dsimcha - Bunun gerçekten anlayışlı ve yararlı bir cevap olduğunu biliyorum.
rolando2

5
t

@ dsimcha "model yanlış". TÜM modeller olsa "yanlış" değil mi?
Atirag

30

Normallik ön testinin (grafik kullanarak gayri resmi değerlendirmeler içeren) konuyu kaçırdığını düşünüyorum.

  1. Bu yaklaşımın kullanıcıları, normalite değerlendirmesinin 1.0'a yakın bir güce sahip olduğunu varsaymaktadır.
  2. Wilcoxon, Spearman ve Kruskal-Wallis gibi parametrik olmayan testler, normalliğin geçerli olması durumunda, 0.95'in verimine sahiptir.
  3. 2. bakış açısına göre, verilerin normal dağılımdan kaynaklanamadığı olasılığını eğlendirmesi halinde parametrik olmayan bir testin kullanımı önceden belirtilebilir.
  4. YY

0,95'in veriminin asimptotik olduğuna dikkat edin : FWIW Verimliliğin tipik sonlu örneklem büyüklükleri için çok daha düşük olduğunu tahmin ediyorum ... (kuşkusuz bu çalışmayı görmedim, ya da kendimi araştırmaya
çalışmamıştım

16

Normallik için bir testin veya herhangi bir kaba kontrolün "yararlı" olup olmadığını sormadan önce, "Neden soruyorsun?" Sorusunun arkasındaki soruyu cevaplamak zorundasın.

Örneğin, yalnızca bir veri kümesinin ortalamasına bir güven sınırı koymak istiyorsanız , ne kadar veriniz olduğuna ve ne kadar büyük olduğuna bağlı olarak normallikten ayrılmanız önemli olabilir veya olmayabilir. Bununla birlikte, gelecekteki gözlemlerde veya örneklemiş olduğunuz popülasyonda en uç değerin ne olacağını tahmin etmek istiyorsanız, normallikten ayrılmalar çok önemlidir.


12

Küçük bir şey ekleyeyim:
Alfa hatasını hesaba katmadan normallik testi yapmak, genel olarak alfa hatası yapma olasılığınızı arttırır.

Her ek testin alfa-hata birikimini kontrol etmediğiniz sürece bunu asla unutmamalısınız. Bu nedenle normallik testini reddetmek için iyi bir sebep daha.


İlk önce bir normallik testi yapan bir duruma atıfta bulunduğunuzu ve daha sonra hangi testi uygulayacağınıza karar vermek için o testi kullandığınızı farz ediyorum.
Harvey Motulsky

3
Belirli bir yöntemin kullanılmasının uygun olup olmadığını belirlemek için yöntem olarak kullanıldığında normallik testlerinin genel faydasını kastediyorum. Bunları bu durumlarda uygularsanız, bir alfa hatası verme olasılığı açısından, alfa hatası birikimini önlemek için daha sağlam bir test yapmak daha iyidir.
Henrik

4
H0

3
Normallik testinin tip I hatalarını artırabilmesinin bir başka yolu, "genel bir alfa hatası yapma olasılığı" ndan bahsediyor olmamızdır. Testin kendisinde bir hata oranı vardır, bu nedenle genel olarak , bir hata yapma olasılığımız artar. Sanırım ben de küçük bir şeye vurgu yapıyorum ...
Nick Stauner

2
@NickStauner İletmek istediğim tam olarak buydu. Bu noktayı daha da netleştirdiğiniz için teşekkür ederiz.
Henrik

11

Buradaki cevaplar birçok önemli noktaya değindi. Hızlı bir şekilde özetlemek için:

  • Bir veri kümesinin gerçekten bir dağıtımı takip edip etmeyeceğini belirleyebilecek tutarlı bir test yoktur.
  • Testler, yüksek kaldıraç, yüksek etki gözlemleri ve bunların model üzerindeki etkileri hakkında yorum yapmak için verilerin ve modellerin görsel olarak denetlenmesinin bir alternatifi değildir.
  • Pek çok regresyon rutini için varsayımlar genellikle normal dağılmış "veri" [artıklar] gerektirdiği için yanlış anlaşılır ve bunun, acemi istatistikçiler tarafından analistin bunu analizlere devam etmeden önce bir anlamda resmi olarak değerlendirmesini gerektirdiği şeklinde yorumlanması.

Öncelikle, kişisel olarak en sık erişilen ve okunan istatistiksel makalelerden birine değinmek için bir cevap ekliyorum: " Büyük Halk Sağlığı Veri Kümelerinde Normallik Varsayımlarının Önemi ", Lumley et. ark. Bütünüyle okumaya değer. Özet şöyledir:

T testi ve en küçük kareler doğrusal regresyon, yeterince büyük numunelerde normal dağılım varsayımı gerektirmez. Önceki simülasyon çalışmaları, “yeterince büyük” in genellikle 100'ün altında olduğunu ve hatta son derece Normal olmayan tıbbi maliyet verilerimiz için bile 500'den az olduğunu göstermektedir. -test ve lineer model, yalnızca Normal dağılımlara sahip değil, birçok veri türündeki farklılıkları ve eğilimleri analiz etmek için kullanışlı varsayılan araçlardır. Normallik için resmi istatistiksel testler, dağıtımın önemli olduğu küçük örneklerde düşük güce sahip olacakları ve sadece dağılımın önemsiz olduğu büyük örneklerde yüksek güce sahip olacaklarından özellikle istenmezler.

Doğrusal regresyonun geniş örnek özellikleri iyi anlaşılmış olsa da, Normallik varsayımının önemsiz olması için gereken örneklem büyüklükleri konusunda çok az araştırma yapılmıştır. Özellikle, gerekli örneklem büyüklüğünün modeldeki yordayıcı sayısına bağlı olduğu açık değildir.

Normal dağılımlara odaklanma, bu yöntemlerin gerçek varsayımlarından uzaklaştırabilir. Doğrusal regresyon, sonuç değişkeninin varyansının yaklaşık olarak sabit olduğunu varsaymaktadır, ancak her iki yöntemde de birincil kısıtlama, sonuç değişkeninin ortalamasındaki değişiklikleri incelemenin yeterli olduğunu varsaymalarıdır. Dağılımın başka bir özeti daha büyük ilgi çekiyorsa, t testi ve doğrusal regresyon uygun olmayabilir.

Özetlemek gerekirse: normallik, belirli bir bilimsel soruyu cevaplamanın öneminin aksine, tartışmaya veya dikkatine değmez. Arzu verideki ortalama farkları özetlemekse , t testi ve ANOVA veya lineer regresyon çok daha geniş bir anlamda haklı çıkarılır. Bu modellere dayanarak yapılan testler, dağıtım varsayımları karşılanmadığında bile, güç olumsuz yönde etkilense de doğru alfa seviyesinde kalır.

Normal dağılımların dikkatlerini çekmelerinin nedenleri klasik nedenlerden dolayı olabilir, ANOVA'lar için F dağılımlarına ve T testi için Student-T dağılımlarına dayalı kesin testler elde edilebilir. Gerçek şu ki, bilimin birçok modern ilerlemesi arasında, genellikle daha önce toplananlardan daha büyük veri setleri ile ilgileniyoruz. Birisi aslında küçük bir veri kümesiyle uğraşıyorsa, bu verilerin normal şekilde dağıtıldığı gerekçesi bu verilerden gelemez: basitçe yeterli güç yoktur. Diğer araştırmalara, kopyalara, hatta ölçüm sürecinin biyolojisi veya bilimine dikkat çekmek, bence gözlemlenen verilerin altında yatan muhtemel bir olasılık modelini tartışmak için çok daha haklı bir yaklaşımdır.

Bu nedenle, alternatif olarak bir rütbeye dayalı testi seçerek bu noktayı tamamen gözden kaçırıyor. Ancak, jackknife veya bootstrap gibi sağlam varyans tahmin edicilerinin kullanılmasının, bu hataların bağımsızlığı veya özdeş dağılımı gibi çeşitli daha önemli model spesifikasyon ihlalleri altında test yapılmasına izin veren önemli hesaplama alternatifleri sunduğunu kabul edeceğim.


10

Ben kullanılan normallik testleri tamamen yararsız olduğunu düşünmek.

Ancak şimdi diğer araştırmacılara danışmanlık yapıyorum. Genellikle, numuneleri elde etmek son derece pahalıdır ve bu nedenle n = 8 ile çıkarım yapmak isteyeceklerdir.

Böyle bir durumda, parametrik olmayan testlerle istatistiksel anlamlılık bulmak çok zordur, ancak n = 8 olan t testleri normalden sapmalara karşı hassastır. Öyleyse elde ettiğimiz şey “normal, varsayımlara bağlı olarak, istatistiksel olarak anlamlı bir fark bulduk” diyebiliriz (endişelenmeyin, bunlar genellikle pilot çalışmalar ...).

O zaman bu varsayımı değerlendirmenin bir yoluna ihtiyacımız var. Ben kampa yarı yoldayım, arazilere bakmanın daha iyi bir yol olduğu söylenebilir, ancak gerçeği söyleyeyim, bu konuda çok fazla anlaşmazlık olabilir, ki eğer sizinle aynı fikirde olmayanlardan biri ise çok sorunlu olabilir. makalenizin incelemesi.

Birçok yönden, normalite testlerinde hala birçok kusur olduğunu düşünüyorum: örneğin, II. Tip hatayı tip I'den daha fazla düşünmeliyiz. Fakat onlara ihtiyaç var.


Buradaki argümanların, testlerin teoride sadece işe yaramaz olduğuna dikkat edin. Teoride, istediğimiz kadar örnek alabiliriz ... Verilerinizin en azından bir şekilde normale yakın olduğunu kanıtlamak için testlere ihtiyacınız olacak.
SmallChess

2
İyi bir nokta. Sanırım neyi ima ettiğinizi ve kesinlikle inanıyorum ki, normallikten sapma ölçüsü hipotez testinden daha önemlidir.
Cliff AB

Parametrik olmayan bir teste geçmedikleri ve p-değerlerini (şartlı ön testlerle geçersiz kılınan) yorumlamaya çalıştıkları sürece, belki de sorun değil mi ?!
Björn

2
Normallik testinin gücü n = 8'de çok düşük olacaktır; Özellikle, küçük örneklem büyüklüklerinde tespit etmenin oldukça zor olabileceğini varsayan bir testin özelliklerini etkileyecek normallikten sapmalar (test ile veya görsel olarak).
Glen_b

1
@Glen_b: Katılıyorum; Bence bu duyarlılık, I tipinden ziyade Tip II hataları hakkında daha fazla umursama ile uyumlu olduğunu düşünüyorum. Mevcut araçlarımızın bu ihtiyacı gerçekten doldurup doldurmadığı farklı bir sorudur.
Cliff AB,

10

Buna değer, bir keresinde kesilmiş normal dağılım için hızlı bir örnekleyici geliştirdim ve normallik testi (KS) bu fonksiyonun hata ayıklama işleminde çok yararlı oldu. Bu örnekleyici testin büyük örneklem büyüklüğünden geçtiğini, ancak ilginç bir şekilde GSL'nin ziggurat örnekleyicisinin test etmediğini belirtti.


8

Verdiğin argüman bir fikir. Normallik testinin öneminin, verilerin normalden ciddi şekilde ayrılmadığından emin olmak olduğunu düşünüyorum. Çıkarım prosedürüm için parametrik ve parametrik olmayan bir test arasında karar vermek için bazen bunu kullanıyorum. Testin orta ve büyük örneklerde (merkezi limit teoremi devreye girmediğinde) yararlı olabileceğini düşünüyorum. Wilk-Shapiro veya Anderson-Darling testlerini kullanma eğilimindeyim, ancak SAS'ı çalıştırırken hepsini alıyorum ve genelde oldukça iyi anlaşıyorlar. Farklı bir notta, QQ grafikleri gibi grafiksel prosedürlerin eşit derecede iyi çalıştığını düşünüyorum. Resmi bir testin avantajı objektif olmasıdır. Küçük numunelerde, bu uygunluk testlerinin iyiliğinin pratikte gücü yoktur ve bu sezgisel bir anlam ifade eder, çünkü normal bir dağılıma ait küçük bir numune şans eseri normal görünmeyebilir ve testte hesaba katılabilir. Aynı zamanda normal olmayan birçok dağılımı normal dağılımdan ayıran yüksek çarpıklık ve kurtozis küçük örneklerde kolay görülmez.


2
Kesinlikle bu şekilde kullanılabilse de, QQ-Plot'tan daha objektif olacağını düşünmüyorum. Testlerin öznel yanı, verilerinizin normal olmadığına karar vermektir. Büyük bir örneklemede p = 0.05'te reddetmek çok iyi olabilir.
Erik,

4
Ön test (burada önerildiği gibi), genel sürecin Tip I hata oranını geçersiz kılabilir; Seçilen testin sonuçları yorumlanırken ön testin yapıldığı gerçeği dikkate alınmalıdır. Daha genel olarak, hipotez testleri, gerçekte umursadığı boş hipotezi test etmek için yapılmalıdır, yani değişkenler arasında ilişki yoktur. Verinin tam olarak Normal olduğuna dair sıfır hipotezi bu kategoriye girmiyor.
konuk

1
(+1) Burada mükemmel bir tavsiye var. Erik, “objektif” kullanımı Michael'ın hakkını fark edene kadar beni çok şaşırttı: aynı veri üzerinde aynı testi doğru şekilde yapan iki kişi her zaman aynı p değerini elde edecek, ancak aynı QQ grafiğini farklı şekilde yorumlayabilirler. Konuk: Tip I hatasıyla ilgili uyarıcı not için teşekkür ederiz. Peki neden veri dağıtımını önemsememeliyiz? Sık sık bu ilginç ve değerli bir bilgidir. En azından, verilerimin testlerimin onlar hakkında yaptığı varsayımlarla tutarlı olup olmadığını bilmek istiyorum!
whuber

1
Kesinlikle katılmıyorum. Her iki insan da aynı QQ grafiğini alır ve aynı p değerini alır. P-değerini yorumlamak için testinizin özellikle hassas olduğu örneklem büyüklüğünü ve normallik ihlallerini dikkate almanız gerekir. Bu yüzden p-değeri ile ne yapacağınıza karar vermek aynı derecede özneldir. P-değerini tercih etmenin nedeni, verilerin mükemmel bir normal dağılım izleyebileceğine inanıyor olmanızdır - başka bir deyişle, p-değerinin örneklem büyüklüğüyle ne kadar hızlı düştüğü sadece bir sorudur. Dahası, iyi bir örneklem büyüklüğü verildiğinde, QQ arsa hemen hemen aynı görünüyor ve daha fazla örnek ile sabit kalır.
Erik,

1
Erik, test sonuçlarının ve grafiklerin yorumlanması gerektiğini kabul ediyorum. Ancak test sonucu bir sayıdır ve bu konuda herhangi bir anlaşmazlık olmayacak. Bununla birlikte, QQ arsa, birden fazla açıklama olduğunu kabul ediyor. Her biri nesnel olarak doğru olsa da, neye dikkat edilmesi gerektiği ... bir seçimdir. "Subjektif" ne anlama geliyor: sonuç, sadece prosedürün kendisine değil, analiste bağlıdır. Bu nedenle, örneğin “tarafsızlığın” önemli olduğu kontrol çizelgeleri ve devlet düzenlemeleri gibi çeşitli ayarlarda, kriterler sayısal testlere dayanır ve asla grafiksel sonuçlara dayanmaz.
whuber

7

Burada maksimum entropi yaklaşımının faydalı olabileceğini düşünüyorum. Normal bir dağılım atayabiliriz çünkü verinin "normal dağılmış" olduğuna inanıyoruz (bunun anlamı ne olursa olsun) veya sadece aynı büyüklükteki sapmaları görmeyi bekliyoruz. Ayrıca, normal dağılımın sadece iki yeterli istatistiği olduğundan, bu miktarları değiştirmeyen verilerdeki değişikliklere duyarsızdır. Yani bir anlamda, normal bir dağılımı, aynı birinci ve ikinci anlarla mümkün olan tüm dağılımlar üzerinde "ortalama" olarak düşünebilirsiniz. Bu en küçük kareler için bir neden sağlar gerektiğini de onun yaptığı gibi çalışır.


Kavramların güzel köprülenmesi. Ayrıca, böyle bir dağıtımın önemli olduğu durumlarda , verilerin nasıl üretildiğini düşünmenin daha aydınlatıcı olduğunu kabul ediyorum . Bu prensibi karışık modellerin yerleştirilmesinde uyguluyoruz. Öte yandan, konsantrasyonlar veya oranlar her zaman çarpıktır. "Normal ... değişikliklere duyarsız" derken, şekil / ölçekdeki değişmezleri kastediyorsunuz.
AdamO

7

Faydasız olduğunu söyleyemem, ama gerçekten uygulamaya bağlı. Unutmayın, verilerin geldiği dağılımı gerçekten asla bilmiyorsunuz ve elinizde olan tek şey küçük bir gerçekleştirme kümesi. Numune ortalamanız numunede her zaman sonludur, ancak bazı olasılık yoğunluk fonksiyonları için ortalama tanımsız veya sonsuz olabilir. Üç tür Levy kararlı dağılımını düşünelim: Normal dağılım, Levy dağılım ve Cauchy dağılımı. Numunelerinizin çoğunun kuyruğunda çok fazla gözlem yoktur (yani numune ortalamasından uzakta). Bu yüzden ampirik olarak üçü ayırt etmek çok zordur, bu nedenle Cauchy (tanımlanmamış bir ortama sahiptir) ve Levy (sonsuz bir ortama sahiptir) normal bir dağılım olarak kolayca maskelenebilir.


1
"... ampirik o ... çok zor" iddia görünüyor karşı ziyade, için , bölüşüm testleri. Bu, tanıtımı gerçekten dağıtım testi için kullanım olduğunu öne süren bir paragrafta okumak için garip. Ne yani, burada gerçekten söylemeye mi çalışıyorsun?
whuber

3
Buna karşıyım ama aynı zamanda olası tüm senaryoları bilmediğim için faydasız olduğunu söylemekten de dikkat etmek istiyorum. Normallik varsayımına bağlı birçok test vardır. Normallik testinin işe yaramaz olduğunu söylemek, temelde, doğru şeyi kullandığınızdan / yaptığınızdan emin olmadığınızı söylerken tüm bu istatistiksel testleri harap etmek demektir. Bu durumda yapmamalısınız, istatistiklerin bu büyük bölümünü yapmamalısınız.
kolonel

Teşekkür ederim. Bu yorumdaki açıklamalar, soruya asıl cevabınızdan daha iyi odaklanmış gibi görünmektedir! Görüş ve önerilerinizi daha belirgin hale getirmek için bir noktada cevabınızı güncellemeyi düşünebilirsiniz.
whuber

@whuber Sorun değil. Bir düzenleme önerebilir misiniz?
kolonel

İki gönderiyi (cevap ve yorumunuz) birleştirmekle başlayabilir ve ardından teğet olabilecek herhangi bir materyali ayıklamayı (veya bir eke kümelenmeyi veya netleştirmeyi) düşünebilirsiniz. Mesela, tanımlanmamış olanlara yapılan atıf, soru üzerinde henüz net bir etkisi olmadığı ve bu nedenle biraz gizemli kaldığı anlamına gelir.
whuber

7

Bence ilk 2 soru tamamen cevaplandı, ancak 3. soruya değinildiğini sanmıyorum. Pek çok test, deneysel dağılımı bilinen bir varsayımsal dağılımla karşılaştırır. Kolmogorov-Smirnov testi için kritik değer, F'nin tamamen belirtilmesine dayanıyor. Tahmini parametrelerle parametrik dağılıma karşı test etmek için değiştirilebilir. Öyleyse, daha ziyade ikiden fazla parametre tahmin etmek demektir, o zaman sorunun cevabı evet. Bu testler 3 parametre ailesine veya daha fazlasına uygulanabilir. Bazı testler, belirli bir dağıtım ailesine karşı test yaparken daha iyi güce sahip olacak şekilde tasarlanmıştır. Örneğin, normallik testi yapılırken, boş varsayımsal dağılım normal olduğunda Anderson-Darling veya Shapiro-Wilk testi KS veya chi karesinden daha fazla güce sahiptir.


5

Analiz için önemli olan "bir şeyin" yüksek p-değerleri ile desteklendiği testlerin yanlış olduğunu düşünüyorum. Diğerlerinin de belirttiği gibi, büyük veri kümeleri için 0,05'in altında bir p değeri temin edilir. Bu nedenle, test aslında küçük ve bulanık veri setleri için “ödüller” ve kanıt yetersizliği için “ödüller”. Qq grafikleri gibi bir şey çok daha kullanışlıdır. Zor sayıların her zaman böyle şeylere karar verme isteği (evet / normal / normal değil), modellemenin kısmen bir sanat olduğunu ve hipotezlerin gerçekte nasıl desteklendiğini özlüyor.


2
Neredeyse normal olan büyük bir numunenin düşük bir p-değerine sahip olacağı, neredeyse normal olmayan küçük bir numunenin genellikle olmayacağı belirtilmektedir. Büyük p değerlerinin faydalı olduğunu sanmıyorum. Yine, delil yetersizliği için ödüllendirirler. Birkaç milyon veri noktası olan bir örneğe sahip olabilirim ve bu testler altındaki normallik varsayımını hemen hemen her zaman reddederken, daha küçük bir örnek olmaz. Bu nedenle, onları yararlı bulmuyorum. Eğer düşüncem kusurluysa, lütfen bu noktada bazı kesinti sebeplerini kullanarak gösterin.
wvguy8258

Bu, soruya hiç cevap vermiyor.
SmallChess

-2

Bahsettiğimi sanmadığım normallik testinin bir iyi kullanımı, z-puanları kullanmanın uygun olup olmadığını belirlemektir. Diyelim ki bir popülasyondan rastgele bir örnek seçtiniz ve popülasyondan rastgele bir birey seçme olasılığını bulmak ve 80 veya daha yüksek bir değer elde etmek istediğinizi varsayalım. Bu sadece dağılım normalse yapılabilir, çünkü z-puanları kullanmak için, nüfus dağılımının normal olduğu varsayımı.

Ama sanırım bunun tartışmalı olduğunu da görebiliyorum ...


Neyin değeri? Ortalama, toplam, varyans, bireysel gözlem? Sadece sonuncusu, dağıtımın varsayılan normalliliğine dayanır.
whuber

Birey demek
istedim

2
Teşekkürler. Cevabınız o kadar belirsiz kalıyor ki, hangi prosedürlerden bahsettiğinizi söylemek zor ve sonuçlarınızın geçerli olup olmadığını değerlendirmek imkansız.
whuber

2
Bu kullanımdaki problem, diğer kullanımlarla aynıdır: Test, numune büyüklüğüne bağlı olacaktır, bu nedenle, aslında işe yaramaz. Z puanlarını kullanıp kullanamayacağınızı söylemez.
Peter Flom
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.