QQplot'u Yorumlama - Normallik için karar vermek için herhangi bir kural var mı?


47

QQplot'un diğer normal testlerden daha bilgilendirici olabileceğini anlamak için QQplot'lar hakkında yeterince konu okudum. Ancak, QQplotları yorumlama konusunda deneyimsizim. Ben çok googled; Normal olmayan QQplot'ların birçok grafiğini buldum, ancak bunların nasıl yorumlanacağına dair net bir kural yoktu, bildiğiniz dağılımlar ve "içgüdü hissi" ile karşılaştırılması gibi.

Normal olmama konusunda karar vermenize yardımcı olacak herhangi bir kuralın olup olmadığını (veya bildiğinizi) bilmek isterim.

Bu iki grafiği gördüğümde bu soru ortaya çıktı: grafik 2 grafik 1

Normallik olmayan kararın verilere ve onlarla ne yapmak istediğime bağlı olduğunu biliyorum; Ancak benim sorum şu: Genel olarak, ne zaman düz çizgiden gözlenen ayrılıklar normallik yaklaşımını mantıksız hale getirmek için yeterince kanıt oluşturuyor?

Buna değer olarak, Shapiro-Wilk testi her iki durumda da normallik olmayan hipotezini reddetmedi.


3
QQ hattı etrafındaki güven grupları oldukça havalı. Bunları elde etmek için kullandığınız R kodunu paylaşabilir misiniz?
kullanıcı603

Yanıtlar:


43

Shapiro-Wilk’in güçlü bir normallik testi olduğuna dikkat edin.

En iyi yaklaşım, kullanmak istediğiniz herhangi bir prosedürün ne kadar hassas olduğu konusunda çeşitli normalliklerin çeşitliliği olduğu hakkında bir fikir sahibi olmaktır. kabul edilebilir).

Grafiklere bakmak için gayri resmi bir yaklaşım, sahip olduğunuzla aynı örnek büyüklüğünde normal olan bir dizi veri seti üretmek olacaktır - (örneğin, 24 tane). Gerçek verilerinizi bu tür arsaların ızgaralarına yerleştirin (24 rastgele küme durumunda 5x5). Eğer özellikle sıra dışı görünmüyorsa (en kötüsü arayan kişi) diyelim ki, normallikle tutarlı bir şekilde tutarlıdır.

görüntü tanımını buraya girin

Gözüme bakarsak, merkezdeki "Z" veri seti kabaca "o" ve "v" ile eşit ve hatta belki "h" ile aynı, "d" ve "f" ise biraz daha kötü görünüyor. "Z" gerçek veridir. Bir an için normal olduğuna inanmıyorum, ancak normal verilerle karşılaştırdığınızda sıra dışı görünmüyor.

[Düzenleme: Sadece rastgele bir anket yürüttüm - iyi, kızıma sordum, ancak oldukça rastgele bir zamanda - ve en az düz bir çizgi için olan seçimi "d" idi. Dolayısıyla ankete katılanların% 100'ü "d" nin en garip olduğunu düşündü.]

Daha resmi bir yaklaşım bir Shapiro-Francia testi yapmaktır (QQ-grafiğindeki korelasyona etkili bir şekilde dayanır), ancak (a) Shapiro Wilk testi kadar güçlü değil, ve (b) resmi test cevapları soru (bazen) zaten cevabını bilmen gereken bir soru (verilerinizin dağıtıldığı dağılım tam olarak normal değildir), ihtiyaç duyduğunuz soru yerine (ne kadar da önemli?).


İstenildiği gibi yukarıdaki ekran için kod giriniz. Hiçbir şey fantezi içermez:

z = lm(dist~speed,cars)$residual
n = length(z)
xz = cbind(matrix(rnorm(12*n),nr=n),z,matrix(rnorm(12*n),nr=n))
colnames(xz) = c(letters[1:12],"Z",letters[13:24])

opar = par()
par(mfrow=c(5,5));
par(mar=c(0.5,0.5,0.5,0.5))
par(oma=c(1,1,1,1));

ytpos = (apply(xz,2,min)+3*apply(xz,2,max))/4
cn = colnames(xz)

for(i in 1:25) {
  qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main="")
  qqline(xz[,i],col=2,lty=2)
  box("figure", col="darkgreen")
  text(-1.5,ytpos[i],cn[i])
}

par(opar)

x

(En azından 80'lerin ortasından beri bu tür arsalar yapıyorum. Varsayımlar beklediğinde ve ne zaman yapmadıklarını bilmiyorsanız, tarlaları nasıl yorumlayabilirsiniz?)

Daha fazla gör:

Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne, DF ve Wickham, H. (2009) Açıklayıcı veri analizi ve model teşhisi için istatistiksel çıkarım Phil. Trans. R. Soc. A 2009 367, 4361-4383 doi: 10.1098 / rsta.2009.0120


8
+1. Numunenizin QQ grafiklerini rastgele oluşturulmuş olanlarla karşılaştırmayı gerçekten çok seviyorum!
COOLSerdash

@Glen_b teşekkür ederiz. Size grafik ızgarasını nasıl ürettiğinizi sorabilir miyim?
greymatter0

3
Sadece isteğine cevap vermediğimi öğrendim, greymatter0. Senaryomu koymak için yeterli yer yok, ama ben bunun ana hatlarını çizeceğim. Arsa seçenekleri ile oynadım - opar=par(); par(mfrow=c(5,5)); par(mar=c(0.5,0.5,0.5,0.5)); par(oma=c(1,1,1,1))sonra bir döngü içinde daha sonra ne olduysa geri seçenekleri ayarlamak için sonunda iyaptım . Bu, bazı detayların dışında kalıyor ancak oradan yönetebilmelisiniz. qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main=""); qqline(xz[,i],col=2,lty=2); box("figure", col="darkgreen")par(opar)
Glen_b

@ greymatter0 ... ve şimdi nihayet cevap verdiğimde size daha önce ping atmadığımı keşfettim. Özür dilerim.
Glen_b

Endişelenme Glen_b, hatırladığın için çok teşekkür ederim!
greymatter0

22

Buradaki mükemmel cevapların hiçbiriyle çelişmeden, genellikle (her zaman değil) belirleyici olan tek bir kural var. (@Dante'nin cevabında geçen bir yorum da geçerli gözüküyor.)

Bazen belirtmek çok açık görünüyor, ama işte buradasınız.

Açıkça daha uygun olan farklı bir açıklama önerebilirsem normal olmayan bir dağıtımı aramaktan mutlu olurum.

Normal bir kuantil-kuantil parselin kuyruklarında küçük eğrilik ve / veya düzensizlik varsa, ancak bir gama kuantil-kuantil arsa üzerinde yaklaşık düzlük varsa, "Bu normal olarak iyi bir şekilde nitelenmez; daha iyi bir gama gibidir ".

Bunun, genel bilimsel uygulamadan bahsetmek yerine, tarihin ve bilim felsefesinin standart bir argümanını yankılaması tesadüf değil, yerine koymak için daha iyi bir fikre sahip olduğunuzda bir hipotezin en açık ve etkili şekilde çürütülmesidir. (Cue: Karl Popper, Thomas S. Kuhn ve diğerlerine imalar.)

Yeni başlayanlar için ve gerçekten de herkes için, “Her zaman beklediğimiz küçük düzensizlikler dışında bu normaldir” ile “Sık sık aldığımız bazı kaba benzerlikler dışında, normalden çok farklıdır. ".

Güven (benzeri) zarflar ve çok sayıda simule edilmiş örnek güçlü bir şekilde yardımcı olabilir ve ikisini de kullanır ve öneririm, ancak bu da yardımcı olabilir. (Bu arada, bir simülasyon portföyü ile karşılaştırmak, son zamanlarda tekrarlanan bir buluş, ancak en azından 1931'de Shewhart'a kadar uzanıyor.)

Üst çizgimi ekleyeceğim. Bazen hiçbir marka dağılımı hiç görünmeyebilir ve mümkün olan en iyi şekilde ilerlemeniz gerekir.


12

@Glen_b'in dediği gibi, verilerinizi normal olduğundan emin olduğunuz verilerle karşılaştırabilirsiniz - kendiniz oluşturduğunuz veriler ve daha sonra içgüdülerinize güvenebilirsiniz :)

Aşağıdakiler OpenIntro Statistics ders kitabından bir örnektir

Bu QQ Plot'a bir göz atalım:

qq1

Bu normal mi? Bunu normal dağılmış verilerle karşılaştıralım:

qq2

Bu, verilerimizden daha iyi görünüyor, bu yüzden verilerimiz normal görünmüyor. Birkaç kez simüle ederek ve yan yana çizerek emin olalım

qq3

Bu yüzden içgüdülerimiz bize numunenin normal dağılma ihtimalinin olmadığını söylüyor.

İşte bunu yapmak için R kodu

load(url("http://www.openintro.org/stat/data/bdims.RData"))
fdims = subset(bdims, bdims$sex == 0)

qqnorm(fdims$wgt, col=adjustcolor("orange", 0.4), pch=19)
qqline(fdims$wgt)

qqnormsim = function(dat, dim=c(2,2)) {
  par(mfrow=dim)
  qqnorm(dat, col=adjustcolor("orange", 0.4), 
         pch=19, cex=0.7, main="Normal QQ Plot (Data)")
  qqline(dat)
  for (i in 1:(prod(dim) - 1)) {
    simnorm = rnorm(n=length(dat), mean=mean(dat), sd=sd(dat))
    qqnorm(simnorm, col=adjustcolor("orange", 0.4), 
           pch=19, cex=0.7,
           main="Normal QQ Plot (Sim)")
    qqline(simnorm)
  }
  par(mfrow=c(1, 1))
}
qqnormsim(fdims$wgt)

9

'H0:F=N-Örmbirl

Tipik olarak, dikkate testleri herhangi bir (örneğin, bakınız, doğru alternatif hipotez ile yapılan testlerde karşı karşılaştırıldığında alternatif hipotez gibi diğer dağılım, düşük güce sahip 1 ve 2 ).

Birkaç parametrik olmayan normallik testinin ('kuzey' http://cran.r-project.org/web/packages/nortest/index.html) uygulanmasıyla ilgili ilginç bir R paketi var . Yukarıdaki makalelerde belirtildiği gibi, uygun alternatif hipotez ile olabilirlik oran testi bu testlerden daha güçlüdür.

@Glen_b tarafından, örneğinizi (takılan) modelinizden rastgele örneklerle karşılaştırmakla ilgili olarak belirtilen fikrim ikinci referansımda belirtilmiştir. Onlar "QQ-Zarflar" veya "QQ-Fanlar" olarak adlandırılır. Bu, dolaylı olarak, bir veri hipotezinden ve dolayısıyla alternatif bir hipotezden veri üretecek bir modele sahip olmayı gerektirir.


4

nY


1
+1. Beş dakika @Franck'ınız varsa, şu konuya bir göz atabilir misiniz: stats.meta.stackexchange.com/questions/4743 ve orada tartılır mı? Sıralı / sıralı logit / probit için etiketlerimizle ilgili - bir sürü grup veya ilgili etiket var ve [ordinal] etiketinin kullanımında bazı tutarsızlıklar var. Onları düzenlemenin en iyi yolu hakkında görüşünüzü bilmek harika olurdu.
amip diyor Reinstate Monica,

1
Y
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.