QQ grafiği normal görünüyor ancak Shapiro-Wilk testi aksini söylüyor


12

R'de 348 önlemlik bir örneğim var ve normalde gelecekteki testler için dağıtıldığını varsayabilir miyim bilmek istiyorum.

Temelde başka bir Stack cevabını takip ederek, yoğunluk grafiğine ve QQ grafiğine bakıyorum:

plot(density(Clinical$cancer_age))

resim açıklamasını buraya girin

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

resim açıklamasını buraya girin

İstatistikler konusunda güçlü bir deneyimim yok, ancak gördüğüm normal dağılım örneklerine benziyorlar.

Sonra Shapiro-Wilk testini yapıyorum:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

Doğru bir şekilde yorumlarsam, sıfır hipotezini reddetmenin güvenli olduğunu söyler, yani dağılım normaldir.

Ancak, bu testin yararlılığını güçlü bir şekilde zayıflatan iki Stack yazısıyla ( burada ve burada ) karşılaştım . Örnek büyükse (348 büyük kabul edilir mi?) Görünüşe göre, dağılım normal değildir.

Tüm bunları nasıl yorumlamalıyım? QQ grafiğine bağlı kalmalı ve dağıtımımın normal olduğunu mu varsaymalıyım?


4
Qq grafiği kuyruklarda normalden ayrıldığını gösteriyor. Ayrıca, uygunluk iyiliği testi, çok büyük örneklerde, normalde tespit edilen normallikten küçük ayrılmalar olacağı için reddedilecektir.
Michael R.Chernick

4
Normal bir dağılımın sizin için neden önemi var? Bu varsayımı temel alarak ne yapmayı düşünüyorsunuz?
Roland

6
Sadece Roland'ın yorumlarına eklemek için - normal bir dağılımın resmi olarak varsayıldığı birçok test aslında normalden hafif sapmalar altında oldukça sağlamdır (örneğin test istatistiği dağılımı asemptolojik olarak doğrudur). Ne yapmak istediğiniz hakkında ayrıntılı bilgi verebilirseniz, daha faydalı yanıtlar alabilirsiniz.
P.Windridge

1
@mdewey, keskin gözlem! İnsidans yaşı değil, tümörün DNA yaşı ile ölçülen "yaşı" dır.
francoiskroll

2
Sadece ölçüm hataları olup olmadığını kontrol etmek için az sayıda aşırı gözlemi incelemeye değer olacağını düşünüyorum.
mdewey

Yanıtlar:


11

Burada bir problemin yok. Verileriniz biraz normal değil, ancak herhangi bir sorun yaratmaması için yeterince normal. Birçok araştırmacı, sahip olduğunuzdan çok daha az normal veri ile normalliği varsayarak istatistiksel testler yapar .

Gözlerine güvenirdim. Yoğunluk ve QQ grafikleri, kuyruklarda biraz olumlu eğime rağmen makul görünüyor. Kanımca, bu veriler için normal olmama konusunda endişelenmenize gerek yok.

Yaklaşık 350 N'ye sahipsiniz ve p değerleri örnek boyutlarına çok bağımlı. Büyük bir örnekle, hemen hemen her şey önemli olabilir. Bu burada tartışıldı.

Bu çok popüler görevde temel olarak normallik için sıfır hipotez anlamlılık testi yapmanın "esasen yararsız" olduğu sonucuna varılan bazı inanılmaz cevaplar var . Bu yazıdaki kabul edilen cevap, neredeyse Gaussian bir süreçten veri üretildiğinde bile , yeterince yüksek bir örneklem büyüklüğünün normal olmayan testi önemli kıldığı muhteşem bir gösteri .


Üzgünüz, orijinal sorunuzda bahsettiğiniz bir gönderiyle bağlantı kurduğumu fark ettim. Yine de sonucum hala geçerli: Verileriniz sorun yaratması için normal değil.


Bazı araştırmacılar çok özensiz olduğu için biraz özensiz olabileceğiniz anlamına gelmez :). Bununla birlikte, normal olarak resmi olarak kabul edilen birçok istatistiksel testin aslında ne beslediğinize oldukça toleranslı olduğuna
katılıyorum

2
"Bazı araştırmacılar çok özensiz olduğu için biraz özensiz olabileceğiniz anlamına gelmez :)" Adil nokta; bu benim açımdan kötü bir tartışma idi. "Bununla birlikte, resmi olarak normalliği kabul eden birçok istatistiksel testin, onları beslediğinize oldukça toleranslı olduğunu kabul ediyorum." Evet kesinlikle. Sahip olduğum herhangi bir miktar profesör QQ parsellerine böyle baktı ve "Evet, sorun değil." Dedi.
Mark White

4

Dağıtımınız normal değil . Kuyruklara (veya eksikliklerine) bakın. Aşağıda normal bir QQ grafiğinden bekleyebileceğiniz şeyler bulunmaktadır.

resim açıklamasını buraya girin

Çeşitli QQ grafiklerinin nasıl yorumlanacağı ile ilgili bu gönderiye bakın .

Bir dağılım teknik olarak normal olmayabilirken , normalite gerektiren algoritmalara hak kazanmaya yetecek kadar normal olabileceğini unutmayın .


1
Ne diyorsun, ben 9 normal qq grafikleri form örnekleri koştu (1: 9 içinde i) {x < - rnorm (350) qqnorm (x) qqline (x)} ve çizim (3,2) OP'nin durumuna çok benzemektedir.
Josh

1
Tipik olarak, kuyruklara odaklanmak istemezsiniz çünkü çok kötü kuyruklar size kötü sonuçlar verecektir. Gerçekten ortaya odaklanmak istiyorsunuz.
Josh

yanılıyorsun Josh. lütfen normalliğin geçersiz hipotezinin reddedilip reddedilmediğini kontrol etmek için normal bir teste itiraz edin.
giderme

1
Haklısın. Başlangıçta yazınızı okudum çünkü qq grafikleri yeterince normal değildi ve özür dilerim.
Josh

2
@Josh, dağılımın ortası hipotez testleri için pek önemli değil; önemli olan kuyruklar. Geriye doğru var.
gung - Monica'yı eski durumuna getirin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.