Büyük veri kümesinin normallik açısından test edilmesi

Veri setimin 1'den 1690'a kadar 46840 çift değer içeren bir bölümünü iki grupta inceliyorum. Bu gruplar arasındaki farkları analiz edebilmek için doğru testi seçmek amacıyla değerlerin dağılımını inceleyerek başladım.

Normallik testi için bir kılavuzun ardından qqplot, histogram ve boxplot yaptım.

resim açıklamasını buraya girin

Bu normal bir dağılım gibi görünmüyor. Kılavuz, tamamen grafiksel bir incelemenin yeterli olmadığını biraz doğru ifade ettiğinden, dağılımı normallik açısından test etmek istiyorum.

Veri kümesinin boyutu ve R'deki shapiro-wilks testinin sınırlandırılması göz önüne alındığında, verilen dağılım normallik açısından nasıl test edilmeli ve veri kümesinin boyutu göz önüne alındığında, bu bile güvenilir mi? ( Bu soruya kabul edilen cevaba bakınız )

Düzenle:

Bahsettiğim Shapiro-Wilk testinin sınırlaması, test edilecek veri kümesinin 5000 nokta ile sınırlı olmasıdır. Bu konuyla ilgili başka bir iyi cevabı belirtmek için :

Shapiro-Wilk'un testinde ek bir sorun, daha fazla veri beslediğinizde, sıfır hipotezinin reddedilme şansının artmasıdır. Dolayısıyla, büyük miktarda veri için normallikten çok küçük sapmalar bile tespit edilebilir, bu da pratik amaçlar için boş hipotez olayının reddedilmesine neden olur, veriler yeterince normaldir.

[...] Neyse ki shapiro.test, veri boyutunu 5000 ile sınırlayarak kullanıcıyı yukarıda açıklanan etkiden korur.

Neden ilk etapta normal dağılım için test yapıyorum:

Bazı hipotez testleri verilerin normal dağılımını varsayar. Bu testleri kullanıp kullanamayacağımı bilmek istiyorum.

r normal-distribution normality-assumption large-data

— deemel
kaynak

Nokta testi yoktur; herhangi bir kullanımın her testinde, makul bir önem seviyesi açıkça reddedilecektir. Okuduğunuz her rehber sizi yanlış yönlendirdi. Tam olarak 'güvenilir' ile ne demek istiyorsun. Shapiro-Wilk'ın hangi 'sınırlamasına' atıfta bulunuyorsunuz? Bağlantı verdiğiniz cevaptaki ifadeye neredeyse katılıyorum ... "Asla normal bir testin yapılması gereken doğru bir durumla karşılaşmadım" (en azından bir kez bunun doğru şey, ama insanlar neredeyse her zaman kötü nedenlerle yaparlar).

— Glen_b

@Glen_b: tesadüfen, kendimi geçen gün Shapiro – Wilk'u kullanarak Academia üzerindeki birisinin yanlışlıkla bir sınıf örneğinden daha büyük olduğunu varsaydığı null'a karşı kanıtları ölçmek için buldum . Acaba bunun savunulabilir bir kullanım olup olmadığını merak ediyorum.

— Nick Stauner

@NickStauner yanıtım tek bir yorum için çok uzun büyüdü ve bu soruyu orada yazınızla ilgili bir dizi yorumla kaçırmak istemiyorum. Olasılıklar: Sohbette konuşuyoruz veya bunun hakkında bir soru gönderiyorsunuz (kapsamlı bir cevap gönderebileceğim) veya e-posta gibi başka bir şekilde tartışıyoruz.

— Glen_b

Neden rahatsız olduğunu anlamıyorum. Açıkçası normal değil - bu durumda grafik inceleme benim için yeterli görünüyor. Güzel, temiz bir gama dağılımı gibi görünen şeylerden çok sayıda gözleminiz var. Sadece bununla git. Eğer kolmogorov-smirnov bunu gerekirse - ben bir referans dağıtım tavsiye edeceğim.

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
resim açıklamasını buraya girin

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

Her zaman söylediğim gibi, "Bkz. Normallik testi 'esasen işe yaramaz mı? ", Özellikle farklı analizlerin farklı normallik varsayım ihlallerine karşı farklı hassasiyetlere sahip olduğuna işaret eden @ MånsT'nin cevabı . Dağılımınız göründüğü kadar yakınsa, muhtemelen çarpık ve basıklık ("aşırı basıklık" ) var. Bu, birçok test için bir problem olmakla yükümlüdür. Daha uygun parametrik varsayımlara sahip bir test bulamazsanız veya hiç bir şey bulamazsanız, verilerinizi dönüştürebilir veya en azından aklınızdaki her türlü analiz için bir duyarlılık analizi yapabilirsiniz. $\approx1.4$ $\approx5.9$ $\approx2.9$

— Nick Stauner
kaynak

Büyük veri kümesinin normallik açısından test edilmesi - nasıl ve güvenilirdir?