Veri setimin 1'den 1690'a kadar 46840 çift değer içeren bir bölümünü iki grupta inceliyorum. Bu gruplar arasındaki farkları analiz edebilmek için doğru testi seçmek amacıyla değerlerin dağılımını inceleyerek başladım.
Normallik testi için bir kılavuzun ardından qqplot, histogram ve boxplot yaptım.
Bu normal bir dağılım gibi görünmüyor. Kılavuz, tamamen grafiksel bir incelemenin yeterli olmadığını biraz doğru ifade ettiğinden, dağılımı normallik açısından test etmek istiyorum.
Veri kümesinin boyutu ve R'deki shapiro-wilks testinin sınırlandırılması göz önüne alındığında, verilen dağılım normallik açısından nasıl test edilmeli ve veri kümesinin boyutu göz önüne alındığında, bu bile güvenilir mi? ( Bu soruya kabul edilen cevaba bakınız )
Düzenle:
Bahsettiğim Shapiro-Wilk testinin sınırlaması, test edilecek veri kümesinin 5000 nokta ile sınırlı olmasıdır. Bu konuyla ilgili başka bir iyi cevabı belirtmek için :
Shapiro-Wilk'un testinde ek bir sorun, daha fazla veri beslediğinizde, sıfır hipotezinin reddedilme şansının artmasıdır. Dolayısıyla, büyük miktarda veri için normallikten çok küçük sapmalar bile tespit edilebilir, bu da pratik amaçlar için boş hipotez olayının reddedilmesine neden olur, veriler yeterince normaldir.
[...] Neyse ki shapiro.test, veri boyutunu 5000 ile sınırlayarak kullanıcıyı yukarıda açıklanan etkiden korur.
Neden ilk etapta normal dağılım için test yapıyorum:
Bazı hipotez testleri verilerin normal dağılımını varsayar. Bu testleri kullanıp kullanamayacağımı bilmek istiyorum.