A) Verilerin normalliği ihlal ettiği derecenin en iyi tek endeksi nedir?
B) Yoksa birden fazla normallik ihlali endeksinden bahsetmek daha mı iyi (ör. Çarpıklık, basıklık, aykırı yaygınlık)?
B'ye oy verirdim. Farklı ihlallerin farklı sonuçları var. Örneğin, ağır kuyruklu unimodal, simetrik dağılımlar, CI'larınızı çok geniş hale getirir ve muhtemelen herhangi bir etki tespit etme gücünü azaltır. Bununla birlikte, ortalama hala "tipik" değere ulaşır. Çok çarpık dağılımlar için, örneğin ortalama, "tipik değer" in çok anlamlı bir indeksi olmayabilir.
C) Endeks için güven aralıkları nasıl hesaplanabilir (veya belki de Bayesci bir yaklaşım)?
Bayesian istatistiklerini bilmiyorum, ancak klasik normallik testi ile ilgili olarak, Erceg-Hurn ve ark. (2008) [2]:
Başka bir sorun, varsayım testlerinin kendi varsayımlarına sahip olmasıdır. Normallik testleri genellikle verilerin homoscedastik olduğunu varsayar; homoscedasticity testleri verilerin normal olarak dağıtıldığını varsayar. Normallik ve homoscedasticity varsayımları ihlal edilirse, varsayım testlerinin geçerliliği ciddi şekilde tehlikeye düşebilir. Önde gelen istatistikçiler, SPSS gibi bir yazılımda bulunan varsayım testlerini (örneğin Levene testi, Kolmogorov-Smirnov testi) ölümcül kusurlu olarak tanımladılar ve bu testlerin asla kullanılmamasını önerdiler (D'Agostino, 1986; Glass & Hopkins, 1996).
D) Normallerin ihlal derecesini (örneğin, hafif, orta, güçlü, aşırı, vb.) Belirtmek için bu dizindeki noktalara ne tür sözlü etiketler atayabilirsiniz?
Micceri (1989) [1] psikolojide 440 büyük ölçekli veri setinin bir analizini yapmıştır. Simetriyi ve kuyruk ağırlığını değerlendirdi ve kriterleri ve etiketleri tanımladı. Asimetri için etiketler 'nispeten simetrik' ila 'orta -> aşırı -> üstel asimetri' arasında değişir. Kuyruk ağırlığı etiketleri 'Uniform -> Gaussian'dan daha az -> Gaussian Hakkında -> Orta -> Aşırı -> Çift üstel kontaminasyon' aralığındadır. Her sınıflandırma, birden çok sağlam kritere dayanır.
Bu 440 veri setinden sadece% 28'inin nispeten simetrik olduğunu ve sadece% 15'inin kuyruk ağırlıklarıyla ilgili Gauss hakkında olduğunu buldu. Bu nedenle makalenin güzel başlığı:
Tek boynuzlu at, normal eğri ve diğer olası yaratıklar
R
Micceri'nin kriterlerini otomatik olarak değerlendiren ve aynı zamanda etiketleri basan bir işlev yazdım :
# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
library(fBasics)
QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))
n <- length(x)
x.s <- sort(x)
U05 <- mean(x.s[(.95*n ):n])
L05 <- mean(x.s[1:(.05*n)])
U20 <- mean(x.s[(.80*n):n])
L20 <- mean(x.s[1:(.20*n)])
U50 <- mean(x.s[(.50*n):n])
L50 <- mean(x.s[1:(.50*n)])
M25 <- mean(x.s[(.375*n):(.625*n)])
Q <- (U05 - L05)/(U50 - L50)
Q1 <- (U20 - L20)/(U50 - L50)
Q2 <- (U05 - M25)/(M25 - L05)
# mean/median interval
QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))
SKEW <- skewness(x)
if (plot==TRUE) plot(density(x))
tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)
cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
1.8, 2.3, 2.5, 2.8, 3.3,
1.6, 1.85, 1.93, 2, 2.3,
1.9, 2.5, 2.65, 2.73, 3.3,
1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)
cat.sym <- matrix(c(0.31, 0.71, 2,
0.05, 0.18, 0.37,
1.25, 1.75, 4.70), ncol=3, nrow=3)
ts <- c()
for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}
ss <- c()
for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}
tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")
slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")
cat("Tail weight indexes:\n")
print(tail_weight)
cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
cat("\n\nAsymmetry indexes:\n")
print(symmetry)
cat(paste("\nMicceri category:", slabels[max(ss)]))
tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
sym.cat <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)
invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}
Standart normal dağılım, 8 df'li bir ve log-normal için bir test :t
> micceri(rnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
2.86 2.42 1.88 2.59 1.76
Micceri category: About Gaussian
Asymmetry indexes:
Skewness MM.75% Q2
0.01 0.00 1.00
Micceri category: Relatively symmetric
> micceri(rt(10000, 8))
Tail weight indexes:
97.5% 95% 90% Q Q1
3.19 2.57 1.94 2.81 1.79
Micceri category: Extreme contamination
Asymmetry indexes:
Skewness MM.75% Q2
-0.03 0.00 0.98
Micceri category: Relatively symmetric
> micceri(rlnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
6.24 4.30 2.67 3.72 1.93
Micceri category: Double exponential contamination
Asymmetry indexes:
Skewness MM.75% Q2
5.28 0.59 8.37
Micceri category: Exponential asymmetry
[1] Micceri, T. (1989). Tek boynuzlu at, normal eğri ve diğer olası yaratıklar. Psikolojik Bülten, 105 , 156-166. DOI: 10,1037 / 0033-2909.105.1.156
[2] Erceg-Hurn, DM ve Mirosevich, VM (2008). Modern sağlam istatistiksel yöntemler: Araştırmanızın doğruluğunu ve gücünü en üst düzeye çıkarmanın kolay bir yolu. Amerikalı Psikolog, 63 , 591-601.