Genel olarak, CLT yaklaşımının iyi olması için her bir numunenin boyutu 5 fazla olmalıdır . Bir kural, 30 ya da daha büyük boyutlu bir örnektir . Ancak, ilk örneğinizin nüfusu ile 5 tamam.
pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")
İkinci örneğinizde, nüfus dağılımının şekli yüzünden (bir şey için, çok fazla çarpık; erkek ve Glen_b feryat tarafından yapılan yorumları okuyun ), 30 büyüklüğündeki örnekler bile dağılımı için size iyi bir yaklaşım vermeyecektir. CLT kullanarak örnek ortalama.
pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")
Ancak, bu ikinci popülasyonla, örneğin, 100 büyüklüğünün örnekleri iyi.
pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")