Normal olarak dağıtılmayan A / B test sonuçlarının bağımsız t testi kullanılarak analiz edilmesi


14

Normal dağılım uymayan bir A / B testi (bir kontrol grubu, bir özellik grubu) sonuçları bir dizi var. Aslında dağıtım Landau Dağıtımına daha çok benzemektedir.

Bağımsız t-testinin örneklerin en azından yaklaşık olarak normal olarak dağıtılmasını gerektirdiğine inanıyorum.

Ama sorum şu: t-testinin anlamlılık testi için iyi bir yöntem olmadığını hangi noktada söyleyebiliriz?

Ya da başka bir deyişle, sadece veri seti göz önüne alındığında, bir t-testinin p-değerlerinin ne kadar güvenilir olduğu nasıl değerlendirilebilir?

Yanıtlar:


8

Verilerinizin dağıtımının normal olması gerekmez, neredeyse normal olması gereken Örnekleme Dağıtımıdır . Örnek büyüklüğünüz yeterince büyükse, Merkezi Limit Teoremi nedeniyle Landau Dağıtımından ortalama örnekleme dağılımı neredeyse normal olmalıdır .

Bu, verilerinizle birlikte t-testini güvenle kullanabileceğiniz anlamına gelir.

Misal

Bu örneği düşünelim: mu = 0 ve sd = 0.5 ile Lognormal dağılımı olan bir popülasyonumuz olduğunu varsayalım (Landau'ya biraz benziyor)

lognormal yoğunluk

Bu yüzden her seferinde bu dağılımdan 5000 kez numunenin ortalamasını hesaplayarak 30 gözlem örnekliyoruz

Ve elde ettiğimiz budur

örnekleme dağılımı

Oldukça normal görünüyor, değil mi? Örnek boyutunu arttırırsak, daha da belirgindir

örnekleme dağılımı

R kodu

x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')


n = 30
m = 1000

set.seed(0)
samp = rep(NA, m)

for (i in 1:m) {
  samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}

hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))


n = 300
samp = rep(NA, m)

for (i in 1:m) {
  samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}

hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))

Merhaba Alexei! Görünüşe göre R konusunda yetkinsiniz, bu yüzden şu anda sıkıştığım sorun hakkında herhangi bir öneriniz varsa merak ediyorum: stackoverflow.com/questions/25101444/… . Bunun ötesinde, sizinle ortak iletişim kurmaktan memnuniyet duyarım (profesyonel sosyal ağlardaki profillerim için aleksandrblekh.com'a bakın), çünkü bazı ortak ilgi alanlarımız olduğu gibi (ana dil dahil :-)).
Aleksandr Blekh

Bu harika bir açıklama ve aslında kullandığım yöntem. Bu yöntemi tüm örnek kümesini daha küçük alt örneklere bölmek ve her alt örneğin ortalamalarını (CLT ile ortalama) veri kümesinin dağıtımı olarak kullanmak olarak düşünmek istiyorum. Cevap için teşekkürler!
teebszet

1

Temel olarak, bağımsız bir t-testi veya 2 numune t-testi, iki örneğin ortalamalarının önemli ölçüde farklı olup olmadığını kontrol etmek için kullanılır. Veya başka bir deyişle, iki örneğin ortalaması arasında önemli bir fark varsa.

Şimdi, bu 2 örneğin ortalaması, CLT'ye göre yeterli örnek sağlandığında normal dağılıma sahip iki istatistiktir. Ortalama istatistiğin yapıldığı dağılım ne olursa olsun CLT'nin işe yaradığını unutmayın.

Normalde bir z-testi kullanılabilir, ancak örnekten sapmalar tahmin edilirse (bilinmediği için), t dağılımına dahil edilen bazı ek belirsizlikler ortaya çıkar. Bu yüzden burada 2 örnekli t testi uygulanır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.