Basit bir A / B testi ile uğraşırken belirli bir test yaklaşımı seçerek nedenleri anlamaya çalışıyorum - (yani, ikili bir cevap alanlı (dönüştürülmüş veya değil) iki varyasyon / grup) Örnek olarak aşağıdaki verileri kullanacağım.
Version Visits Conversions
A 2069 188
B 1826 220
Üst cevap burada büyük ve z, t ve ki kare testleri için temel varsayımlardan bazılarını anlatıyor. Ancak kafa karıştırıcı bulduğum şey, farklı çevrimiçi kaynakların farklı yaklaşımlardan bahsedeceği ve temel bir A / B testi varsayımlarının hemen hemen aynı olacağını mı düşünüyorsunuz?
- Örneğin, bu makale z-score kullanmaktadır :
- Bu makale aşağıdaki formülü kullanır (zscore hesaplamasından farklı olup olmadığından emin değilim?):
- Bu makale t testine atıfta bulunmaktadır (p 152):
Öyleyse, bu farklı yaklaşımlar lehine hangi tartışmalar yapılabilir? Neden bir tercih olsun ki?
Bir aday daha atmak için, yukarıdaki tablo Fisher'in kesin testinin (p5) kullanılabildiği 2x2 acil durum tablosu olarak yeniden yazılabilir.
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Ancak bu dişe göre, balıkçının kesin testi yalnızca daha küçük örneklem boyutlarında kullanılmalıdır (kesik nedir?)
Ve sonra eşli t ve z testleri, f testi (ve lojistik regresyon var, ama bunu şimdilik dışarıda bırakmak istiyorum) .... Farklı test yaklaşımlarında boğuluyormuş gibi hissediyorum ve sadece yapabilmek istiyorum bu basit A / B test durumundaki farklı yöntemler için bir tür argüman yapın.
Örnek verileri kullanarak aşağıdaki p değerlerini alıyorum
https://vwo.com/ab-split-test-significance-calculator/, 0.001'lik bir p değeri verir (z-puanı)
http://www.evanmiller.org/ab-testing/chi-squared.html (ki kare testi kullanılarak) 0.00259'luk bir p değeri verir.
Ve R'de
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
0.002785305 p değeri verir.
Sanırım hepsi oldukça yakın ...
Her neyse - sadece örneklemlerin genellikle binler olduğu çevrimiçi testlerde hangi yaklaşımların kullanılacağı ve yanıt oranlarının genellikle% 10 ya da daha az olduğu bazı sağlıklı tartışmalar umuyoruz. Bağırsaklarım bana chi-kare kullanmamı söylüyor, ama neden bunu yapmanın diğer yollarını seçtiğimi tam olarak cevaplayabilmek istiyorum.