A / B testleri: z-testi vs t-testi vs chi square vs fisher kesin testi


38

Basit bir A / B testi ile uğraşırken belirli bir test yaklaşımı seçerek nedenleri anlamaya çalışıyorum - (yani, ikili bir cevap alanlı (dönüştürülmüş veya değil) iki varyasyon / grup) Örnek olarak aşağıdaki verileri kullanacağım.

Version  Visits  Conversions
A        2069     188
B        1826     220

Üst cevap burada büyük ve z, t ve ki kare testleri için temel varsayımlardan bazılarını anlatıyor. Ancak kafa karıştırıcı bulduğum şey, farklı çevrimiçi kaynakların farklı yaklaşımlardan bahsedeceği ve temel bir A / B testi varsayımlarının hemen hemen aynı olacağını mı düşünüyorsunuz?

  1. Örneğin, bu makale z-score kullanmaktadır :görüntü tanımını buraya girin
  2. Bu makale aşağıdaki formülü kullanır (zscore hesaplamasından farklı olup olmadığından emin değilim?):

görüntü tanımını buraya girin

  1. Bu makale t testine atıfta bulunmaktadır (p 152):

görüntü tanımını buraya girin

Öyleyse, bu farklı yaklaşımlar lehine hangi tartışmalar yapılabilir? Neden bir tercih olsun ki?

Bir aday daha atmak için, yukarıdaki tablo Fisher'in kesin testinin (p5) kullanılabildiği 2x2 acil durum tablosu olarak yeniden yazılabilir.

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

Ancak bu dişe göre, balıkçının kesin testi yalnızca daha küçük örneklem boyutlarında kullanılmalıdır (kesik nedir?)

Ve sonra eşli t ve z testleri, f testi (ve lojistik regresyon var, ama bunu şimdilik dışarıda bırakmak istiyorum) .... Farklı test yaklaşımlarında boğuluyormuş gibi hissediyorum ve sadece yapabilmek istiyorum bu basit A ​​/ B test durumundaki farklı yöntemler için bir tür argüman yapın.

Örnek verileri kullanarak aşağıdaki p değerlerini alıyorum

  1. https://vwo.com/ab-split-test-significance-calculator/, 0.001'lik bir p değeri verir (z-puanı)

  2. http://www.evanmiller.org/ab-testing/chi-squared.html (ki kare testi kullanılarak) 0.00259'luk bir p değeri verir.

  3. Ve R'de fisher.test(rbind(c(1881,188),c(1606,220)))$p.value0.002785305 p değeri verir.

Sanırım hepsi oldukça yakın ...

Her neyse - sadece örneklemlerin genellikle binler olduğu çevrimiçi testlerde hangi yaklaşımların kullanılacağı ve yanıt oranlarının genellikle% 10 ya da daha az olduğu bazı sağlıklı tartışmalar umuyoruz. Bağırsaklarım bana chi-kare kullanmamı söylüyor, ama neden bunu yapmanın diğer yollarını seçtiğimi tam olarak cevaplayabilmek istiyorum.


zt

Bu gösteriyi oldukça faydalı buldum. Bu, oranlar için z testinin esas olarak 2x2 beklenmedik durum tablosundaki ki-kare homojenlik testine eşdeğer olduğunu göstermektedir. rinterested.github.io/statistics/chi_square_same_as_z_test.html
yueyanw

Yanıtlar:


24

Bu testleri farklı nedenlerle ve farklı koşullar altında kullanıyoruz.

  1. zzzz

  2. ttttz

zt

  1. ztz

  2. ppp

Örnek boyutlarını tartışmaya devam ediyorum - farklı referanslar, numunelerinizin yeterince büyük olduğu durumlarda size farklı ölçümler verecektir. Sadece saygın bir kaynak bulur, kurallarına bakar ve istediğiniz testi bulmak için kurallarını uygulardım. "Etrafında alışveriş yapmam", tabiri caizse, "sevdiğiniz" bir kural bulana kadar.

zt

Bu mantıklı mı? Bu yardımcı olur umarım!


Detaylı cevap için teşekkürler! Ayrıntılı olarak geçeceğim - Eminim ki birkaç sorum olacak!
L Xandor

Ki-kare ve Fisher kesin testinin etkinin yönünü nasıl göstermediğini daha fazla açıklayabilir misiniz? Tüm çıkarımsal istatistik testleri, iki örneklem kümesinin farklı popülasyonlardan mı yoksa aynı popülasyondan mı çekileceği konusunda bir güven düzeyi sağlarsa, o zaman ortalama değerlerdeki yönsel farkın tutacağını söylemenize izin vermeyecek olan matematiksel teori hakkında ne var (B grubu daha yüksek puanı var)?
Chris F,

Netlik için ki-kare testi ve Fisher'in kesin testi aynı şeyi yapıyor ancak p-değeri biraz farklı şekilde hesaplanıyor. (Ki-kare altında bir yaklaşım ve Fisher'ın kesin altında bir hesaplama.) Ki-kare'yi ele alacağım ve Fisher'a genelleştirilecektir. Buradaki mesele öncüldür. "Tüm çıkarımsal istatistik testleri, iki numunenin alınıp alınmadığı konusunda bir güven düzeyi sağlarsa ..." - ki kare testi bu değildir. Ki-kare testi için boş hipotez, bir ilişkilendirme ve alternatif hipotez olmamasıdır ...
Matt Brems,

... iki kategorik değişken arasında bir ilişki olduğu. Siz sadece bir derneğin varlığını deniyorsunuz ve belli bir yönü önceden belirtmiyorsunuz. (DO'nun belirli bir ilişkiyi belirttiği daha az bilinen istatistikler vardır, bu yüzden mümkündür; ancak ki-kare testinin yapması için tasarlanan bu değildir.) Ardından, buna dayalı olarak belirli bir yönlü ilişki olduğu sonucuna varmak. Sadece bir derneğin varlığını test etmek için tasarlanan farklı bir hipotez kümesi altında hesaplanan bir p değeri bir hata olur.
Matt,

H0:μ=0HA:μ0tpμμH0:μ0HA:μ>0pα=0.05μ

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.