A / B testi için numune boyutunu güvenle belirleme


22

A / B test aracı oluşturmak isteyen bir yazılım mühendisiyim . Sağlam bir istatistik geçmişim yok ama son birkaç gündür biraz okuma yapıyorum.

Burada açıklanan metodolojiyi takip ediyorum ve aşağıdaki ilgili noktaları özetleyeceğim.

Araç, tasarımcıların ve etki alanı uzmanlarının bir web sitesini belirli bir URL’de gelen trafiği iki veya daha fazla URL’ye bölecek şekilde yapılandırmalarına olanak tanır. Örneğin, http://example.com/hello1 adresine gelen trafik http://example.com/hello1 ve http://example.com/hello2 arasında bölünebilir . Trafik, hedef URL'ler arasında eşit olarak bölünür ve hedef URL'lerin her birindeki pazarlama işlemlerinin performansı karşılaştırılır.

Bu deneyde, örneklem büyüklüğü Nziyaretçilere karşılık gelecektir. Test, bir ziyaretçinin bir pazarlama sürecinde belirli bir işlemi gerçekleştirdiğini açıklayan bir terim olan "dönüşümleri" ölçer. Dönüşümler yüzde olarak ifade edilir ve daha yüksek bir dönüşüm oranı arzu edilir. Bu, testi bağımsız oranların karşılaştırması yapar. Aracın, güvenli sonuçları olan testler üretmek için kolayca kullanılabilmesi gerekir. Uygun bir değer seçmek Nönemlidir.

Bağlantılı makalede, yukarıdaki iki bağımsız oranlı bir güç analizi bulmak için kullanılmıştır N. Bu yöntem, kontrolün dönüşüm oranını önceden bilmek ve istenen istenen dönüşüm iyileştirmesini belirlemek ister. Aynı zamanda% 95 anlamlılık seviyesini ve% 80 istatistiksel gücü belirtir.

Sorular:

  1. Bu Nses belirleme yöntemi midir? Eğer öyleyse, teste başlamadan önce kontrolün dönüşüm oranını belirlemenin en güvenli yolu nedir?
  2. NBirinin kontrolün dönüşüm oranlarını önceden bilmesini gerektirmediğini belirlemenin sağlam yolları var mı?
  3. Bağlantılı makaledeki metodoloji sağlam mı? Olmazsa, beni bağlayabileceğiniz herhangi bir erişilebilir ve kolay sindirilebilir yöntem var mı?

Yanıtlar:


12

Bu tür bir test yapmanın en yaygın yöntemi binom oranı güven aralığıdır (bkz. Http://bit.ly/fa2K7B ).

İki yolun "gerçek" dönüşüm oranını hiçbir zaman bilemeyeceksiniz, ancak bu size "% 99 güven ile, A, B'den daha etkilidir" efektine bir şey söyleyebilme yeteneği verecektir.

Örneğin: A yolunda 1000 deneme çalıştırdığınızı varsayalım. Bu 1000 deneme arasında 121 başarılı dönüşüm (0.121 dönüşüm oranı) ve bu 0.121 sonuç etrafında% 99 güven aralığı istiyoruz. % 99 güven aralıkları için z-puanı 2.576'dır (bunu bir tabloya bakarsınız), bu nedenle aşağıdaki formüle göre: Yani% 99 güven ile diyebiliriz ki , nerede , A işleminin "gerçek" dönüşüm oranıdır. 0.094 s0.148 s

p^±2.576(0.121(10.121)1000)p^±0.027
0.094p^0.148p^

B süreci için benzer bir aralık kurarsak, aralıkları karşılaştırabiliriz. Eğer aralıklar üst üste binmiyorsa, birinin diğerinden daha iyi olduğunu% 98 güvenle söyleyebiliriz. (Unutmayın, her aralıktan yalnızca% 99 emin olduğumuzdan, karşılaştırmaya olan güvenimiz 0.99 * 0.99)

Eğer aralıklar üst üste binerse, o zaman daha fazla deneme yapmak zorundayız, ya da ayırt etmek için performans açısından çok benzer olduğuna karar vermemiz gerekiyor, bu da bize zorlu kısmı getiriyor - , deneme sayısını belirliyor . Diğer yöntemlere aşina değilim, ancak bu yöntemde, hem A hem de B'nin performansının doğru bir tahmininin olmadığı sürece önden belirleyemezsiniz . Aksi takdirde, aralıkları ayıracak şekilde örnekler elde edene kadar denemeler yapmanız gerekecek.NNN

Sana iyi şanslar. (Bu arada B süreci için kök salıyorum).


2
Siteye hoş geldiniz, @ronny. Burada yeni olduğunuz için SSS bölümümüzü okumak isteyebilirsiniz . Diğer şeylerin yanı sıra, bu site mathjax yoluyla LaTeX'i destekliyor. Gönderinizin okunmasını kolaylaştırmak için mj ekleme özgürlüğüne kavuştum; hala ne istediğini söylediğinden emin ol. EG, "p-hat" demek için "p-hat" aldım ( ), ancak "gerçek" olduğunu söylemiştim, p-hat genellikle verilerinizden tahmin edilen değeri belirtmek için kullanılır. bu yüzden cevabınızın ne söylemesini istediğinizi söylediğinden emin olmak istiyoruz. pLATEXp^
gung - Reinstate Monica

ronny, genel olarak haklısın (yalnızca bu prosedür için değil): güven aralığı ve bunun sonucu olarak numune boyutu gerekliliği A ve B için gerçek oranlara aşırı derecede duyarlıdır, @ gung adlı kullanıcının yorumuna göre daha kesin bir takip olarak: Eğer (ve dolayısıyla onun düzenleyin gung) kullanımı olduğunu gerçek oran her ikisi için (içinde ) ve nokta tahmin için gözleminden. Üst iki (gözlemden hesaplanan) yazmıştım , ancak alt iki şapka olmadan (gerçek oran için). 0.094 s0,148suc, essesp^0.094p^0.148s ssucessestrialsp^p
cbeleites, Monica

Bu cevap yanlış. Spesifik olarak: "Aralıklar üst üste binmezse, o zaman% 98 güven ile birinin diğerinden daha iyi olduğunu söyleyebiliriz" yanlıştır. Üst üste binmeyen iki% 99 güven aralığı göz önüne alındığında, farkın LEAST% 99'da olduğu gibi 0'ı dışladığı güven. Aralıklar aynı boyuttaysa, fark% 99.97 düzeyinde önemlidir. stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf
Bscan

@Bscan Yorumunuz diğer değerler için geçerli mi? Örnegin (emrinize göre), aynı büyüklükte birbiriyle örtüşmeyen iki% 30 güven aralığımız varsa, araçların farkının en az% 30 olduğunu söylemek doğru mudur?
Felipe Almeida

1
@Felipe, evet, yorum tüm değerler için geçerlidir ve çakışmayan% 30 güven aralığı, farkın 0 hariç tutulduğu farkın en az% 30 olduğu güvencesini ifade eder. Ancak bu, araçlarda% 30'luk bir fark olduğu anlamına gelmez. Gerçek araçlar çok benzer olabilir; biz sadece onların tamamen aynı olmadığını kanıtlamaya çalışıyoruz.
Bscan

8

IMHO, olduğu sürece, direk doğru yöne gidiyor. Ancak:

  • Önerilen yöntem dolaylı olarak iki varsayımda bulunur: temel dönüşüm oranı ve beklenen değişiklik miktarı. Örneklem büyüklüğü, bu varsayımları ne kadar iyi karşıladığınıza bağlıdır. Gerçekçi olduğunu düşündüğünüz çeşitli p1 ve p2 kombinasyonları için gerekli örneklem büyüklüklerini hesaplamanızı öneririm. Bu size örneklem büyüklüğü hesaplamasının gerçekte ne kadar güvenilir olduğu hakkında bir fikir verecektir.

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    Öyleyse, gerçek dönüşüm oranı% 10 yerine% 9 ise, her bir senaryo için yeni formun taban çizgisinden daha büyük dönüşüm oranını% 10 tespit etmek için başka bir 2000 duruma ihtiyaç duyarsınız.

Test yapıldıktan sonra, gerçek gözlemlerinize dayanarak oranlar için güven aralıkları hesaplayabilirsiniz.

  • 3'ün altındaki son sonuç (çoklu senaryoların test edilmesi hakkında) pek doğru değil. Birden fazla teste ayarlamak için (örn. Çoklu = 2), her yeni senaryo için sadece başka bir testi eklemek yeterli değildir : Eğer B veya C orijinal A sürümünden daha iyi değilse ve iki test A. B ve B ./. C senaryoların her biri için vakası ile önerildiği gibi yapılır , sonra A'dan uzak bir şekilde yanlış değiştirme olasılığı (1 - α) ² ≈% 10'dur (α: tip I hatasının kabul edilebilirliği ; yukarıda). Başka bir deyişle, başlangıçta belirtildiği gibi neredeyse iki kat daha büyüktür. Bu yaklaşımla ilgili ikinci sorun şudur: B'yi karşılaştırmadan gerçekten yapabilir misiniz. C? Hem B hem de C'yi A'dan daha iyi bulursanız ne yapacaksınız?nn
    nsig.level

Merhaba, bu yöntemleri eleştirmeye zaman ayırdığınız için çok teşekkürler. Hesaplamada (1 - α) ² ≈% 10, "α" ne anlama gelir? Test verilerinin alınması uzun sürdüğü için, üç oranın test edilmesi isteniyorsa, birinin bu deneyi nasıl yapması gerektiğini önerirsiniz? Birden fazla test yapmayı gerektirmeyen güvenli bir yol var mı? Üç alternatifle, üç test korkunç derecede zor olmaz, ancak dört alternatifle kombinasyon sayısı altıya kadar çıkar.
jkndrkn

1
@jkndrkn: α orijinal formdan, aka α-error veya tip I error'den uzaklaşma ihtimalinin yanlış olması. Güncellenmiş cevaba bakınız.
cbeleites, Monica

1
@jkndrkn: Çoklu testler: Fleiss ve diğerlerine bakarım: Bu tür testlerin prosedürleri ile ilgili Oranlar ve Oranlar için İstatistiksel Yöntemler . Bununla birlikte, bu tür çoklu testler için kilit nokta, her zaman testin tanımlanmasından önce alternatiflerin sayısını azaltmak için uzman bilgisini kullanmaktır, çünkü gerekli örnek boyutları alternatiflerin sayısıyla (zaten fark ettiğiniz gibi) patlar.
cbeleites,

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.