Bir denemeyi yeniden çalıştırarak web a / b testlerini doğrulayın - bu geçerli mi?


11

Geçen gün bir a / b test şirketi tarafından hazırlanan bir web seminerinde yerleşik "Data Scientist" deneyi yeniden çalıştırarak sonuçlarınızı doğrulamanız gerektiğini açıkladı. Öncül,% 95 güven seçerseniz,% 5 (1/20) yanlış pozitif şansı vardır. Denemenizi aynı kısıtlamalarla yeniden çalıştırırsanız, şimdi 1/400 var (bunu 0.05 ^ 2 = 1/400 olarak belirlediklerini varsayıyorum)

Bu geçerli bir beyan mı? (yani "iki kez koş, iki istatistiksel anlamlılık kazanır = 1/400 yanlış pozitif olasılığı")? Anlamlılık düzeyinizi artırmak daha iyi bir yaklaşım olabilir mi?

Bir işletme açısından, denemeyi yeniden çalıştırmak, daha fazla kullanıcıyı daha düşük bir sayfaya (tedavi) maruz bırakmak ve böylece potansiyel satışları kaybetmektir.


2
Merhaba John, İstatistiklere hoş geldiniz. Yanıtlardan herhangi birinden memnunsanız, bunlardan birini kabul etmeli veya aradığınız şey hakkında daha açıklayıcı sorular sunmalısınız.
Christopher Aden

John, asıl sorunun bağlamla ilgili olduğundan şüpheleniyorum. İnsanların kaynakları her seferinde sadece bir şeyi öğrenmeye adamaları nadirdir: verilerinden en iyi şekilde yararlanmak isterler. Bu, her veri kümesinin birden çok test için kullanılacağı anlamına gelir. Dahası, bazen testler post hoc : verilerde görülen kalıplardan ilham aldılar. Bu gibi durumlarda testler aslında istenen% 95'e (ya da her neyse) güven duymaz ve çoğaltma esastır. Peki: "deney" ile tam olarak ne demek istiyorsun? Cevap o küçük ayrıntıya bağlı!
whuber

Deneme tekrarları ve önem değerleri hakkında bu XKCD çizgi romanını kontrol edin: xkcd.com/882 Bunu okuduktan sonra yukarıdaki whuber yorumunu kontrol edin.
Lucas Gallindo

whuber: ayrıntı eksikliği için üzgünüm, web sitesi optimizasyonuna atıfta bulunuyorum, bu yüzden örnek bir deney, ana sayfamın her birini 50/50 kullanıcı bölünmesi ile iki sürümünü denemek olacaktır.
John

Yanıtlar:


3

Şu an için yanlış pozitif olasılıklarını göz ardı ederek, şöyle bakardım:

  1. Denemeyi iki kez çalıştırırsanız ve aynı sonucu alırsanız, arka arkaya iki gerçek pozitif sonuç veya iki yanlış pozitif sonuç olup olmadığı hakkında hiçbir fikriniz yoktur.
  2. Deneyi iki kez çalıştırır ve iki farklı sonuç alırsanız, hangisinin gerçek pozitif hangisinin yanlış pozitif sonuç olduğunu bilmiyorsunuzdur.

Her iki durumda da, emin olmak için üçüncü bir deneme yapmalısınız. Bu, nispeten ucuz olan deneyler için iyi olabilir, ancak maliyetin potansiyel olarak yüksek olduğu durumlarda (müşterileri kaybetmek gibi) gerçekten faydayı düşünmeniz gerekir.

Olasılıklara baktığımızda, deneyi ilk kez çalıştırdığınızda, yanlış pozitifin 1/20 şansı vardır. Denemeyi ikinci kez çalıştırdığınızda hala yanlış pozitifin 1/20 şansı vardır (her bir rulonun belirli bir sayı elde etme şansının 1/6 olduğu bir kalıbı yuvarlayın). Arka arkaya iki yanlış pozitif olma şansı sadece 1/400.

Asıl mesele, katı prosedürler ile iyi tanımlanmış bir hipoteze sahip olmak ve yaşayabileceğiniz veya karşılayabileceğiniz örnek bir boyut, hata seviyesi ve güven aralığına sahip olmaktır. Deneyin tekrarı araştırmaya bırakılmalıdır

  1. zaman içinde müşteriler
  2. kuruluş tarafından yapılan değişiklikler
  3. yarışma tarafından yapılan değişiklikler

ikinci tahmin sonuçları yerine. Her ne kadar bunu yöneticilere açıklamak yapmaktan daha kolay.


mjc, yorum için çok teşekkürler - bu tam olarak aradığım şeydi.
John

2

Evet, denemenizin ideal olduğunu varsayarsak, bu ifade doğrudur. Ancak ideal bir deneyi elde etmek, bu düşüncenin güven duymasından çok daha zordur. "Gerçek dünya" verileri ilk etapta dağınık, karmaşık ve yorumlanması zordur. Kusurlu analiz, gizli değişkenler (çok nadiren "aynı kısıtlamalar" vardır) veya işini yapan bir veri bilimcisi ile kendi işini yapan bir markalama arasında yanlış iletişim için muazzam bir alan vardır.

İş açısından bakıldığında, iyi bir metodoloji sağlamak ve sonuçlara fazla güvenmemek; düşündüğünüzden daha zor bir görev. Bunları indirdikten sonra,% 5 üzerinde çalışın.


Teşekkürler, bu ilk soruyu cevaplıyor. İkinci soruya ne dersiniz: "Anlamlılık düzeyinizi artırmak daha iyi bir yaklaşım olabilir mi?" Sadece R'de hızlı bir simülasyon yaparak (aynı etki boyutunu ve gücünü koruyarak, sadece önem değerini değiştirerek)% 95 önemde 2X deneyleri yapmak yerine,% 97.5 önemini seçerek ~% 4.8 daha az veri toplayabilirim. Açıklığa kavuşturmalıyım - "Daha iyi olabilir miydi?" Diye sorduğumda, daha az veri toplayarak aynı sonucu elde edebilir miyim.
John
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.