Bir denemeye başlamadan önce örnek büyüklüğünü belirleme veya denemeyi süresiz olarak çalıştırma?


12

Yıllar önce istatistik okudum ve hepsini unuttum, bu yüzden bunlar belirli bir şeyden daha genel kavramsal sorular gibi görünebilir ama işte benim sorunum.

Bir e-ticaret web sitesinde UX Tasarımcısı olarak çalışıyorum. Yıllar önce inşa edilen ve bundan şüphe etmeye başladığım bir A / B test çerçevemiz var.

Tüm kararlarımızı verdiğimiz metrik dönüşüm olarak bilinir ve siteyi ziyaret eden, bir şey satın alan kullanıcıların yüzdesine dayanır.

Bu yüzden Satın Al düğmesinin rengini Yeşil'den Maviye değiştirmeyi test etmek istiyoruz.

Kontrol zaten sahip olduğumuz şeydir, ortalama dönüşüm oranımızın ne olduğunu bildiğimiz Yeşil düğme. Deney, Yeşil düğmeyi Mavi düğmeyle değiştiriyor.

% 95 öneminin, mutlu olduğumuz güven seviyesi olduğuna katılıyoruz ve denemeyi açıyoruz, çalışır durumda bırakıyoruz.

Kullanıcılar siteyi ziyaret ettiğinde, sahne arkasında 50/50 şansı vardır ve deneme sürümüne (mavi düğme) kontrol sürümüne gönderilirler (yeşil düğme).

7 gün sonra deneye baktıktan sonra 3000 örnek (1500 kontrole, 1500 deneye) ve% 99.2 istatistiksel anlamlılığa sahip deney lehine dönüşümde% 10.2'lik bir artış görüyorum. Mükemmel bence.

Deney devam ediyor, numune boyutu büyüyor ve daha sonra dönüşümde% 98.1'lik bir önem ile% + 9 artış görüyorum. Tamam, denemenin daha uzun süre çalışmasını sağlayın ve şimdi deney sadece% 92'lik istatistiksel bir öneme sahip dönüşümde sadece% 5'lik bir artış gösteriyor, çerçeve bana% 95 öneme ulaşmadan önce 4600 daha fazla örneğe ihtiyacım olduğunu söylüyor?

Deney hangi noktada kesin?

Örnek boyutu üzerinde önceden anlaştığınız ve denemeyi tamamladığınız bir klinik deneme süreci olduğunu düşünürsem, metriğin% 99'luk önemi olan% 10'luk bir iyileşme görüyorsanız, o ilacın piyasaya sürülmesine karar verilir. Ancak daha sonra deneyi 4000 kişi üzerinde yapmışlarsa ve metrikte% 5'lik bir iyileşme görüyorlarsa, bu ilacın pazara girmesine izin verilmeyecekti.

Önceden bir örneklem büyüklüğü üzerinde anlaşmalı mıyız ve bu örneklem büyüklüğüne ulaşıldığında durmalı ve deneyi kapatma noktasında önem% 99 ise sonuçlardan memnun kalmalı mıyız?


1
Sıralama ve seçime göre farklı bir yaklaşım kullanmayı düşünebilirsiniz .
pjs

Bu filme rastladım ( youtube.com/watch?v=fl9V0U2SGeI ). Sana soruyu tam olarak cevapladığı gibi geliyor.
Nathan

Ayrıca, altında yatan çalışmanın oldukça refleksif, hızlı hareket ettiğini ve sürekli tekrar testi gerektirdiğini belirtmek gerekir. Yeni siteler, standartlar ve stiller göründüğünde mizanpajlar, renkler, düğmeler vb. Ayrıca yüksek düzeyde birleştirici sorunlar (bu düğme, arka plan rengine hafif bir değişiklik yaparak farklı sonuçlar verebilir). Sonuç olarak, önem düzeylerinden bağımsız olarak, çok güçlü görünseler bile sonuçlarda çok yüksek bir 'gerçek' güven seviyesine (ve kesinlikle uzun süreler için değil) sahip olamazsınız.
Philip

Yanıtlar:


11

Bence aradığınız kavram sıralı analiz. Bu sitede yararlı bulabileceğiniz terim ile etiketlenmiş bir dizi soru var, belki de uyarlamalı ardışık analiz için p-değerini ayarlama (ki kare testi için)? başlamak için bir yer olurdu. Buradaki Wikipedia makalesine de başvurabilirsiniz . Bir başka yararlı arama terimi, her tekrarlanan görünümü alırken alfanızın bir kısmını (anlamlılık düzeyi) kullanması gerektiğini düşünen alfa harcamalarıdır. Birden fazla karşılaştırmayı hesaba katmadan verilerinize göz atmaya devam ederseniz, sorunuzda belirttiğiniz sorun türüyle karşılaşırsınız.


Teşekkürler, bu iyi okuma önerileri. Aksi halde ne aradığımı bile bilemezdim. Bunu tüketeceğim.
Tech 75

5

Deney hangi noktada kesin?

Bence düşünme hatası burası. Eğer “tümdengelimsel olarak nedenselliği kanıtlamak” anlamına gelirseniz, deneyin "kesin" olabileceği hiçbir nokta yoktur. İstatistiksel bir test içeren bir deney yaparken, hangi kanıtın yeterince iyi olduğunu düşündüğünüz konusunda bir taahhütte bulunmanız gerekir.

İstatistiksel olarak sağlam deneysel prosedürler, bilinen yanlış pozitif ve yanlış negatif oranları ile sonuç verir. Anlamlılık eşiği olarak 0,05 kullanan bir prosedür seçtiyseniz, aslında hiçbir farkın olmadığı vakaların% 5'inde bunu kabul etmek istediğinizi söylüyorsunuz, testiniz size bir fark olduğunu söyleyecektir.

Prosedürden tarif ettiğiniz şekilde saparsanız (vaktinden önce bir durma noktası seçmiyorsanız, hesaplanan p değeriniz 0,05'in altına düşene kadar testi çalıştırmanız veya pozitif bir sonuç elde edene kadar tüm deneyi birkaç kez çalıştırmanız yeterlidir. vb.), testinizin aslında hiçbir fark olmadığında size bir farkın var olduğunu söyleme olasılığını artırabilirsiniz. Bunu yapıyoruz daha olası etkili olmuştur yaptığınız değişikliği içine düşünmek aptal olacağını. Kandırılmana izin verme.

Bu makaleyi okuyun: Yanlış Pozitif Psikoloji Veri Toplama ve Analizinde Açıklanmayan Esneklik Her Şeyi Önemli Olarak Sunmaya İzin Verir

Açıkladığınız tam senaryo (bir denemeyi ne zaman durduracağınızı bilmemek) dahil olmak üzere, aldanmanızı daha olası hale getiren bir test prosedürüne uygunsuz bir şekilde müdahale etmenin çeşitli yollarını vurgular.

Diğer cevaplar, bu sorunlara karşı hafifletmek için bazı çözümler sunar (sıralı analiz, çoklu karşılaştırmalar için Bonferroni düzeltmesi). Ancak bu çözümler, süre tipik olarak deney gücünü azaltmak onlar ne zaman daha az olası farklılıkları tespit etmek için yapım yalancı pozitiflik oranı kontrol edebiliyoruz yapmak vardır.


Yaptığınız bir hata daha var. "Metrik ne olursa olsun% 99'luk önemde% 10'luk bir gelişme" hakkında konuşuyorsunuz. Önemlilik testleri sadece söyleyebilirim olsun senin numunede gözlenen fark nedeniyle gerçek altta yatan fark ya da sadece rastgele gürültü olması muhtemeldir; farkın gerçek büyüklüğünün ne olduğu konusunda size güven aralıkları vermezler.


3

Bence burada yanlış soru soruyorsun. Sorduğunuz soru istatistiksel testlerle ilgili; Bence doğru soru "etki neden zaman içinde değişiyor?"

Dönüşüm için 0/1 değişkeni ölçüyorsanız (hiç satın aldılar mı?) İlk oturumda satın almayan kişiler geri dönüp daha sonra satın alabilirler. Bu, dönüşüm oranının zamanla artacağı ve daha sonraki ziyaretlerin aksine bir müşterinin ilk ziyaretinde satın alma işleminin herhangi bir etkisinin kaybedileceği anlamına gelir.

Başka bir deyişle, ilk sağ olsun neyi hakkında daha sonra endişe ölçüyorsunuz nasıl size ölçüm.


3

Tam da bu yüzden yargılamalardan önce açık bir kriter tanımlanması gerekiyor. Mdewey'in belirttiği gibi, bir denemeyi periyodik olarak değerlendirmek için belirlenmiş yöntemler vardır, ancak bunların hepsi karar üzerinde herhangi bir fudingin önlenmesi için net bir durdurma kriteronu gerektirir. İki kritik konu, çoklu karşılaştırmalar için düzeltmeniz gerektiğinden ve her bir analizin bağımsız olmadığı, ancak sonucunun önceki analizlerinizin sonuçlarından büyük ölçüde etkilendiği yönündedir.

Alternatif olarak, ticari olarak ilgili argümanlara dayalı olarak belirlenmiş bir örneklem büyüklüğü tanımlamak en iyi uygulama olabilir.

İlk olarak şirket, dönüşüm oranındaki ticari olarak alakalı bir değişikliğin ne olduğu konusunda anlaşmalıdır (yani, değişikliğin kalıcı olarak dağıtılabilmesi için ticari bir dava açmayı garanti etmek için ne büyüklükte bir farkın olması gerektiği). Bunu kabul etmeden mantıklı bir kriter yoktur.

Ticari olarak alakalı minimum etki büyüklüğü belirlendikten sonra (bunun, test edilen adımın ne kadar kritik olduğuna bağlı olarak duruma göre değişebileceğini unutmayın), şirketin gerçek bir etkiyi kaçırmak için kabul etmeye istekli olduğu risk düzeyini kabul edersiniz ( beta) ve yanlış bir etki (alfa) kabul etmek için.

Bu numaraları örnek boyutu hesap makinesine ve voila'ya bağladıktan sonra, bir karar vermek için ayarladığınız örnek boyutuna sahip olursunuz.


DÜZENLE

Küçük örneklem büyüklüklerini kullanmak ve yeterince büyük etki göstermelerini ummak yanlış bir ekonomidir (amacınız akademik yayın için tartışmalı hipotez üretmek yerine eyleme dönüştürülebilir güvenilir sonuçlar olduğu için). Tarafsız örnekleme varsayıldığında, düşük numune boyutlarında, zıt uçlara doğru olan numunelerin rastgele seçilme olasılığı yüksek numune boyutlarından daha yüksektir. Bu, aslında bir fark olmadığında sıfır hipotezini reddetme olasılığının artmasına neden olur. Yani bu, gerçek bir etki yaratmayan veya biraz daha kötü bir etkiye sahip olmayan daha da kötüsü olan değişiklikleri zorlamak anlamına gelir. Bu, @Science'ın belirttiklerinde ne hakkında konuştuğunu açıklamanın farklı bir yoludur.

"Testinizin, aslında hiçbir fark olmadığında bir farkın var olduğunu söyleme olasılığını artırıyorsunuz"

İstatistiksel analizinizi ön belirtme noktası (tanımladığım şekilde sabit bir örneklem büyüklüğü veya çoklu değerlendirme stratejisi olsun), hem tip I hem de II hatalarının taleplerini uygun şekilde dengelemenizdir. Mevcut stratejiniz tip I hatalara odaklanıyor ve tip II'yi tamamen görmezden geliyor.

Diğer pek çok yanıtcının sonuçların hiçbir zaman kesin olmadığını belirttiği gibi, hem tip I hem de II hatalarını ve bunların işiniz üzerindeki etkisini düşündüyseniz, sonuçlara göre değişikliklerin uygulanıp uygulanmayacağına dair en fazla güveniniz olacaktır. Sonunda karar verme risk seviyenizle rahat olmakla ilgilidir ve 'gerçeklerinize' asla değişmez gibi davranmayın.

Çalışma tasarımınızın gördüğünüz sonuçları etkileyebilecek diğer yönleriyle ilgiliyim. İstediğiniz şey olmayan bazı ince faktörleri ortaya çıkarabilirler.

Örneklem için seçilenler tüm yeni ziyaretçiler, geri gelen ziyaretçiler mi yoksa farklılaşmamış mı? Yerleşik müşteriler yeni bir şeye gitme eğiliminde olabilirler (belirli bir renkte değişime karşı önyargılı), ancak yeni müşteriler için her şey yeni.

Tıklayan gerçek kişiler çalışmanın süresi içinde tekrarlanıyor mu?

İnsanlar çalışmanın zaman dilimi içinde birden çok kez ziyaret ederse, aynı sürümle sunuluyor mu yoksa rastgele dağıtılıyor mu?

Yinelenen ziyaretçi dahil edilirse, maruz kalma yorgunluğu tehlikesi vardır (artık yeni olmadığı için rahatsız edici değildir)


Bunun için teşekkürler. Önceden dönüşümde ticari olarak alakalı bir değişikliği kabul etme konusunda çok önemli bir noktaya değindiniz. Ancak e-Ticaret'te olduğu gibi, dönüşümdeki küçük değişiklikler satışları etkileyebilir, oldukça düşük bir değer olacaktır.
Tech 75

Küçük olması gereken minimum fark sorun değil, uygun şekilde güç vermenizi sağlayacaktır.
ReneBt

0

Yaygın uygulama genellikle ilk önce örnek büyüklüğüne karar vermenizi (hipotez testinizin istatistiksel gücünü kontrol etmek için) ve ardından deneyi gerçekleştirmenizi gerektirir.

Mevcut konumunuza yanıt olarak, bir dizi hipotez testini birleştirdikten sonra olduğu anlaşılıyor. Fisher'in yöntemine bakmanızı tavsiye ederim. Ayrıca, muhtemelen Brown veya Kost'un Fisher'in yöntemini bağımlı test istatistiklerine uydurma yöntemlerine bakmak isteyeceksiniz. Başka bir katılımcının da belirttiği gibi, müşterinin dönüşümü (veya dönüştürülmemesi), düğmenin ne renk olduğuna bakılmaksızın bir sonraki ziyarette satın alma (veya etmeme) yapmasını etkileyecektir.

afterthoughts:

  1. Fisher yöntemleri ve uzantıları hakkında daha fazla bilgi ve kaynak, Fisher yöntemi için Wikipedia makalesinde bulunabilir.
  2. Bir deneyin hiçbir zaman gerçekten kesin olmadığını belirtmenin önemli olduğunu düşünüyorum . Küçük bir p değeri, sonucunuzun kesin olduğunu göstermez - yalnızca sıfır hipotezinin elde ettiğiniz verilere dayanması olası değildir.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.