K Bernoulli denemelerinde başarılı oldu ya da George Lucas filminde


23

Şimdi "Drunkard's Walk" okuyorum ve bundan bir hikaye anlayamıyorum.

İşte gidiyor:

George Lucas'ın yeni bir Star Wars filmi çektiğini ve bir test pazarında çılgın bir deney yapmaya karar verdiğini hayal edin. Aynı filmi iki başlık altında yayınladı: "Star Wars: Bölüm A" ve "Star Wars: Bölüm B". Her filmin kendi pazarlama kampanyası ve dağıtım programı vardır; bunlara karşılık gelen ayrıntılarla aynıdır, ancak bir filmin fragmanları ve reklamları "Bölüm A" ve diğer bölüm "B Bölüm" için olanlarla aynıdır.

Şimdi bir yarışma yapacağız. Hangi film daha popüler olacak? Diyelim ki ilk 20.000 film izleyicisine bakıyoruz ve görmeyi seçtikleri filmi kaydediyoruz (her ikisine de gidecek ve sonra ikisi arasında ince ama anlamlı farklılıklar olduğu konusunda ısrarcı olan fanatik hayranları görmezden gelin). Filmler ve pazarlama kampanyaları aynı olduğundan, oyunu matematiksel olarak bu şekilde modelleyebiliriz: Tüm izleyicileri arka arkaya sıraya koyup sırayla her izleyiciye yazı tura atarak hayal edin. Madeni para toplanırsa, Bölüm A'yı görür; jeton toprakları kesilirse, bölüm B'dir, madalyonun her iki şekilde de eşit şansı olması nedeniyle, bu deneysel gişe savaşında her filmin yaklaşık yarısı önde olması gerektiğini düşünebilirsiniz.

Ancak rastgelelik matematiği başka türlü söyler: öncüdeki en muhtemel değişiklik sayısı 0'dır ve iki filmden birinin 20,000 müşterinin hepsinden daha fazla yol göstermesi muhtemeldir. "

Muhtemelen yanlış olarak, bunu açık bir Bernoulli davaları sorununa atfediyorum ve liderin neden ortalama tahterevalli bulmadığını göremediğimi söylemeliyim! Birisi açıklayabilir mi?

Yanıtlar:


22

İşte George Lucas deneyini simüle etmek için bazı R kodları:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

Çalıştırırken, şöyle resimler elde ediyoruz:

görüntü tanımını buraya girin

A ve B arasında satılan biletlerdeki farkın y ekseninde olduğu yer.

Ardından, bu tür benzetilmiş George Lucas deneylerini yaptık . Her bir deney için, harcanan zamanın 0 olduğunu , yani A'ya satılan bilet sayısının B'ye satılan bilet sayısına eşit veya daha büyük olduğu sıralı izleyicilerin oranını hesaplıyoruz . Sezgisel olarak, Bu oran kabaca olması gerektiğini söylemek 1 / 2 . İşte sonuçların bir histogramı:10,00001/2

görüntü tanımını buraya girin

Oranı olan beklenen değer anlamında ortalama 1 / 2 , fakat 1 / 2 yakın değerlere kıyasla beklenmedik bir değerdir , 0 ya da 1 . Çoğu deney için, farklılıklar çoğu zaman ya olumlu ya da olumsuzdur!1/21/21/201

Kırmızı eğri olarak da bilinen Ark dağıtım yoğunluğu fonksiyonu olan dağıtımBeta(1/2,1/2) . Ne Yukarıdaki resimde gösterildiği ilk olarak bilinen bir teoremi olan rastgele yürüyüşler için arscine hukuku basit simetrik rastgele yürüyüşün adım sayısı sonsuza yaklaştıkça, yukarıda harcanan sürenin oranına dağılımı söylüyor, eğilimi ark dağılımı. Bu sonuç için standart bir referans , olasılık teorisine giriş ve Bölüm III.4'tür, William Feller tarafından Vol 1 .0


Simülasyon çalışması için R kodu

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)

Teşekkürler! R'yi kurdum ve tüm adımlarınızı tekrarlamak istiyorum - 10.000 simülasyonu nasıl çalıştırabilirim ve harcanan zamanın oranını nasıl hesaplayabilirim?
andreister

@ vereister: Sonunda simülasyon için kod ekleyerek cevabımı düzenledim. Umarım yararlı bulursunuz!
MånsT

Teşekkürler, bu çok faydalı! Bunları anladığımdan emin olmak için, kodunuza dayanarak pastebin.com/mtRdsPkP yaptım - yine de vurabiliyor musunuz?
andreister

cumsumsumcumsumii

(devam) Bu, ilgilendiğimiz bilgilerdir, çünkü liderin tahterevalli olup olmadığını görmek istiyoruz. sumsadece tüm 1'leri ve -1'leri toplayacaktır, ki bu 20.000 izleyicinin tümü (örneğin cumsumvektörün son elemanı) dikkate alındıktan sonra nihai sonucu verecektir .
MånsT

11

1/2tt=13/4t=3t

11

20,000

Olasılıkların bazılarını hesaplamak istiyorsanız, köşegeni geçmeyen kafes yürüyüşlerine benzeyen bir şey saymanız gerekir. Yansıma prensibi veya yansıma yöntemi olarak adlandırılan böyle bir çizgiyi geçmeyen rastgele yürüyüşlere (ve Brownian hareketine) uygulanan mükemmel bir kombinasyon yöntemi vardır . Bu, Katalan sayılarını belirlemek için bir yöntemdir . İşte diğer iki uygulama:

A10,2009,800(20,0009,800)(10,200,9,800)BBB(9,799,10,201)(10,200,9,800)B(20,0009,800)(20,00010,201)=(20,0009,800)(20,0009,799)=(20,0009,800)40110,201.B(10,200,9,800),96%

A(20,00010,000)220,000/10,000π.A1100π150π1/89.56


Teşekkürler! Cevabınızı anlamadan önce gösterimi anlamam gerekiyor! "10,200−9,800’den önce sona erer" vb. Ne anlama geliyor? 20K modunu nasıl görüyorsunuz?
andreister

10,2009,80011,0009,00010,0019,999.20,00000p000

0

“İki filmden birinin 20,000 müşterinin hepsine öncülük etmesi, yani sürekli olarak tahterevalli olması 88 kat daha muhtemel”

Düz İngilizce olarak: filmlerden biri erken bir yol alır. İlk müşterinin A veya B'ye gitmesi gerektiğine göre, bu film daha sonra liderliğini kaybetme ihtimalini koruyor.

Mükemmel tahterevalli olmanın çok imkânsız olduğunu hatırlayana kadar 88 kez daha olası sesler. İçinde grafik MansT cevabı , bu grafiksel gösteren büyüleyici değil mi.

ASIDE: Şahsen ben 88 kezden fazla olacağını düşünüyorum - <buzzword-alert>viral pazarlama nedeniyle </buzzword-alert>. Her insan başkalarına ne gördüklerini soracak ve aynı filmi ziyaret etmeleri daha muhtemeldir. Bilinçaltında bile yapacaklar: insanların bir şeyi görmek için uzun bir kuyruğa girme olasılıkları daha yüksektir. Yani, ilk birkaç müşteri arasında rastlantısallık bir lider yarattığında, insan psikolojisi onu lider olarak tutacaktır :-).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.