NYTimes'de istatistiksel yöntemin kötüye kullanılması hakkında makale


20

Bu makaleye atıfta bulunuyorum: http://www.nytimes.com/2011/01/11/science/11esp.html

Aşağıdaki deneyi düşünün. Bir madalyonun kafalara doğru hafif ağırlıklı olduğuna inanmak için bir neden olduğunu varsayalım. Bir testte, madeni para 1000 üzerinden 527 kez geliyor.

Bu madalyonun ağırlıklı olduğuna dair önemli bir kanıt mı?

Klasik analiz evet diyor. Adil bir madeni para ile, 1.000 döndürmede 527 veya daha fazla kafa elde etme şansı, geleneksel kesimde 20'den 1 veya yüzde 5'ten azdır. Başka bir deyişle, deney “yüzde 95 güvenle” ağırlıklı bir madalyonun kanıtını bulur.

Yine de birçok istatistikçi bunu satın almıyor. 20'de bir, 1.000 atışta 526'nın üzerinde herhangi bir sayıda kafa alma olasılığıdır. Yani, 527'yi çevirme olasılığının, 528, 529'u çevirme olasılığının toplamıdır.

Ancak deney bu aralıktaki tüm sayıları bulamadı; Bu sadece bir - 527 bulundu. Bu uzmanlar, daha doğru olduğunu söylüyor, bu uzmanlar, bu bir sayı elde etme olasılığını hesaplamak için - 527 - madeni para ağırlıklı ise ve madeni para ise aynı sayıyı alma olasılığı ile karşılaştırmak fuar.

Bir psikolog Jeff Rouder ile örnek veren bir istatistikçi olan Paul Speckman'a göre, istatistikçiler bu oranın 4'ten 1'e kadar yüksek olamayacağını gösterebilir.

İlk soru: Bu benim için yeni. Kesin hesaplamayı bulabileceğim bir referans var mı ve / veya bana kendiniz tam hesaplamayı vererek bana yardımcı olabilir misiniz ve / veya beni benzer örnekleri bulabileceğim bir materyale yönlendirebilir misiniz?

Bayes, yeni kanıtlar geldikçe hipotez olasılığını güncellemenin bir yolunu buldu.

Bu nedenle, belirli bir bulgunun gücünü değerlendirirken Bayesian (belirgin BAYZ-ee-un) analizi, eğer mümkünse, çalışmanın dışından bilinen olasılıkları içerir.

Buna “evet, doğru” etkisi denebilir. Bir çalışma kumkuatların kalp hastalığı riskini yüzde 90 oranında azalttığını, bir tedavinin bir hafta içinde alkol bağımlılığını iyileştirdiğini, hassas ebeveynlerin bir kızı bir erkek çocuğu doğurma olasılığının iki katı olduğunu tespit ederse, Bayes yanıtı doğal kuşkucu: Evet, doğru. Çalışma bulguları, dünyada gözlemlenebilir olanlarla karşılaştırılmıştır.

En az bir tıp alanında - teşhis tarama testleri - araştırmacılar zaten yeni bulguları değerlendirmek için bilinen olasılıkları kullanmaktadır. Örneğin, yeni bir yalan tespit testi yüzde 90 doğru olabilir ve 10 yalancının 9'unu doğru şekilde işaretleyebilir. Ancak, 10 yalancı içerdiği bilinen 100 kişilik bir nüfusa verilirse, test çok daha az etkileyicidir.

10 yalancının 9'unu doğru bir şekilde tanımlar ve birini yalanlar; ancak diğer 90 kişiden 9'unu yalan söyler. Gerçek pozitifler (9) olarak adlandırılan testin işaretlediği (18) toplam kişi sayısına bölünmesi yüzde 50 doğruluk oranı verir. “Yanlış pozitifler” ve “yanlış negatifler” popülasyondaki bilinen oranlara bağlıdır.

İkinci soru: Yeni bir bulgunun bu yöntemle "gerçek" olup olmadığını tam olarak nasıl değerlendiriyorsunuz? Ve: Önceden belirlenmiş bazı olasılıkların kullanılması nedeniyle bu% 5'lik bir engel kadar keyfi değil mi?


3
Adil ve haksız paralar için bu yararlı bir okuma: stat.columbia.edu/~gelman/research/published/diceRev2.pdf
mpiktas

Yanıtlar:


31

İlk soruyu ayrıntılı olarak cevaplayacağım.

Adil bir madeni para ile, 1.000 döndürmede 527 veya daha fazla kafa elde etme şansı, geleneksel kesimde 20'den 1 veya yüzde 5'ten azdır.

Adil bir madeni para için 1000 denemedeki kafa sayısı, deneme sayısı ve 1/2 olasılığı ile binom dağılımını takip eder . O zaman 527'den fazla kafa alma olasılığıs = 1 / 2n=1000p=1/2

P(B(1000,1/2)> =527)

Bu herhangi bir istatistiksel yazılım paketi ile hesaplanabilir. R bize

> pbinom(526,1000,1/2,lower.tail=FALSE)
   0.04684365

Dolayısıyla, adil madeni para ile 526'dan fazla kafa alma olasılığımız yaklaşık 0.047'dir, bu da makalede belirtilen% 5'e yakındır.

Aşağıdaki ifade

Başka bir deyişle, deney “yüzde 95 güvenle” ağırlıklı bir madalyonun kanıtını bulur.

tartışmalıdır. Bunu söylemekte isteksiz olurum, çünkü% 95 güven çeşitli şekillerde yorumlanabilir.

Sonra dönüyoruz

Ancak deney bu aralıktaki tüm sayıları bulamadı; Bu sadece bir - 527 bulundu. Bu uzmanlar, daha doğru olduğunu söylüyor, bu uzmanlar, bu bir sayı elde etme olasılığını hesaplamak için - 527 - madeni para ağırlıklı ise ve madeni para ise aynı sayıyı alma olasılığı ile karşılaştırmak fuar.

B(1000,1/2)=527B(1000,p)=527

P(B(1000,p)=527)P(B(1000,1/2)=527)=p527(1-p)473(1/2)1000.

p

Bir psikolog Jeff Rouder ile örnek veren bir istatistikçi olan Paul Speckman'a göre, istatistikçiler bu oranın 4'ten 1'e kadar yüksek olamayacağını gösterebilir.

p

p=5271000.

Örneğin, ikinci türev testini kullanarak bunun gerçekten maksimum olduğunu kontrol edebiliriz . Aldığımız formüle ikame etmek

(527/1000)527(473/1000)473(1/2)10004.3

Yani oran 4.3'e 1'dir, bu da makaleyi kabul eder.


"Şimdi p'ye göre bu miktarı en üst düzeye çıkarın": Ben en aza indirmek demek düşünüyorum.
Simon Byrne

@mpiktas (+1) Güzel (güncellenmiş) cevap.
chl

Bence bu örnek size tam olarak bir güven aralığının ne olduğunu gösteriyor. Bir CI'yi, güven seviyesine eşit bir olasılık parametresine sahip bir Bernouli dağıtılmış rastgele değişkenin ONE gözlemi olarak yorumlamanın en kolay yolunu buluyorum. Sadece deneyi tekrar tekrar yapıyorsanız CI'leri kullanmak benim için mantıklı. Başka bir konu, alternatif hipotezin ne olduğudur? p = 7/10, p> 0.5, p = 1050/2000 mi? p = / 1000 527? Başka bir konu p = ile ne demek istiyoruz1212p(12±ε)ε

@Simon, düzeltmeyi neden en aza indirgiyor? Bulunan P değeri bu oranı en üst düzeye çıkarmıyor mu?

@statnovice: Yanıtın orijinal sürümünde pay ve payda değiştirildi.
Simon Byrne
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.