P-değerlerinin faydalı olduğu konusunda ikna edici iyi bir örnek nedir?


64

Başlıktaki sorum kendiliğinden açıklayıcı, ancak ona bir bağlam vermek istiyorum.

ASA, bu haftanın başlarında “ p-değerleri üzerine: bağlam, süreç ve amaç ”, p-değerine ilişkin çeşitli yanlış anlaşılmaların altını çizen ve bunu bağlam ve düşünce olmadan kullanmamaya dikkat çağıran bir açıklama yaptı. Herhangi bir istatistiksel yöntem, gerçekten).

ASA’ya cevaben, profesör Matloff başlıklı bir blog yazısı yazdı: 150 yıl sonra, ASA p değerlerine hayır diyor . Sonra Profesör Benjamini (ve ben) başlıklı bir cevap yazdı. Bu, P-değerlerinin hatası değil - son ASA ifadesine yansımaları . Buna cevaben profesör Matloff bir takip yazısı istedi :

Görmek istediğim şey [... 'dir) - p-değerlerinin faydalı olduğu iyi, ikna edici bir örnek. Bu gerçekten sonuç olmalı.

İçin yaptığı alıntı kullanışlılığı karşı iki büyük argümanları -değeri:p

  1. Büyük örneklemlerle anlamlılık testleri, sıfır hipotezinden küçük, önemsiz ayrılmalar üzerine sıçrama yapar.

  2. Neredeyse hiçbir boş hipotez gerçek dünyada doğru değildir, bu yüzden onlar için bir önemlilik testi yapmak saçma ve tuhaftır.

Diğer çapraz değerli topluluk üyelerinin bu soru / argümanlar ve buna iyi bir cevap oluşturabilecek şeyleri düşündükleriyle çok ilgileniyorum.



2
Tim teşekkürler. Benim sorumun, kendi başlığını hak edecek kadar farklı olduğundan şüpheleniyorum (özellikle de bahsettiğiniz ikisinde yanıtlanmadığından). Yine de, bağlantılar çok ilginç!
Tal Galili

3
Hak ediyor ve ilginç (+1 benim), sadece FYI linkleri verdim :)
Tim

3
Söylemeliyim ki, Matloff'un konuyla ilgili ne yazdığını okumamıştım, ama yine de, sorunuzun kendi başına durması için, neden herhangi bir standart p değeri kullanımı örneği bulamadığını kısaca özetleyebilir misiniz? / ikna "iyi? Örneğin, birisi belirli bir deneysel manipülasyonun hayvan davranışını belirli bir yönde değiştirip değiştirmediğini incelemek ister; Böylece deneysel ve kontrol grupları ölçülür ve karşılaştırılır. Böyle bir makalenin okuyucusu olarak, p-değerini gördüğüm için mutluyum (yani, onlar benim için faydalıdır), çünkü eğer büyükse o zaman dikkat etmem gerekmez. Bu örnek yeterli değil mi?
amip diyor Reinstate Monica

1
@amoeba - o burada onları listeler: matloff.wordpress.com/2016/03/07/… ----- Argümanlarını alıntı: 1) büyük örneklerle, önem hipotezinden önemsiz, önemsiz ayrılmalar üzerine yapılan önem testleri. 2) Gerçek dünyada neredeyse hiçbir boş hipotez gerçek değildir, bu yüzden onlar üzerinde bir önemlilik testi yapmak saçma ve tuhaftır. ----- Bunları kendi başıma üstleneceğim (daha sonra resmileştirmek istiyorum), ancak başkalarının da buna cevap verebilecek içgörülü yollara sahip olacağına eminim.
Tal Galili

Yanıtlar:


44

Her iki Matloff'un puanlarını da göz önünde bulunduracağım:

  1. Büyük örneklemlerle anlamlılık testleri, sıfır hipotezinden küçük, önemsiz ayrılmalar üzerine sıçrama yapar.

    Buradaki mantık şudur ki eğer biri yüksek derecede önemli bildirirse , o zaman sadece bu sayıdan, etkinin büyük ve önemli ya da ilgisizce küçük olup olmadığını söyleyemeyiz (büyük ). Bu argüman tuhaf bulup ben çünkü, hiç buna bağlanamaz hiçbir zaman bir rapor verecek bir çalışma görülen etki boyutu [bazı eşdeğer] bildirmeden değerini gösterir. I would örn okumak Çalışmalar grup A böyle ortalama böyle, B grubu filanca ortalama vardı ve onlar filanca ile önemli ölçüde farklı olduğunu vardı ki (ve bir rakam üzerinde göstermek genellikle) -değeri. A ile B arasındaki farkın büyük ya da küçük olması durumunda kendimi yargılayabilirim.p=0.0001npp

    (Yorumlarda, @RobinEkman, Ziliak ve McCloskey ( 1996 , 2004 ) tarafından yapılan çok sayıda atıfta bulunduğum çalışmalara işaret etti; onun "pratik önemi" (Z&MS'nin iddia ettiği gibi, genellikle küçük olabilir). Bu açıkça kötü bir uygulamadır. Ancak, @MatteoS aşağıda açıklandığı gibi, etki büyüklükleri (regresyon tahminleri) her zaman rapor edilmiştir, bu yüzden benim argüman durur.)

  2. Neredeyse hiçbir boş hipotez gerçek dünyada doğru değildir, bu yüzden onlar için bir önemlilik testi yapmak saçma ve tuhaftır.

    Bu endişe de sık sık dile getirilir, ancak burada yine buna gerçekten bağlanamıyorum. Araştırmacıların sonsuzluğunu artırmadıklarının farkına varmak önemlidir . Tanıdığım sinirbilim dalında, insanlar ya da belki , örneğin fareler ile deneyler yapacaklar . Görülecek bir etki yoksa sonuç, etkinin ilginç olacak kadar büyük olmadığı sonucuna varır. Ben ıslahının, eğitim, kayıt üzerinde gider bilirsin kimse ve ödün orada olduğunu göstermek için sıçanları olan bazı istatistiksel olarak anlamlı ama küçük etkisi. O oysa Ve belki doğru neredeyse hiç gerçek etkileri tam olarak sıfır, o olduğunu olduğunun n=20n=50n=5000 kesinlikle, birçok gerçek etkinin, makul araştırmacıların gerçekten kullandıkları makul örneklem büyüklükleri ile tespit edilebilecek kadar küçük olduğuna, onların iyi yargılarını kullandığına doğru.

    (Örnek büyüklüklerinin genellikle yeterince büyük olmadığına ve birçok çalışmanın yetersiz olduğuna dair geçerli bir endişe vardır. Bu nedenle, belki de birçok alandaki araştırmacılar yerine yerine hedef almalıdır . Yine de örnek büyüklüğü ne olursa olsun , çalışmanın tespit etme gücüne sahip olduğu etki büyüklüğüne bir sınır koyar.)n=100n=20

    Ayrıca, en azından deneysel randomize çalışmalarda (gözlemsel olanların aksine) hiçbir boş hipotezin doğru olmadığı konusunda hemfikir olduğumu sanmıyorum. İki sebep:

    • Sıklıkla, test edilen tahminde bir yönlülük vardır; Araştırmacı, bazı etkilerin pozitif olduğunu göstermeyi amaçlamaktadır . Geleneksel olarak, bu genellikle bir nokta varsayarak iki taraflı bir testle yapılır, ancak aslında bu reddetmeye çalışan tek taraflı bir testtir . (@ CliffAB cevabı, 1,. İlgili bir nokta yapar) Ve bu olabilir kesinlikle doğru.δ>0H0:δ=0H0:δ<0

    • "Nil" noktasından bile boş , neden asla doğru olmadıklarını anlamıyorum. Bazı şeyler nedensel olarak diğer şeylerle ilişkili değildir. Son yıllarda tekrarlanamayan psikoloji çalışmalarına bakın: geleceği hisseden insanlar; yumurtlarken kırmızı giysili kadınlar; yürüme hızını etkileyen yaşlılıkla ilgili kelimelerin kullanılması; Buradaki nedensel bağların olmaması ve gerçek etkilerin tamamen sıfır olması çok iyi olabilir .H0:δ=0

Kendisi, Norm Matloff , -değerleri yerine güven aralıklarını kullanmayı önerir , çünkü etki büyüklüğünü gösterirler. Güven aralıkları iyidir, ancak değerine kıyasla güven aralığının bir dezavantajı olduğuna dikkat edin : güven aralığı belirli bir kapama değeri için, örneğin olarak bildirilir . güven aralığı görmek bana güven aralığının ne kadar geniş olacağını söylemez. Ancak tek bir değeri herhangi bir ile karşılaştırılabilir ve farklı okuyucular farklı alfalara sahip olabilir.pp95%95%99%pα

Başka bir deyişle, güven aralıklarını kullanmaktan hoşlanan biri için, bir değerinin raporlamak için yararlı ve anlamlı bir ek istatistik olduğunu düşünüyorum.p


-değerlerinin pratik faydaları hakkında en sevdiğim blog yazarı Scott Alexander'dan uzun bir alıntı yapmak istiyorum; istatistikçi değildir (psikiyatristtir), ancak psikolojik / tıbbi literatürü okumak ve buradaki istatistikleri incelemek konusunda çok fazla tecrübesi vardır. Alıntı, tavsiye ettiğim sahte çikolata çalışması hakkındaki blog yazısından . Vurgu madeni.p

[...] Ama -değerleri yapmamıza izin verilmediğini varsayalım . Tek yaptığım, "Evet, on beş kişiyle çikolatanın insülin direncine yardım ettiği bir çalışma vardı" demiştim ve yüzüme gülüyorsunuz. Etki büyüklüğünün buna yardımcı olması gerekiyor. Ama diyelim ki "Çikolatanın insülin direncine yardımcı olan onbeş kişiyle yaptığı bir çalışma vardı. Etki büyüklüğü . Bunun rastgele gürültü ile tutarlı olup olmadığına dair hiçbir sezgim yok. Yapıyor musun? Tamam, o zaman güven aralıklarını bildirmemiz gerektiğini söylediler. Etki büyüklüğü , güven aralığıp0.60.695%[0.2,1.0]. Tamam. Bu yüzden güven aralığının alt sınırını kontrol ediyorum, sıfırdan farklı olduğunu görüyorum. Ama şimdi değerini aşmıyorum. Ben sadece p-değerini kullanarak kendim için bir tür kaba hesaplamalar yapıyorum - “ güven aralığı sıfır içermez” ile aynı “ değeri az ” ile aynıdır .p95%p0.05

( güven aralığının sıfır içermediğini bilmeme rağmen, güven aralığının olup olmadığını merak etmeye başladığımı düşünün . Sadece bana bu bilgiyi verecek bazı istatistikler olsaydı!)95%99%

Ama değerlerinden kurtulmak “ hack” yapmaz mı? Belki, ama sadece “d-hack” e yol açacaktı. Yirmi farklı metabolik parametreyi test edebileceğinizi ve sadece en yüksek etki büyüklüğüne sahip olanı rapor edebileceğinizi düşünmüyor musunuz? Yirmi testler yapmak ve bir rapor halinde - tek fark p-hack tamamen şeffaf olacağını ait , sana bir salak olduğunu biliyorum - ama D-hack gizemli olurdu. Yirmi test yaparsanız ve bunlardan birinin aldığını bildirirseniz, bu etkileyici midir? [...]ppp0.05d=0.6

Ama geçiş olmaz -değerlerinin boyutları yine istatistiksel olarak anlamlı olan minik etkileri konusunda büyük bir anlaşma yapma engellemek etkilemek için? Evet, ama bazen istatistiksel olarak anlamlı olan küçük etkilerle ilgili çok şey yapmak istiyoruz! Coca-Cola'nın yeni bir ürün katkı maddesini test ettiğini ve büyük epidemiyolojik çalışmalarda yılda yüz bin kişi için ekstra bir ölüme neden olduğunu tespit ettiğini varsayalım. Bu yaklaşık olarak sıfır bir etki büyüklüğüdür, ancak yine de istatistiksel olarak anlamlı olabilir. Ve dünya çapında yaklaşık bir milyar insan her yıl kola içtiğinden, bu on bin ölüm. Kola “Hayır, etki büyüklüğü çok küçük, düşünmeye değmez” demiş olsaydı, neredeyse iki milli-Hitlers'ı öldürürdü.p


değerlerine ilişkin çeşitli alternatifler hakkında daha fazla tartışma için (Bayesian olanlar dahil), bkz. ASA'daki cevabım değerlerinin sınırlarını tartışıyor - alternatifler neler?pp


1
İkinci argümana verdiğiniz cevap bence özlüyor. Hiç kimse, gerçek araştırmacıların, örnek boyutlarını ve sonsuzluğunu artırmadığını önermiyor. (Gördüğüm gibi), bir araştırmacının test etmekle ilgileneceği "effect = 0" şeklindeki herhangi bir boş hipotezin yanlış olacağı ve boş hipotez zaten varsa, bir hipotez testi gerçekleştirmede çok az değere sahip olduğu anlamına gelir. yanlış olduğu biliniyor. Elbette bu, gerçekten ilgilendiğimiz şeyin, örneklerin özelliklerinden ziyade ilgili popülasyon parametreleri (parametreleri) olduğunu varsayar.
mark999

1
Ancak itiraf ediyorum ki “boş bir hipotez… yanlış olacak” sadece bir varsayımdır.
mark999

1
Buradaki mantığımın gayrı resmi olduğunu itiraf etmeliyim ve asla resmileştirmeye çalışmadım. Belki de bu tartışmayı işe yaratabilmek için ilginç ve ilginç olmayan etki büyüklükleri arasında açık bir sınır olduğunu söylememeliyim. Aksine, ilginçliğin sıfırdan daha da uzağa yükseldiği bir sürekliliktir ve "makul" örneklem büyüklüğü çok ilginç olmayan etki boyutlarına küçük güç ve çok ilginç olanlara büyük güç vermelidir, ancak tek eşik yoktur. Bunu Neyman-Pearson hatları boyunca doğru bir şekilde resmileştirebilir mi merak ediyorum.
amip diyor Reinstate Monica

6
Belki sen "bir rapor verecek bir çalışma görmemiştim etki boyutu [bazı eşdeğer] bildirmeden-değeri", ama Ziliak ve McCloskey 300 tür kağıtlar sadece bir dergide yayınlanan bulundu, American Economic Review, sadece yirmi yıl boyunca . Bu tür makaleler, baktıkları makalelerin % 70'inden fazlasını oluşturuyordu. p
Robin Ekman

3
@amoeba:% 70 iddiasının kaynağı, 2006 özetinde belirsiz ifadeler olabilir: “1980'lerde [AER] 'de yayınlanan 182 tam uzunlukta makalenin% 70'i ekonomik durumu istatistiksel olarak ayırmadı”. Bununla kastettikleri - her iki makalede de açıklandığı gibi - sık sık yalnızca sonuncunun yorumlandığı ve bağımlı değişkene bağlı olarak regresyon katsayısının büyüklüğünün (jargonundaki “ekonomik önem”) kapsamlı bir şekilde analiz edilmediği anlamına gelir. . Ancak her zaman rapor edilir. Ben cevabınızı güncellemenizi değiştirmenizi tavsiye ederim :-)
MatteoS

29

Aşağıdaki iki fikirde büyük suç alıyorum:

  1. Büyük örneklemlerle anlamlılık testleri, sıfır hipotezinden küçük, önemsiz ayrılmalar üzerine sıçrama yapar.

  2. Neredeyse hiçbir boş hipotez gerçek dünyada doğru değildir, bu yüzden onlar için bir önemlilik testi yapmak saçma ve tuhaftır.

P-değerleri hakkında çok tartışmalı bir tartışma. İstatistiklerin gelişimini motive eden en temel sorun, bir eğilim görmek ve gördüklerimizin tesadüfen mi yoksa sistematik bir eğilimin temsilcisi olup olmadığını bilmek istemekten kaynaklanmaktadır.

Bunu göz önünde bulundurarak, istatistikçiler olarak, tipik olarak boş bir hipotezin doğru olduğuna inanmadığımız doğrudur (yani , burada iki grup arasındaki bazı ölçümlerde ortalama farktır). Ancak, iki taraflı testlerle, hangi alternatif hipotezin doğru olduğunu bilmiyoruz! İki taraflı bir testte, verileri görmeden önce % 100 emin olduğumuzu söylemeye istekli olabiliriz . Ancak veya olup olmadığını bilmiyoruz . Dolayısıyla, ve olduğu sonucuna , (Matloff'un söyleyebileceği gibi; gereksiz sonuç) reddetmiş oluruz ama daha da önemlisi, biz de reddettik.Ho:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0 (diyorum ki; faydalı sonuç). @ Amoeba'nın işaret ettiği gibi, bu aynı zamanda, bir ilacın olumlu bir etkisinin olup olmadığının test edilmesi gibi iki taraflı olma potansiyeline sahip tek taraflı bir test için de geçerlidir.

Bunun size etkinin büyüklüğünü söylemediği doğru. Fakat size etkinin yönünü anlatıyor. Öyleyse arabayı attan önce koymayalım; etkinin büyüklüğü ile ilgili sonuçlar çıkarmaya başlamadan önce, etkinin yönünü doğru yaptığımdan emin olmak istiyorum!

Benzer şekilde, "p-değerlerinin minik, önemsiz etkiler üzerinde durduğu" argümanı bana oldukça kusurlu görünüyor. Verilerin sonucunuzun yönünü ne kadar desteklediğinin bir ölçüsü olarak bir p-değeri düşünürseniz, tabii ki, örneklem büyüklüğü yeterince büyük olduğunda küçük etkileri almasını istersiniz. Bunun faydalı olmadığını söylemek benim için çok garip: p-değerlerinden muzdarip olan bu araştırma alanları, o kadar çok veriye sahip olanların tahminlerinin güvenilirliğini değerlendirmek zorunda kalmayacakları aynı mı? Benzer şekilde, eğer sorunlarınız gerçekten "küçük etki büyüklüklerinde " p değerleri ise, o zaman basitçe ve hipotezlerini test edebilirsiniz.H 2 : μ d < - 1H1:μd>1H2:μd<1(1'in asgari önemli etki büyüklüğü olduğuna inanıyorum). Bu genellikle klinik çalışmalarda yapılır.

Bunu daha fazla açıklamak için, güven aralıklarına ve atılan p değerlerine baktığımızı varsayalım. Güven aralığında kontrol edeceğiniz ilk şey nedir? Sonuçları çok ciddiye almadan önce etkinin kesinlikle olumlu (veya olumsuz) olup olmadığı. Dolayısıyla, p-değerleri olmasa bile, gayrı resmi olarak hipotez testi yapıyorduk.

Son olarak, OP / Matloff'un “p-değerlerinin ikna edici bir argümanını önemli ölçüde daha iyi bir argüman ver” isteğine ilişkin olarak, sorunun biraz garip olduğunu düşünüyorum. Bunu söylüyorum çünkü görüşünüze bağlı olarak, otomatik olarak kendini yanıtlıyor ("bana bir hipotezi test etmenin onları test etmekten daha iyi olduğu somut bir örnek verin"). Bununla birlikte, neredeyse inkar edilemez olduğunu düşündüğüm özel bir durum RNAseq verisidir. Bu durumda, genellikle RNA'nın iki farklı gruptaki (yani hastalıklı, kontroller) ekspresyon seviyesine bakıyoruz ve iki grupta farklı şekilde eksprese edilen genleri bulmaya çalışıyoruz. Bu durumda, etki büyüklüğünün kendisi bile gerçekten anlamlı değildir. Bunun nedeni, farklı genlerin ekspresyon seviyelerinin o kadar çılgınca değişmesi ki, bazı genler için 2 kat daha yüksek ifadeye sahip olmak hiçbir şey ifade etmiyor. Sıkıca regüle edilmiş diğer genlerde, 1.2x daha yüksek ekspresyon ölümcüldür. Dolayısıyla, etki büyüklüğünün gerçek büyüklüğü, grupları ilk karşılaştırırken aslında biraz ilginçtir. Ama sengerçekten, gerçekten genin ifadesinin gruplar arasında ve değişimin yönü arasında değişip değişmediğini bilmek istiyorum! Ayrıca, çoklu karşılaştırmalarla ilgili sorunları (tek bir çalışmada 20.000 kişi yapıyor olabilirsiniz), p-değerleri ile olduğundan daha fazla güven aralıklarıyla ele almak çok daha zordur.


2
Efektin yönünü bilmenin kendi içinde yararlı olduğuna katılmıyorum . Ben yere tükürmek varsa, bunu biliyorum olacaktır geliştirmek veya inhibe ya bitki büyümesi (hiçbir etkisi yani sıfır hipotezi yanlıştır). Büyüklüğü hakkında herhangi bir bilgi olmadan bu etkinin yönünü bilmek nasıl faydalıdır? Oysa bu sadece bir şey p senin iki taraflı testten değeri / iki tek yönlü test (çeşit) söyler! (BTW, bazı kağıt ödünç, örneğin, 'zemin tükürmek' düşünüyorum p yıllar önce okuduğum-değerlerinin, ama hangisi hatırlamıyorum.)
Karl Ove Hufthammer

3
@KarlOveHufthammer: Attan önce araba. Durmamalıyım çünkü etkinin yönünü biliyorum. Ancak, büyüklük hakkında endişelenmeye başlamadan önce yönümün doğru olmasına dikkat etmeliyim. Bilimsel topluluğun, p-değerlerini kontrol etmeden tahmin edilen büyük etkileri olan her şeyi kucaklayarak daha iyi olacağını düşünüyor musunuz?
Cliff AB

3
Ayrıca, "p-değerleri size yararlı bilgi vermez" fikri, hipotez testinin sadece özensiz kullanımıdır. Bir etki büyüklüğünün zaten anlamlı olması için 1'den büyük olması gerektiğini düşünüyorsanız , ve hipotezlerini kolayca test edebilirsiniz . (önemli bir nokta olduğuna inanıyorum, bunu yansıtmak için cevabı düzenledi. Açtığın için teşekkürler)H a : μ d < - 1Ha:μd>1Ha:μd<1
Cliff AB

2
Düzenlemelerde çok iyi puanlar verdiniz. Şimdi cevabını gerçekten beğendim!
amip diyor Reinstate Monica

3
Stats.stackexchange.com/questions/200500 adresindeki cevabım üzerinde çalışırken Wagenmakers ve arkadaşlarının bu son hazırlığına rastladım, burada aslında yönlülük hakkındaki noktanızı tartıştılar: "tek taraflı P değerlerine yaklaşık bir test olarak Bayesian bir yorum yapılabilir. Yön olarak, yani, gizli bir etkinin negatif mi yoksa pozitif mi olduğu testidir. " Bu ilginç çünkü Wagenmakers çok zor Bayesian, p-değerlerine karşı çok şey yazdı. Yine de burada kavramsal bir anlaşma görüyorum.
amip diyor Reinstate Monica

6

Alaycığımı affet, ama p-değerlerinin faydasının açık bir güzel örneği yayınlanmakta. Bir p-değeri üretmek için bir deneycime yaklaştım ... büyümesini arttırmak için tek bir tesiste bir transgen ortaya çıkardı. Tek bir bitkiden birden fazla klon üretti ve en büyük klonu seçti, örneğin tüm popülasyonun numaralandırıldığı bir örnek. Sorusu, eleştirmen bu klonun en büyük olduğu konusunda bir p değeri görmek istiyor. Nüfusun tamamının elinde bulunduğundan, bu durumda istatistiklere ihtiyaç olmadığını, ancak boşuna olmadığını söyledim.

Daha cidden, alçakgönüllü görüşüme göre, akademik bir bakış açısına göre, bu tartışmayı ilginç ve teşvik edici buluyorum, tıpkı Bayesci ve birkaç yıl önceki sık sık Bayesian tartışmaları gibi. Bu alandaki en iyi zihinlerin farklı bakış açılarını ortaya koyuyor ve genellikle kolayca ulaşılamayan metodoloji ile ilgili birçok varsayım / tuzağı aydınlatıyor.

Uygulamada, en iyi yaklaşımı tartışmak ve bir kusurlu kıstas yerine başka bir yerde önerildiği gibi değiştirmekten ziyade, benim için temel bir sistemik sorunun açığa çıkması ve odağın optimal bulmaya çalışılması gerektiğini düşünüyorum. çözümleri. Örneğin, p-değerleri ve CI'nin birbirini tamamladığı ve birinin diğerinden daha güvenilir olduğu durumlar ortaya çıkabilir. Şeylerin büyük şemasında, tüm çıkarımsal araçların, herhangi bir uygulamada, nihai hedefe doğru ilerlemenin engellenmemesi için anlaşılması gereken kendi eksikliklerinin olduğunu anlıyorum. Çalışma sisteminin daha derinden anlaşılması.


6

Size p değerlerinin nasıl kullanılması ve raporlanması gerektiğini gösteren örnek bir örnek vereceğim. Bu gizemli parçacığın aramada çok yeni bir rapor var Büyük Hadron Çarpıştırıcısı içinde (LHC) CERN'e .

Birkaç ay önce , yüksek enerjili fizik çevrelerinde, LHC'de büyük bir partikül tespit edilme olasılığı hakkında çok fazla heyecanlı geveze oldu. Unutma ki bu Higgs bozonunun keşfinden sonraydı . ATLAS Collaboration 15 Aralık 2015 tarihli ve "ATLAS dedektörü ile 13 teV = Tes = ATVAS dedektörü ile 13 teV'de 3p fb − 1 pp çarpışmalarında foton çiftleri için çürüyen rezonansları arayın" makalesinden alıntılar :

görüntü tanımını buraya girin

Burada söyledikleri, olayın Standart Modelin öngördüklerini aşmasıdır. Kağıttan aşağıdaki Şekil, partikül kütlesinin bir fonksiyonu olarak aşırı olayların p-değerlerini gösterir. P-değerinin 750 GeV civarında nasıl daldığını görüyorsunuz. Yani, 750 Giga eV'ye eşit bir kütle ile yeni bir partikül tespit edilme ihtimalinin olduğunu söylüyorlar . Şekildeki p değerleri "yerel" olarak hesaplanmıştır. Global p değerleri çok daha yüksektir. Yine de konuşmamız için önemli değil.

Önemli olan p-değerlerinin fizikçilerin bir bulguyu ilan etmeleri için henüz "yeterince düşük" değil, heyecanlanmak için "yeterince düşük" olmasıdır. Böylece saymaya devam etmeyi planlıyorlar ve bu p değerlerinin daha da azalacağını umuyorlar.

görüntü tanımını buraya girin

Ağustos 2016, birkaç ay ileri yakınlaştırma Chicago, bir konferans üzerine HEP . Yeni vardı sunulan raporda tarafından "8 de √ s = 13 TeV ve aramaların kombine yorumlanması de proton-proton çarpışmaları 12.9 fb-1 ve 13 TeV kullanarak yüksek kütle foton çiftlerinin rezonans üretimi için Ara" CMS İşbirliği bu sefer. İşte tekrar yorumlarımdan alıntılar:

görüntü tanımını buraya girin

Böylece, çocuklar olayları toplamaya devam etti ve şimdi 750 GeV'de aşırı olay patlaması gitti. Kağıttan aşağıdaki şekil p-değerleri gösterir ve p-değerinin ilk rapora kıyasla nasıl arttığını görebilirsiniz. Bu nedenle, ne yazık ki 750 GeV'de hiçbir parçacık tespit edilmediğine karar verdiler.

görüntü tanımını buraya girin

Bence p-değerlerinin kullanılması gerekiyor. Tamamen bir anlam ifade ediyorlar ve açıkça çalışıyorlar. Bunun nedeni, sık kullanılan yaklaşımların doğal olarak fizikte doğal olmasıdır. Parçacık saçılması hakkında öznel hiçbir şey yoktur. Yeterince geniş bir örnek topladınız ve varsa açık bir sinyal alıyorsunuz.

Burada gerçekten tam olarak p değerlerinin nasıl hesaplandığını düşünüyorsanız, bu makaleyi okuyun : “Cowan ve ark.


2
Herkes 750 GeV zirvesinin gerçek olduğunu ve şimdi üzüldüğünü umuyordu. Ama aslında bunun bir dalgalanma olacağını (ve olacağı iddia edebilir) olacağını umuyordum ve şimdi rahatladım. Bence standart model çok iyi çalışıyor. Standart modelin ötesine geçmek için yanan arzuyu tam olarak anlamıyorum (sanki fizikteki her şey çözülmüş gibi). Neyse, +1, iyi örnek.
amip diyor Reinstate Monica

2

Diğer açıklamaların hepsi iyi, sadece aklıma gelen soruya kısa ve doğrudan bir cevap vermek istedim.

Randomize Deneylerde Ortak Değişken Dengesizlik Kontrolü

İkinci iddianız (gerçekçi olmayan boş hipotezler hakkında), randomizasyonun doğru yapıldığını bildiğimiz randomize deneylerde ortak değişken dengeyi kontrol ederken doğru değildir. Bu durumda, sıfır hipotezinin doğru olduğunu biliyoruz. Bazı değişkenlerde tedavi ve kontrol grubu arasında önemli bir fark görürsek - çoklu karşılaştırmaları kontrol ettikten sonra - elbette - o zaman bu bize randomizasyonda “kötü bir çekime” sahip olduğumuzu ve nedensel tahminde güvenilmememiz gerektiğini söylüyor. çok. Bunun nedeni, tedavi etkimiz tahminlerinin bu özel "kötü çekiliş" randomizasyonundan tahmin edilmesinin, "iyi bir çekilişten" elde edilen tahminlerden daha gerçek tedavi etkilerinden uzak olduğunu düşünmemiz olabilir.

Bunun p-değerlerinin mükemmel bir kullanımı olduğunu düşünüyorum. P-value tanımını kullanır: boş hipotezi göz önüne alındığında aşırı veya daha aşırı bir değer alma olasılığı. Sonuç çok düşükse, aslında "kötü bir çekiliş" elde ettik.

Nedensel çıkarımlar denemek ve yapmak için gözlemsel veriler kullanılırken bilançolar / istatistikler de yaygındır (örneğin, eşleştirme, doğal deneyler). Her ne kadar bu durumlarda, bilançolar “nedensel” bir etiketi tahminlere gerekçelendirmek için yeterli olmaktan uzaktır.


Bunun, p değerlerinin mükemmel (veya hatta iyi) bir kullanımı olduğunu kabul etmiyorum. Bir "kötü beraberlik" nasıl tanımlanır?
mark999

2
@ mark, tamam. Sanırım son soruya Matt uzaktayken cevap verebilirim: tabii ki örnekte. 50 kişiyle randomize bir deney hayal edin. A grubundaki her 25 kişinin de erkek olduğu, B grubundaki 25 kişinin de kadın olduğu ortaya çıktığını hayal edin. Bunun, çalışmanın herhangi bir sonucuna ciddi olarak şüphe duyabileceği açıktır; bu bir "kötü beraberlik" örneğidir. Matt, A ve B arasındaki cinsiyet farklılıkları (değişken) için bir test yapmayı önerdi. Muhtemelen burada hiçbir nüfus yok.
amip diyor Reinstate Monica

1
@ mark999 Ancak 12/25 ve 13/25 arasındaki farkın bir test olduğu açık bir şekilde yüksek anlamlı olmayan p değeri verecektir, bu yüzden burada amacın ne olduğundan emin değilim. Matt bir test yapmayı ve düşük bir p değerini kırmızı bayrak olarak kabul etmeyi önerdi. Örnekte kırmızı bayrak yok. Sanırım burada duracağım ve isterse diyaloğun devam etmesine izin vereceğim.
amip diyor Reinstate Monica

4
Hayır. 'Deneme testi yanlışlığı' na bakınız: gking.harvard.edu/files/matchse.pdf Test istatistiklerinin iyi olabileceği (en aza indirmek için bir mesafe ölçüsü olarak kullanılır) bir durumu açıklar ancak bunun için bir p değeri yoktur. duygusu.
conjugateprior

2
Bunun psiko ve nöro-dilbilimde daha yakın bir incelemesi için, yeni bir arXiv ön baskısı var . Manipülasyon dengelerini tartıştığınız zaman, rastgele örnekleme yapmazsınız ve olsanız bile, testler numunedeki dengenin değil popülasyondaki denge ile ilgili farklı bir çıkarımsal soruyu yanıtlar.
Livius

2

Hata oranları kontrolü, üretimdeki kalite kontrolüne benzer. Üretim hattındaki bir robotun, tespit edilemeyen belirli bir kusurlu parça oranını aşmamasını garanti eden bir parçanın kusurlu olduğuna karar verme kuralı vardır. Benzer şekilde, "dürüst" P değerlerine dayanan ilaç onayı için kararlar veren bir kurumun, hatalı reddetme oranlarını kontrollü bir şekilde, sıkça yapılan uzun süreli test inşası yoluyla tanımlayarak tutma yolu vardır. Burada "dürüst", kontrolsüz önyargıların, gizli seçimlerin vb. Olmaması anlamına gelir.

Bununla birlikte, ne robot ne de ajansın herhangi bir ilaçta kişisel bir payı veya montaj konveyöründen geçen bir kısmı yoktur. Bilimde ise, bireysel araştırmacılar olarak, en sevdiğimiz dergideki sahte iddiaların paylaştığımız şey yerine, üzerinde çalıştığımız hipotezleri en çok önemsiyoruz. Ne P değeri büyüklüğü ne de bir güven aralığı (CI) sınırları, doğrudan bildirdiklerimizin güvenilirliği ile ilgili sorumuza atıfta bulunmaz. CI sınırlarını oluştururken, iki sayının tek anlamının, eğer diğer bilim insanları çalışmalarında aynı tür CI hesaplamalarını yaparlarsa, toplam çalışmaların% 95'ini ya da her ne kadar bir kapsamı kapsayacaklarını belirtmeliyiz. .

Bu bağlamda, P-değerlerinin dergiler tarafından "yasaklandığını", yinelemeli krizin kalınlığında, dergiyi editörlere bildiri yayınlayan araştırmacılardan daha fazla değere sahip olduklarını düşünerek, makalelerini saklamanın pratik bir yolu olarak ironik buluyorum. Uzun vadede, bir dergi tarafından bildirilen sahte bulguların oranı. P-değerleri filtrelemede iyidir, ya da IJ Good'un yazdığı gibi, istatistikçinin arka ucunu korumak için iyidir, ancak müşterinin arka ucunu o kadar değil.

PS Ben Benjamini ve Hochberg'in çok sayıda testle yapılan çalışmalarda koşulsuz beklentiyi alma fikrinin büyük bir hayranıyım. Küresel "sıfır" altında, "sıkça" FDR hala kontrol altındadır - bir ya da daha fazla reddedilme ile yapılan bir araştırma, bir dergide kontrollü bir oranda ortaya çıkmaktadır, ancak bu durumda, bazı reddelerin gerçekte yapıldığı herhangi bir çalışma orantıya sahip olsa da Birine eşit olan sahte reddetme.


1

Matt'in, sıfır hipotezi doğru olduğunda p-değerlerinin faydalı olduğuna katılıyorum.

Aklıma gelen en basit örnek, rasgele sayı üretecini test etmektir. Jeneratör doğru çalışıyorsa, herhangi bir uygun örneklem büyüklüğü gerçeklemesini kullanabilirsiniz ve uygun birçok örnek üzerinde test edildiğinde, p-değerleri eşit dağılıma sahip olmalıdır. Olurlarsa, bu doğru bir uygulama için iyi bir kanıt. Olmazlarsa, bir yerde bir hata yaptığını biliyorsun.

Bir istatistik veya rastgele değişkenin belirli bir dağılıma sahip olması gerektiğini bildiğiniz zaman ortaya çıkan diğer benzer durumlar (yine en belirgin bağlam simülasyondur). P-değerleri tekdüze ise, geçerli bir uygulama için destek buldunuz. Değilse, kodunuzun bir yerinde bir sorun olduğunu biliyorsunuz.


1

Deneysel Yüksek Enerji Fiziği'nde p-değerlerinin faydalı olduğu bir örneği düşünebilirim. Şekil 1'e bakınız. Bu çizim bu kağıttan alınmıştır: LHC'de ATLAS dedektörü ile Standart Model Higgs bozonunun aranmasında yeni bir parçacık gözlemlenmesi

5σH125

görüntü tanımını buraya girin


1
Arsa, arka plan ve asıl soruya nasıl hitap ettiği hakkında daha fazla bilgi vermeniz gerekir. Bu neredeyse yeterli bilgi değil.
Greenparker

@Greenparker, arsa üzerine biraz arka plan eklemeye çalıştı.
Nicolas Gutierrez

±1σ
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.