P-değerlerinin yerleşik görüşlerini almak

Bazen raporlarda, p değerleri ve sağladığım diğer çıkarımsal istatistikler hakkında bir feragatname ekliyorum. Örnek rastgele olmadığından, bu tür istatistiklerin kesinlikle uygulanmayacağını söylüyorum. Özel ifadelerim genellikle dipnotta verilmiştir:

“Kesin konuşursak, çıkarımsal istatistikler yalnızca rastgele örnekleme bağlamında uygulanabilir olsa da, önemsiz düzeyler ve / veya güven aralıklarını, rastgele olmayan örnekler için bile uygun kıstaslar olarak bildirme konvansiyonunu takip ediyoruz. Bkz. Michael Oakes İstatistiksel çıkarımı: Toplum için bir yorum ve davranış bilimleri (NY: Wiley, 1986).

Birkaç kez - bir kez daha hakemli bir makale için, akademik olmayan bir ortamda bir ya da iki kez - editör ya da hakem bu reddi reddetti, kafa karıştırıcı olarak nitelendirdi ve çıkarımsal bulguların sadece yazılı olarak durması gerektiğini hissetti (ve otoritenin mantosunu verilecek). Başka biri bu sorunla karşılaştı ve iyi bir çözüm buldu mu? Bir yandan, insanların p-değerleri anlayışı, rastgele örnekleme bağlamında bile genellikle kasvetlidir, bu yüzden belki de ne dediğimizin önemi yoktur. Diğer yandan, yanlış anlamalara daha fazla katkıda bulunmak, sorunun bir parçasını oluşturuyor gibi görünüyor. Rasgele ödevlerin uygulanmadığı ve Monte Carlo simülasyonlarının sıklıkla temsiliyet sorununu ele almadığı durumlarda anket çalışmalarıyla sıkça ilgilendiğimi de eklemeliyim.

inference p-value

— rolando2
kaynak

Bir gözden geçiren hakkındaki yorum son derece üzücüdür, bu pozisyondaki bir kişinin en azından cehaletini açıkça göstermeyeceği ve böyle yaparak, istatistiksel yöntemin yanlış yorumlanmasını daha da destekleyeceği umulur.

— richiemorrisroe

Hatalıysam beni düzelt, ancak örneklemenin rasgeleliği sadece bulguları genelleştirebileceğin dereceyi etkiler. Buna karşılık, rastgele atama nedensel çıkarım için en kritik özelliktir.

— Mike Lawrence

Mike, sana katılıyorum. Bu konuyu tartışmayı genişletmek veya söylediğim bir şeyle anlaşmazlık belirtmek için mi yapıyorsunuz?

— rolando2

@richiemorrisroe: Tüm yorumculardan birisini beklemek aptallık olur, ancak sanırım birisinin beklediğimiz bir gelecek için umut verebileceğini ve yayıncıların şu anda istediklerinden daha fazlasını talep etmek ve uygulamak için kesinlikle baskı yapmalıyız .. Rolando, bence Mike'ın nedensel çıkarsama ile ilgili konulardaki tartışmayı açıklığa kavuşturmak için sadece bir açıklama noktası olduğunu düşünüyorum. Belli ki, bazı insanlar bunu, kişisel olarak yeterince açık olduğunu düşünmeme rağmen, faydalı buldular. Eğer haklıysam, bu istemeden başkalarının orijinal değeri motive eden p değerleri hakkındaki kafa karışıklığını ölçer !

— Nick Stauner

Yanıtlar:

Gerçekten de, feragatnameyi içermemesi gereken bir argüman var. Açıkçası, bir dergi makalesinde p-değerlerinin doğası üzerine biraz alıştırıcı olacağına dair kısa bir tez bulurum ve bir süre duraklatmak ve özellikle bir şey yapıp yapmadığınızı anlamaya çalışmak zorunda kalacaksınız .. ezoterik ... bu alanı tanımlayıcı bir noktaya ayırmayı garanti etmek için.

Temel olarak, bir gözden geçiren olarak, gereksiz diyebilirim çünkü okuyucu zaten bir p değerinin ne olduğunu ve ne yaptığını bilmelidir. Buna itiraz edebilirim, çünkü böyle bir notu yazmak, aslında p-değerlerine eşlik eden birçok analiz ve yorum suçunu engellemiyor, sadece "bana güven, ne yaptığımı biliyorum" pelerini koyar. Aynı zamanda biraz garip - "P-değerlerine karşı cesurca duracağım, ama çok cesur değil, onları rapor etmiyorum".

"P-değerleri üzerine yerleşik görüşler" olarak düşündüğümde, yukarıda yayınladığınız gibi bir şey hakkında daha az endişeliyim ve hakemlerin yayınlanmasında veya makalenin odaklanmasında istatistiki önem konusunda ısrarı konusunda çok daha fazla endişe duyuyorum bir bulgunun yıldızı ve aniden Büyük Anlaşma) veya istatistiki önemi bulgunun önemi ile karıştırarak.

— fomite
kaynak

Bunun OP'ye cevap verdiğini sanmıyorum. @ Rolando2'nin tartışmaları için daha merkezi olan diğer istatistikleri (örneğin, etki büyüklükleri) bildirdiğini ve çoğunlukla p uygulamamalarına rağmen, p değerlerini geleneksel beklentileri yerine getirmenin bir yolu olarak kabul ettiğini farz ediyorum . Bu nedenle, p değerlerine ne kadar fazla okuduğumuz ne kadar ertelenmeli; sorumluluk reddi için motivasyonunu dikkate almalıyız. Okuyucular ne yapmaları gerektiğini bilmiyor; OP bundan bahseder. Feragat güven değil, şüphe yaratır. Buna uyurken bir standarda itiraz etmek o kadar da garip değil; kalın bir stand değil.

— Nick Stauner

@NickStauner OP nasıl "cevap veremediğini" anlamıyorum. Belki de yapmak istediklerini desteklemiyor, ama bence hem kağıdın asıl içeriğinden çok garip bir mola, hem de işe yaramaz - “Bu yanlış, ama sanki onun üzerine asker olacağım Eğer tüm düşünüyoruz, çünkü hakkı" yanlışlığı varsa bana söylemez konularda .

— Fomite

OP'nin sorusu: "Başka biri bu soruna rastladı ve iyi bir çözüm buldu mu?" Cevabınız fikre cevap vermek için hazır soruyu görmezden gelir ve çoğunlukla fikrin neden düşürülmesi gerektiğine dair fikirlerinizi sunar. OP'nin fikrinin yapıcı bir eleştirisine ipucu vermeye başlıyorsunuz: Oakes alıntılarının neden önemli olduğunu söylediğini düşünmüyorsunuz. Bu konuyu biraz kendi cevabımla genişleteceğim.

— Nick Stauner

Çıkarımsal istatistiklerin kullanımı sadece bir popülasyon modeline dayanarak değil, aynı zamanda bir rastgele modellemeye de dayandırılabilir. Sonuncusu, numunenin elde edilme şekli hakkında herhangi bir varsayımda bulunmaz. Aslında, randomizasyon modelinin istatistiksel çıkarımın temeli olması gerektiğini öneren Fisher (Neyman ve Pearson'a karşı olduğu gibi) idi. Örneğin, bakınız:

Ernst, MD (2004). Permütasyon yöntemleri: Kesin çıkarım için bir temel. İstatistiksel Bilim, 19, 676-685. [link (açık erişim)]

Ludbrook, J. ve Dudley, H. (1998). Biyomedikal araştırmalarda permütasyon testleri neden t ve F testlerinden daha üstündür? Amerikan İstatistiği, 52, 127-132. [link (JSTOR erişiminiz varsa)]

Her nasılsa, söz konusu editörlerin veya hakemlerin bunu feragatnamenizi "kafa karıştırıcı" olarak adlandırmanın nedeni olarak kullandığından şüpheliyim.

— Wolfgang
kaynak

Wolfgang - ilginç ve faydalı noktalar. Yine de, çalışmamın çoğunun anketlerle ilgili olduğunu açıkça söylemeliydim.

— rolando2

Birincil hedef popülasyona bir tür çıkarım yapmaksa ve örnekleme mekanizması, numunenin temsil edilebilirliğinin sorgulanabilir olduğu bir nitelikte ise, o zaman gerçekten herhangi bir çıkarım da sorgulanabilir olacaktır. Temel olarak, örnekleme mekanizmasının temsil ettiği popülasyonun sadece o kısmına bir çıkarım yapabilirsiniz. Prensip olarak, yaptığınız çıkarımlar nüfusun o kısmı için uygun olacaktır. Nüfusun bu bölümünün sizin (veya okurların) sizi ilgilendirmemesi başka bir konudur.

— Wolfgang

Henüz kötü eleştirmenlerle savaşmak zorunda değildim, bu yüzden başlamış olan bir savaştan nasıl kurtulacağına dair hiçbir bilgi istemem. Bununla birlikte, itirazları yalnızca engelleyici bir cehalet meselesiyse, küçük bir önleyici sapma hile yapabilir. Eğer $p$ gerçekte, problemli bir çalışmada (yayınlanan tüm makalelerin çoğunun düştüğü bir sınıf) ihmal edilemeyen geçersizliklerine rağmen raporlamada gerekli olan değerler aslında, onları dolaylı olarak küçümseyebilir. Bunun yerine anlatınızı - belki de yalnızca - efekt boyutlarına odaklamayı düşünün. Eğer çalışmanız faydalı bir şekilde bilgilendirici olmak için yeterince temsili ise (bu tamamen rastgele örnekleme gerektirmemeli, sadece yorumların genelliğine dikkat etmelidir), etki büyüklüklerinizin sadece ilişkilerin veya farklılıkların varlığını ve yönlerini göstermekten daha geniş çıkarımları olması gerekir. Etki boyutlarıyla ilgili tartışmaya odaklanmak, ilişkilerin veya farklılıkların pratik anlamda ne kadar önemli olduğunu daha derin bir anlayışı kolaylaştırabilir, ancak bunun çalışma konusu bağlamında da göz önünde bulundurulması gerekir (örn. $r = .03$ ölüm kalım meselesiyle ilgili olabilirse, mutlaka önemsizdir; ^{Rosenthal, Rubin ve Rosnow, 2000)} . Bunu, sonuçları "önemli" ve "önemsiz" olarak adlandırmak yerine "zayıf", "orta" veya "güçlü" ilişkiler veya "küçük" veya "büyük" farklılıklar; Son iki kelime, araştırmacıların yapmak istediği noktaların çoğunu yapmak için hiçbir şekilde gerekli olmamalıdır. Eğer $p$ değerler gereklidir, kendileri için konuşmalarına izin verin. Meta analistler bir iyilik yapın ve bunları sadece değerli istatistiklerin daha kapsamlı raporlarına aktarın: etki büyüklükleri, güven aralıkları ve test istatistikleri. Belki okuyucuların ve hakemlerin görmezden geleceği bir gün için umut $p$ Değerler ve talep güven aralıkları, $p$ değerler tamamen azaltılabilir. (Ya da belki değil! Post-postscript!)

Potansiyel olarak tamamlayıcı bir diğer seçenek dipnotunuzda genişletmek olacaktır. Hem sorunu gözden geçirenlerin yaşadığı gibi tanımlarınız hem de bu sayfada kabul edilen cevap, dipnotu ekleme motivasyonunuzu açıklamak için yeterli bilginin iletilmediğini ya da okuyucuyu referansa atıfta bulunmanız için motive etmek için yeterli bilginin iletilmediğini göstermektedir. bunu çok açık bir şekilde açıklamak için kullandığın için. Tek bir ek cümle, hatta referansınızdan kısa bir alıntı bile olsa, dipnotunuzun değerini açıklamak ve okuyucuları daha derinden okumaya motive etmek için uzun bir yol kat edebilir. Belli ki, dipnotunuz en kısa zamanda olduğu gibi, sade bir varsayımla uygunsuzluğunu azaltma konusundaki kabiliyetini bozma girişiminize yönelik basit, olumsuz, küçümseyen bir tepkiyi motive ediyor. Muhtemelen rutin olarak göz ardı ettikleri sorunların ana noktalarından birini veya ikisini kaşıkladıysanız, okuyucular entelektüel olarak biraz tembel olabilir. Ayrıca, birçok özel sorun için $p$ Değerler, sadece bu kitabı değil, aynı zamanda şu anda çevrimiçi olarak ücretsiz olarak erişilebilen oldukça kısa bir dergi makalesini de düşünün ^{(örneğin, Goodman, 2008 , Wagenmakers, 2007 )} . Bu, bir kitap edinme ve içindeki ilgili bilgiyi bulma zorluğundan dolayı herhangi bir direnci azaltmaya yardımcı olabilir.

PS Wagenmakers için @ rpierce ⁽²⁰⁰⁷⁾ ve cevabımın mantığının çoğuna ve Goodman için @FranciscoArceo'ya ⁽²⁰⁰⁸⁾ teşekkürler ! Ayrıca Francisco'nun gevşek ilgili cevabının yanı sıra, burada Tercümanlık konusunda Çapraz Yazılı diğer popüler yayınlara bakınız. $p$ Değerler düzgün:

PPS @ MichaelLew'in puanını atmadan önce de dikkate almaya değer $p$ tamamen değer! Bkz Senn ⁽²⁰⁰¹⁾ ve Lew ⁽²⁰¹³⁾ bazı nadir ve değerli (ama sadece kısmi) savunmaların için $p$ . [Düzenle]: Ayrıca, bu soruyu yeni bir soruda gündeme getirdim: " Neden 0,05 <p <0,95 sonuç yanlış pozitif deniyor? " Cevabımı tartışırken, OP gündeme getirdiğim Hurlbert ve Lombardi'yi ⁽²⁰⁰⁹⁾ getirdi. daha sonra getirilen kimi birini meslektaşlarımla birlikte Nuzzo ⁽²⁰¹⁴⁾ , yepyeni bir doğa Haberler daha referanslarına yol açtığını makalesinde ^{( Goodman, 2001 , 1992; Gorroochurn Hodge Heiman, Ddurner, & Greenberg 2007 )} ... Belli ki bu noktada yetişemiyorum, ancak Michael, kesin olarak yararlı bilgileri çıkarma olasılığını savunmada açıkça tek başına değil $p$ değerleri (onlar ne zaman yapmak en azından, "kesinlikle uygulamak").

Referanslar

^{- Goodman, SN (1992). Replikasyon, P ‐ değerleri ve kanıtlar üzerine yorum Tıpta İstatistik, 11 (7), 875–879.

- Goodman, SN (2001). Of P mütevazı önerisi:-değerlerinin ve Bayes. Epidemiyoloji, 12 (3), 295-297. Http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf adresinden alındı .

- Goodman, S. (2008). Kirli bir düzine: On iki P değerinde yanlış anlama. Hematolojide Seminerler, 45 (3), 135-140. Http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf adresinden alındı .

- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. ve Greenberg, DA (2007). Dernek çalışmalarının çoğaltılmaması: “taklit başarısızlıklar” çoğaltıyor mu? Tıpta Genetik, 9 (6), 325-331. Http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html adresinden alındı .

- Hurlbert, SH ve Lombardi, CM (2009). Neyman – Pearson karar teorik çerçevesinin son çöküşü ve neoFisherian'ın yükselişi. Annales Zoologici Fennici, 46 (5), 311-349. Http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf adresinden alındı .

- Lew, MJ (2013). P'ye veya P'ye değil: P değerlerinin kanıt niteliği ve bilimsel çıkarımdaki yerleri hakkında. arXiv: 1311.0081 [stat.ME]. Alınanhttp://arxiv.org/abs/1311.0081 .

- Nuzzo, R. (2014, 12 Şubat). Bilimsel yöntem: İstatistiksel hatalar. Nature News, 506 (7487). Http://www.nature.com/news/scientific-method-statistical-errors-1.14700 adresinden alındı .

- Rosenthal, R., Rosnow, RL ve Rubin, DB (2000). Davranış araştırmalarında karşıtlıklar ve etki büyüklükleri: İlişkisel bir yaklaşım. Cambridge Üniversitesi Basını.

- Senn, S. (2001). P-değerleri için iki şerefe? Epidemiyoloji ve Biyoistatistik Dergisi, 6 (2), 193-204. Http://www.phil.vt.edu/dmayo/conference_2010/Senn%20Two%20Cheers%20Paper.pdf adresinden alındı .

- Wagenmakers, EJ (2007). Yaygın sorunlara pratik bir çözümp değerleri Psychonomic Bülten ve İnceleme, 14 (5), 779-804. Http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf adresinden alındı .}

— Nick Stauner
kaynak

P-değerleri eleştirilerinin tümü, araçlarına rağmen doğru ya da garantili değildir. Bu iki makaleyi, alıntı yaptığınız yorumların birkaç referans noktası için görmelisiniz : İki Değer için Şerefe (Stephen Senn), phil.vt.edu/dmayo/conference_2010/… ; P'ye veya P'ye değil (benim tarafımdan) arxiv.org/abs/1311.0081

— Michael Lew

Mükemmel nokta! Teşekkür ederim! Katkılarınızı eklemek için biraz düzenleme yaptım ve bunların etkilerini söylediklerimin geri kalanına dahil edebilecek kadar iyi anladığımda biraz daha düzenleyebilirim. Bu yüzden Çapraz Validated'i seviyorum ...

— Nick Stauner

Edwards'ın varsayımının p-değerlerine yayıldığı iddiası lehine deneysel bir kanıtınız var mı? Kendimi son derece şüpheci buluyorum. Analojime göre, deneyimli veri bilimcilerinin bile bir dağılım grafiğinden bir korelasyon katsayısını tahmin etmekte zorlandıklarını gösteren birkaç makale gördüm. Görünüşe göre ap değerinin ne anlama geldiğini anlamak için bilim insanlarından çok daha fazlasını istiyor gibisiniz. Olabilirlik fonksiyonlarını destekleyen argümanınız ilginç ... ilginç bir şekilde posterior dağılımlara benziyorlar, değil mi?

— russellpierce

@ rpierce İstatistiksel yöntemlerin kullanıcılarının anlaşılması için deneysel kanıtlarım yok. Bununla birlikte, bilim adamlarının p-değerlerini “anladıklarını” görmek için yapılan çalışmaların en azından bir kısmının, seçenekler arasında p-değerinin gerçek bir delil olarak anlamlı bir tanımını içermemekle ölümcül olarak kusurlu olduğunu iddia edeceğim. Analojiniz yakın değildir çünkü korelasyon katsayılarının kolay tahmin edilememesi gerçeği, bir p değerinden kanıtların gücünü tahmin etmekle aynı problem değildir.

— Michael Lew

@ rpierce Tek tip bir önceden gelen posterior olasılık yoğunluğu fonksiyonu, olasılık fonksiyonuyla orantılı olacaktır.

— Michael Lew