Bir hipotez yokluğunda P değerlerinin bolluğu


28

Epidemiyolojiye girdim. Bir istatistikçi değilim, ancak sık sık karşılaşmama rağmen analizleri kendim yapmaya çalışıyorum. İlk analizimi yaklaşık 2 yıl önce yaptım. Tanımlayıcı tablolardan regresyon analizlerine kadar analizlerime her yerde (sadece diğer araştırmacıların yaptığı şeyi yaptım) P değerleri dahil edildi. Azar azar, dairemde çalışan istatistikçiler beni gerçekten bir hipotezim olduğu durumlar dışında p (!) Değerlerini atlamama ikna etti.

Sorun, tıbbi araştırma yayınlarında p değerlerinin bol olmasıdır. Çok fazla satıra p değerleri eklemek gelenekseldir; Ortalamaların, medyanların veya her ne olursa olsun genel olarak p değerleri ile tanımlayıcı veriler (öğrenci t-testi, Ki-kare vb.).

Kısa süre önce bir dergiye bir makale gönderdim ve "temel" tanımlayıcı tablomuza p değerleri eklemeyi reddetti (kibarca). Kağıt nihayetinde reddedildi.

Örneklemek için aşağıdaki şekle bakın; saygın bir iç hastalıkları dergisinde yayınlanan son makalenin tanımlayıcı tablosu: görüntü tanımını buraya girin

İstatistikçiler çoğunlukla (her zaman olmasa da) bu yazıların incelenmesinde rol oynarlar. Yani benim gibi bir meslekten olmayanlar hipotezi olmayan hiçbir p değeri bulamamayı umuyor. Ama onlar bol, ama bunun nedeni benim için zor. Cehalet olduğuna inanmayı zor buluyorum.

Bunun bir sınır çizgisi istatistiksel sorusu olduğunun farkındayım. Ama bu fenomenin arkasındaki mantığı arıyorum.


12
Hipotezsiz bir p değeri doğal olarak hatalı. Bir hipoteziniz olmadığında p-değeri ne anlama geliyor?
jameselmore

3
Belki herhangi bir hipotezi olmayan p-değerleri kullanan insanlardan örnekler verebilir misiniz? Bu net değil.
amip diyor Reinstate Monica

4
@ amoeba "" Sorun şu ki, p değerleri her tıp dergisinde her yerde. Tarif edilen araçların, ortancaların veya oranların olduğu her satıra p değerleri eklemek geleneksel bir yöntemdir. "" Özet tablosunda herhangi bir satırın önemli bir farklılığı olup olmadığını soran, Fisher kesin testleri veya farklılıklar için ki-kare testleri olma eğilimindedirler. . Zımni hipotez, her satırın önemli olduğudur.
Karl

2
Büyük bir kuvvetin, p-değerlerinin verilen bir iddiaya aldatıcılıkta bir izlenim bıraktığından şüpheliyim. Bu dergilerin yayıncıları bunu sevmelidir, çünkü bu öngörülebilir gelecek için değerli olacak kendi bilgileri anlamına gelir. Eşzamanlı çalışmalara finansman sağlamayan veya önermeyen eşzamanlı kültür, tartışmalı çelişkili sonuçların varlığını en aza indirmeye yardımcı olur. İnsanlar sonunda sahip oldukları bilgileri çoğunlukla "anlamsız etkinlik" (@ glen_b'nin terimi) içerdiğini fark ederlerse ne olacağını merak ediyorum. İçinde yararlı şeyler olsa bile ... buluşmalardan kaçınmanı söyle.
Livid

1
[at] jameselmore: Aynı soruyu soruyorum; mantıklı değil ama her gün uygulanır. [at] amip: Rastgele okuduğum dergilerden birini seçip en son yayınlanan makaleye baktım ve şunu buldum: onlinelibrary.wiley.com/doi/10.1111/joim.12230/full [at] Karl: kesinlikle, teşekkür ederim. @Momo: Sorunun formülasyonunu iyileştirmek için şimdi bir çaba gösterdim. Bunun önemli bir soru olduğunu düşünüyorum ve öneriniz için teşekkür ederim. [at] Livid: Bu yorum için teşekkür ederim. Aslında birçok araştırmacı, p değerlerinin bütün noktasını yanlış anlamış olabilir.
Adam Robinsson,

Yanıtlar:


29

Açıkçası, size bir p-değerinin ne olduğunu veya neden bunlara aşırı güvenmenin bir sorun olduğunu söylememe gerek yok; Görünüşe göre bu şeyleri yeterince iyi anlıyorsun.

Yayıncılık ile iki rekabet baskınız var.

İlki - ve makul olan her fırsatta zorlaman gereken - mantıklı olanı yapmak.

İkincisi, sonuçta, aslında yayınlanması gereğidir. Kimse korkunç uygulamada reform yapma konusundaki iyi çabalarınızı görmezse çok az kazanç olur.

Yani tamamen kaçınmak yerine:

  • kaçınılmaz olarak yayınlayabildiğiniz kadar uzağa varamayacağınız kadar anlamsız aktivite yapın

  • belki, bunun yardımcı olacağını düşünüyorsanız, belki de bu son Doğa yöntemleri makalesinden [1] bahsedin ya da belki başka kaynaklardan bir ya da daha fazlasını kullanın. En azından, p-değerlerinin önceliğine karşı bir muhalefet olduğunu tespit etmelidir.

  • Başka birisinin uygun olması durumunda diğer dergileri dikkate alınız.

Bu diğer disiplinlerde aynı mıdır?

P-değerlerinin aşırı kullanımı problemi disiplinleri bir dizi (orada bu bile bir sorun olabilir oluşur olan bazı hipotez), ancak çok yaygın bazıları diğerlerinden daha bulunmaktadır. Bazı disiplinlerin p-value-itis ile ilgili sorunları vardır ve neden olan problemler sonunda aşırı derecede tepkimeye neden olabilir [2] (ve daha küçük ölçüde, [1] ve en azından bazı yerlerde, diğerlerinden birkaçı yanı sıra).

Bunun çeşitli nedenleri olduğunu düşünüyorum, ancak p değerlerine aşırı güvenmek kendine özgü bir ivme kazanıyor gibi görünüyor - “anlamlı” derken ve insanların çok çekici bulduğu gibi bir boş değeri reddetmekle ilgili bir şeyler var; çeşitli disiplinler (örneğin, bakınız [3] [4] [5] [6] [7] [8] [9] [10] [11]) (çeşitli derecelerde başarı ile) aşırı güvenme sorunuyla mücadele ediyor Uzun yıllar boyunca p-değerleri (özellikle = 0.05) ve birçok farklı öneride bulundum - hepsi aynı fikirde değil, fakat insanların sahip oldukları farklı şeylerin bir anlamını vermek için çeşitli görüşler içerir. söylemek.α

Bazıları güven aralıkları üzerinde odaklanmayı, bazıları etki boyutlarına bakmayı, bazı Bayesian yöntemlerini, bazı küçük p-değerlerini, bazıları sadece belirli şekillerde p-değerlerini kullanmaktan kaçınmayı savunuyor. Bunun yerine ne yapılacağına ilişkin birçok farklı görüş var, ancak aralarında p-değerlerine dayanan, en azından genel olarak yaptığı gibi birçok sorun var.

Sırayla daha birçok referans için bu referanslara bakın. Bu sadece bir örnekleme - birçok düzineden fazla referans bulunabilir. Birkaç yazar, p değerlerinin yaygın olduğunu düşündükleri nedenler veriyor.

Bu referansların bazıları, bir editörle konuyu tartışmak istiyorsanız faydalı olabilir.

[1] Halsey LG, Curran-Everett D., Vowler SL ve Drummond GB (2015),
" Fickle P değeri yeniden üretilemez sonuçlar veriyor ,"
Nature Methods 12 , 179–185 doi: 10.1038 / nmeth.3288
http: // www .nature.com / nmeth / dergi / v12 / n3 / abs / nmeth.3288.html

[2] David Trafimow, D. ve Marks, M. (2015),
Editör,
Temel ve Uygulamalı Sosyal Psikoloji , 37 : 1–2
http://www.tandfonline.com/loi/hbas20
DOI: 10.1080 / 01973533.2015.1012991

[3] Cohen, J. (1990),
Öğrendiğim Şeyler (şimdiye kadar),
Amerikalı Psikolog , 45 (12), 1304-1312.

[4] Cohen, J. (1994),
Dünya yuvarlaktır (p <.05),
Amerikalı Psikolog , 49 (12), 997-1003.

[5] Valen E. Johnson (2013),
İstatistiksel kanıtlar için gözden geçirilmiş standartlar PNAS , vol. 110, hayır. 48, 19313–19317 http://www.pnas.org/content/110/48/19313.full.pdf

[6] Kruschke JK (2010),
Neye inanmalı: Veri analizi için bayesian yöntemleri,
bilişsel bilimlerde trendler 14 (7), 293-300

[7] Ioannidis, J. (2005)
Neden En Çok Yayınlanan Araştırma Bulguları Yanlış,
PLoS Med. Ağustos; 2 (8): e124.
doi: 10.1371 / dergi.pmed.0020124

[8] Gelman, A. (2013), P Değerleri ve İstatistiksel Uygulama,
Epidemiyoloji Cilt. 24 , No. 1, Ocak, 69-72

[9] Gelman, A. (2013),
"P-değerleri ile ilgili sorun nasıl kullanıldığı"
( Ekoloji için Paul Murtaugh tarafından "P-Değerlerinin Korunması" tartışması )
: http: // citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.300.9053
http://www.stat.columbia.edu/~gelman/research/unpublished/murtaugh2.pdf

[10] Nuzzo R. (2014),
İstatistiksel hatalar: İstatistiksel geçerliliğin “altın standardı” P değerleri, birçok bilim insanının varsaydığı kadar güvenilir değildir,
Haberler ve Yorum,
Nature , Vol. 506 (13), 150-152

[11] Wagenmakers E, (2007)
P değerlerinin yaygın sorunlarına pratik bir çözüm,
Psychonomic Bulletin & Review 14 (5), 779-804


7
+1. Bu Doğa Yöntemleri belgesini [1] bir hafta daha okudum ve çok sevdiğimden emin değilim. Esasen p-değerlerinin düşük güç testlerinde çok değişken olabileceğini savunuyorlar (ayrıca, youtube'daki "p-değerlerinin dansı" na bakınız) - tabii ki doğru olan ve üzerinde durulması gereken bir şey. P değerlerinin "kötü" (başlık oldukça sert geliyor) olduğu ve insanların "iyi" olan güven aralıklarını kullanmaları gerektiği sonucuna vardılar. Ancak elbette düşük güçte güven aralıkları da çok değişkendir! Şekil 6'daki durum (solda) bana Şekil 2'den çok daha iyi görünmüyor
amip Reinstate Monica

2
@ amoeba Size katılmıyorum demiyorum - orada çok katılmıyorum çok var; Bununla birlikte, OP için yararlı olabilecek bazı noktalar var. Aslında, bana yapmayı düşündüğüm ama unuttuğum bir değişikliği hatırlattın.
Glen_b

3
Evet, yine de potansiyel yararlılıkla aynı fikirdeyim - özellikle de Doğa Yöntemleri insanların belki de "otoritesi" tarafından ikna edilebilecek kadar saygın olduğu için. Ben sadece OP'yi oradaki herşeyi alması için almaya karşı uyarmak istedim (matematiği tamam, burada sonuçlardan / yorumdan bahsediyorum).
amip diyor Reinstate Monica

1
Bu bağlamda ayrıca ilginç olan Wilkinson ve İstatistiki Çıkarım Üzerine Görev Gücü, Psikoloji Dergilerinde İstatistiksel Yöntemler, Amerikalı Psikolog , Cilt. 54, No. 8, 594-604, 1999.
A. Donda

Glen_b, "Fickle P" belgesindeki yabancı iddialardan biriyle ilgili bir soru yayınladım: stats.stackexchange.com/questions/250269 - görüşünüzü çok takdir ediyorum.
amip diyor Reinstate Monica

10

P-değeri veya daha genel olarak, boş hipotez anlamlılık testi (NHST) yavaş yavaş daha az ve daha düşük bir değere sahiptir. Öyle ki, dergilerde yasaklanma başladı .

Çoğu insan p-değerinin bize gerçekte ne söylediğini ve neden bunu söylediğini anlamıyor, her yerde kullanılmasına rağmen.

Sorun, p değerinin bize olduğunu ve daha bilgilendirici olan olmadığını . İkincisi, Bayesian çıkarımının kullanılmasını içerir ve model kontrolünün sonuçları için daha güçlü bir temel sağlar.P(Data|H0)P(H0|Data)

modelinin gerçek / önemli olma ihtimalinin, gözlemlediğimiz veriler göz önüne alındığında, modeline uyan verilerimizin olasılığından daha güçlü çıkarımları vardır .H0H0


1
P (H0 | data) 'nın yalnızca H0 anlamlıysa anlamlı olduğunu ekleyeceğim. Çalışmaların, şansın ötesindeki sonuçlar (önyargılar, ayrılmalar, temel farklılıklar) hakkındaki ilginç olmayan açıklamaları ekarte edecek şekilde tasarlanması ve raporlanması gerekir. Ayrıca, hatta mükemmel sadece o size söyler önemli etki boyutu ile RCT kör bir şey ilginç ölçüldü. Gerçekten ilgilendiğiniz şeyi ölçüp ölçmediğinizi bulmak, p-değeri takıntısı ile birlikte sıklıkla rastlanan bir başka konu.
04

8

Bu diğer disiplinlerde aynı mıdır? P değerleri saplantısının sebebi nedir?

Greenwald ve diğ. (1996) psikoloji ile ilgili bu soruyu ele almaya çalışmıştır. Ayrıca NHST'yi temel farklılıklara uygulamak için, muhtemelen editörler (haklı ya da yanlış) “anlamlı olmayan” temel farklılıkların sonuçları açıklayamayacağına karar verirken “önemli” olanlar sonuçları açıklayabilir. Bu, Greenwald ve arkadaşlarının sunduğu “Sebep 1” e benzer. :

NHT Neden Popüler Kalıyor?

“Neden NHT eleştiriye boyun eğmiyor? Daha iyi bir cevap vermemek için, NHT'nin davranış bilim adamlarının karakter eksikliğinden yoksun olmalarını güvence altına almak cazip gelebilir. Bir içkinin akşam yemeği öncesi kokteyl alışkanlığından vazgeçme konusundaki isteksizliği gibi olun ... "

Sebep I: HT Dikdörtgen Bir Sonuç Sunuyor

“P <.05'in“ istatistiksel olarak anlamlı ”anlamına geldiği konvansiyonun yaygın olarak benimsenmesi nedeniyle, NHT, boş bir hipotez hakkındaki bir soruya iki taraflı bir cevap (reddetme veya reddetme) vermek için kullanılabilir. Bir parametrenin beklenen değeri değil, bir öngörü yönü ile ifade edilen teorik sorular için faydalı bir cevap ... "

Sebep 2: p Test İstatistikleri İçin Anlamlı Bir Ortak Dil Çevirisi Olarak Değer

"Doğrudan t, F veya r değerlerinden (ilişkili df'leriyle) doğrudan algılanabilen herhangi bir şeyin aksine, ap değerinin sürpriz ölçüsü, ondalık noktasının sağındaki ardışık sıfırların sayısıyla kolayca yakalanır ..."

Sebep 3: p Değer, Boş Hipotez Reddetmelerinin Tekrarlanabilirliğinde "Bir Güven Ölçümü Sağlıyor"

"[U], bir etki büyüklüğünden (veya bir güven aralığından) farklı olarak, NHT'den elde edilen ap değeri, boş olmayan bir bulgunun tekrarlanabilirliğinin bir tahmini ile monoton bir şekilde ilişkilidir. sadece NHT'nin reddetme-reddetme sonucunu tekrarlama anlamında ve nokta veya aralık tahminleri arasındaki yakınlık tahmini anlamında değil. ”

Etki büyüklükleri ve p değerleri: Ne rapor edilmeli ve ne kopyalanmalı? ANTONY G. YEŞİL YOL, RICHARD GONZALEZ, RICHARD J. HARRIS VE DONALD GUTHRIE. Psikofizyoloji, 33 (1996). 175-183. Cambridge Üniversitesi Basını. ABD'de basılmıştır. Copyright O 1996 Psikofizyolojik Araştırmalar Derneği


Bir dahaki sefere yorumcularla tartışmak için kesinlikle kullanacağım bu önemli yorumlar için teşekkür ederim.
Adam Robinsson 21:15

6

P değerleri, iki popülasyondan örnek alan iki sonuç grubu ("tedavi" - "kontrol", "A" - "B" vb.) Arasındaki farklar hakkında bilgi verir. Farklılığın doğası hipotezlerin ifadesinde resmileştirilmiştir - örneğin, "A ortalaması B ortalamasından daha büyüktür". Düşük p değerleri farklılıkların rastgele değişkenliğe bağlı olmadığını gösterirken, yüksek p değerleri iki numunedeki farklılıkların sadece rastgele değişimlerden ortaya çıkabilecek farklılıklardan ayırt edilemeyeceğini göstermektedir. Bir p-değeri için "düşük" veya "yüksek" olan şey, tarihsel olarak titiz bir mantık veya delil analizi ile kurulmaktan ziyade bir kongre ve tat konusu olmuştur.

P-değerlerini kullanmanın ön şartı, iki sonuç grubunun gerçekten karşılaştırılabilir olmasıdır, yani aralarındaki tek fark kaynağının değerlendirdiğiniz değişkenle ilgili olmasıdır. Abartılı bir örnek olarak, iki zaman diliminde iki hastalık hakkında istatistiklere sahip olduğunuzu düşünün - A: 1920-1930 yılları arasında İngiliz cezaevlerinde erkekler arasında kolera ölümünden, B: Nijerya'da 1960-1970'de sıtmadan dolayı. Bu iki veri setinden bir p-değeri hesaplamak oldukça saçma olacaktır. Şimdi, eğer A: tedavi edilmeyen İngiliz hapishanelerindeki erkekler arasında koleralin ölüm oranı - B: yeniden hidrasyon ile tedavi edilen İngiliz hapishanelerindeki erkekler arasında koleralin ölüm oranı, o zaman sağlam bir istatistiksel hipotez için temeliniz vardır.

Çoğu zaman bu, dikkatli bir deney tasarımı veya dikkatli bir anket tasarımı veya tarihsel verilerin dikkatli bir şekilde toplanması vb. Yoluyla gerçekleştirilir. örnek varyansları veya diğer örnek istatistikler olabilir Stokastik baskınlığı kullanarak, iki örneklem dağılımını bir bütün olarak karşılaştıran hipotez ifadeleri oluşturmak da mümkündür. Bunlar nadir.

P-değerleri konusundaki tartışma, araştırma için "gerçekten neyin önemli olduğu" üzerine mi çıkıyor? Efekt boyutlarının girdiği yer burasıdır. Temel olarak, efekt büyüklüğü iki grup arasındaki farkın büyüklüğüdür. Yüksek istatistiksel anlamlılık (düşük p-değeri -> rastgele değişkenlik nedeniyle değil), aynı zamanda düşük etki büyüklüğü (büyüklükte çok az fark) olması mümkündür. Efekt boyutları çok büyük olduğunda, biraz yüksek p değerlerine izin vermek iyi olabilir.

Disiplinlerin çoğu, etki boyutlarını bildirmeye ve p-değerlerin rolünü azaltmaya veya minimize etmeye doğru hızla ilerlemektedir. Ayrıca örnek dağılımları hakkında daha açıklayıcı istatistikler teşvik ederler. Bayesian İstatistikleri de dahil olmak üzere bazı yaklaşımlar hep birlikte p-değerlerini ortadan kaldırır.


Cevabım yoğun ve basitleştirilmiş. Bu konuda, aşağıdakiler de dahil olmak üzere, daha fazla ayrıntı, gerekçeler ve ayrıntılar için başvurabileceğiniz birçok makale var:


@MerMeritology, bu önemli referansları verdiğiniz için teşekkür ederiz. En kısa zamanda onları okuyacağım!
Adam Robinsson 21:15

6

“Öyleyse benim gibi bir meslekten olmayanlar hipotezi olmayan hiçbir p değeri bulamamayı bekliyor.”

Örtülü olarak, OP sunduğu özel Tabloda rapor edilen p değerlerine eşlik eden hiçbir hipotez olmadığını söylemektedir. Sadece bu küçük kargaşayı gidermek için, kesinlikle boş hipotezler var, ama daha doğrusu ... dolaylı olarak bahsedilir (alan ekonomisi için, sanırım).

"P-değeri", "sağ kuyruk" testi için şartlı bir olasılıktır.

p-valP(Tt(S)H0)=1FT|H0(t(S)H0)

burada , kullanılıyordu kümülatif dağılım ilişkin ihtimalleri karakterize fonksiyonudur şartına doğru olan ve değeri olan ile elde edilen Eldeki örneğin kullanımı. Açıkçası, testin anlamlı olması için, istatistiki böyle olması ve boş hipotezin olması koşulunun, bağlı koşullu dağılımının doğru olduğu şekilde farklı olması (veya her ikisinin de ait olduğu durumlarda farklı şekilde parametrelenmesi) olması gerekir. Aynı aile) şartlı dağıtımındanF T | H 0 ( t H 0 ) T H 0 t ( S ) T T H 0 T H 0 H 0TFT|H0(tH0)TH0t(S)TTH0TH0H0 doğru olmamak.

Dolayısıyla , boş bir hipotez yoksa ve bir p değeri rapor edildiğinde, bir yerde boş bir hipotez gizlendiğinde bile bir p değeri hesaplanamaz .

Soruda sunulan Tabloda okuduk

"WHR tertilesindeki farklar için tüm testler ..."

Boş hipotezi bu cümleyle "gizlenir": matematiksel formunda ifade edilen "WHR tertiles" ("W tertR tertile" ne olursa olsun) arasında bir fark yoktur. sıfır.


Bu analizlerin arkasında hipotezler olabileceğine katılıyorum. Bununla birlikte, araştırma makaleleri için kılavuz hazırlayanlar (örneğin STROBE beyanı), p değerlerinin bolluğuna hitap etmelidir. Bir kağıdın (nadiren birden fazla olan) ana hipotezi için ap değerinin ayrılması gerektiğini düşünüyorum. Ama yine de, sana katılmıyorum
diyemem

1
@AdamRobinsson Hmmm ... Emin değilim. Böyle bir "ayrılmış" yaklaşım, bir p-değeri testinin gerçekten bir sonuca ulaşmak için sahip olduğu önemi şişirir (hatta daha fazla). Bana göre, başka birçok yön, sonuç, örnek dışı bilgi, mantık vb. İle birleştirilmesi gereken bir sonuç daha var. Sonuçlara ulaşmak için kesin bir kriter olmadığını fark etmek daha kolaydır.
Alecos Papadopoulos

Alecos, WRT yerine WHR (yani bel-kalça oranı) tertilesine atıfta bulunan tabloda farklı bir şey okudum; tertiller , dağılımı dört parçaya ayrılan değerlere sahip olması anlamında 3 parçaya bölen değerlerdir. deciles on parçaya.
Glen_b -Reinstate Monica

@Glen_b Teşekkürler, bu benim açımdan sadece bir yazım hatası oldu. Onu düzeltti.
Alecos Papadopoulos

2
Örneğin, buraya bakınız . Ama muhtemelen burada değil .
Glen_b

2

OP'nin örnek olarak verdiği makaleyi merak ettim ve okudum: Karın şişmanlığı kalça kırığı riskini arttırıyor . Ben tıbbi bir araştırmacı değilim ve normalde tıp makalelerini okumam.

p

pp

ppp

p

Soru özellikle bu tanımlayıcı tablolara atıfta bulunuyor gibi görünüyor. Eğer öyleyse, bu tıp dergilerinde biraz garip (ama çoğunlukla zararsız mı?) Bir pratiktir, gelenek nedeniyle hayatta kalır.


pn=43000


@ amoeba rando adlı bir makale seçtim; Bu dergide epidemiyolojide yayınlanan son makale oldu. Eminim biraz daha fazla araştırmış olsaydım daha fazla anlamsız p değeri olan bir makale sunabilirdim. Gördüğünüz gibi, bir p-valueitis var ama sizden ve yukarıdaki ve aşağıda verilen diğer cevaplar, araştırma topluluğunun bunu ele aldığı görülüyor.
Adam Robinsson 21:15

@Adam, sorunuzu (+1) ve Glen_b'in cevabını (+1) beğendim, ancak bu "rastgele seçilmiş" makale temsili ise, o zaman Glen_b'in yaptığı ve çoğu makaleye başvurduğu veya başvurmadığı birçok makale Tıbbi araştırmalarda sorduğun durum. Temsilci değilse, elbette yargılayamam.
amip diyor Reinstate Monica

Gerçekten de cevaplarınızdan birkaç kez çok büyük yardım aldım. Bu sorunu anladığımma dayanarak yargıda bulundum. Verilen tüm cevapların faydalı olduğuna inanıyorum ve soruyu kolektif olarak cevaplıyorlar.
Adam Robinsson 21:15

1

İstatistiksel hakem değerlendirmesi düzeyi benim tecrübelerime göre düşündüğüm kadar yüksek değil. Üzerinde çalıştığım tüm başvuru kağıtları için, tüm istatistiksel yorumlar istatistikçilerden değil, uygulama alanındaki uzmanlardan geldi. "En iyi" dergiler için, daha fazla inceleme olmasına rağmen, ciddi hataları olan sonuçları görmek nadir değildir. Bunun kısmen de olsa istatistik alanlarının zor olabileceğine inanıyorum (büyük zihinleri arasındaki anlaşmazlıklar tarafından görülebileceği gibi).

İkincisi, bir alandaki okuyucular işleri belli bir şekilde görmeyi bekler. Yakın tarihli bir deneyime göre, bir modelden olasılıklar çizdim, ancak bu durum düşürüldü, çünkü ortak çalışanım okurlarının ham veri çubuklarıyla daha rahat olacağını daha doğru tahmin etti. Özetle, birçok okuyucu, p-değerlerini bir temel özellikler tablosunun yanında görmeyi beklemektedir.

Doğrudan sorunuzla ilgisiz, ancak belki de ilgili: p-değerleri, sıkça veya olasılık yöntemleriyle hemen hemen her metinde kullanılır. Yazarlar çoğu zaman büyük katkılar yapmış ve istatistikler hakkında derinlemesine düşünmüşlerdir. Deneyciler tarafından kötüye kullanılmasına rağmen, kesinlikle istatistiklerde bir yeri var.


Bu yorumunuz için teşekkürler. İfadenizi daha da ileri götürebilirim; Yayınlanan bulguların inanılmaz derecede büyük bir kısmının çeşitli nedenlerle istatistiksel kusurlar içerdiğini düşünüyorum. Süpervizörüm sık sık "gözden geçirme işlemi bir centilmenin sözüne dayanıyor" diyor ve sanırım oldukça komik.
Adam Robinsson 21:15

1

Sık sık tıbbi makaleler okumak zorundayım ve sarkaçın merkezi dengeli bölgede kalmak yerine bir uçtan diğerine döndüğünü hissediyorum.

Aşağıdaki yaklaşım iyi iş gibi görünüyor. P değeri küçükse, gözlemlenen farkın sadece şans eseri olması muhtemel değildir. Dolayısıyla, farkın büyüklüğüne bakmalı ve bunun pratik bir önemi olup olmadığına karar vermeliyiz. Çok küçük P değerleri, büyük örneklem büyüklüklerinde bile, pratik önemi olmayan çok küçük farklarda bile ortaya çıkar.

Temel veriler tablosundaki P değerlerinin dahil edilmemesi dezavantajlı olabilir. Yani bir çalışmada ortalama yaşları 54 ve 59 olan iki grup varsa, bu farkın yalnızca şans eseri olup olmadığını bilmek istiyorum. P küçükse o zaman 2 gruptaki bu 5 yıllık farkın çalışmanın sonuçlarını etkileyip etkilemeyeceğini düşünüyorum. P küçük değilse, bu soruyu cevaplamak zorunda değilim.

Sorun yalnızca P değerine dayanıyorsa ve farkın büyüklüğünü kontrol etmiyorsa (örneğin, basit yüzde değişim) sorun oluşur. Bazıları P değerlerinin tamamen göz ardı edilmesi gerektiğini, bu nedenle yalnızca farkın kaldığını ve görüleceğini düşünüyor. Dengeli bir çözüm, her ikisinin de değerlendirilmesine vurgu yapmak ve sınırlı ancak 'anlamlı' bir anlamı olan P değerini atmamak için olacaktır. Etki büyüklüğünün P değeriyle de yakından ilişkili olması muhtemeldir (güven aralıkları gibi) ve P değerlerini istatistiksel açıdan tamamen değiştirmesi de muhtemel değildir. Aşağıdaki makalede bahsedildiği gibi, popüler olduğu için boş hipotez testinin birçok erdemleri vardır:

ANTON G. Psikofizyoloji, 33 (1996). 175-183.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.