Bir 'p-değerinin tam değeri anlamsız mıdır?


31

Bir p değerinin kesin değerinin alakasız olduğunu belirttiği bir istatistikçi ile 2009'da bir tartışma yaptım: Önemli olan tek şey, önemli olup olmadığı. Yani bir sonuç diğerinden daha önemli olamaz; örneğin numuneleriniz aynı popülasyondan geliyor veya yok.

Bununla ilgili bazı özelliklere sahibim, ama belki de ideolojiyi anlayabilirim:

  1. % 5 eşiği keyfidir, yani p = 0.051 anlamlı değildir ve p = 0.049, bir sonucun önemli olmasına rağmen diğerinin anlamlı olmamasına rağmen gözlem veya deneyinizin sonucunu gerçekten değiştirmemelidir.

    Bunu şimdi ortaya çıkarmamın sebebi, Biyoinformatik alanında yüksek lisans için çalışmam ve alandaki insanlarla konuştuktan sonra, yaptıkları her istatistik için kesin bir p değeri elde etmek için kararlı bir sürücü olduğu görülüyor. Örneğin, eğer p <1,9 × 10 -12 p değeri elde ederse , sonuçlarının NASIL olarak önemli olduğunu ve bu sonucun SÜPER bilgilendirici olduğunu göstermek isterler. Bu sorun, aşağıdaki gibi sorularla örneklenmiştir: Neden 2.2e-16'dan küçük bir p değeri alamıyorum? Bu nedenle, tek başlarına, tesadüfen bunun bir trilyonda 1'den daha az olabileceğini gösteren bir değer kaydetmek istiyorlar. Ancak bu sonucun milyarda 1'e karşılık bir trilyonda 1'den az olacağını göstermekte çok az fark görüyorum.

  2. O zaman, p <0.01'in bunun ortaya çıkma şansının% 1'den daha az olduğunu gösterdiğini takdir edebilirim, oysa ki p <0.001, bunun gibi bir sonucun, yukarıda belirtilen p değerinden bile daha düşük olduğunu gösterir, farklı? Sonuçta ikisi de önemli p değerleridir. Kesin p değerini kaydetmek istediğimi düşünebilmemin tek yolu Bonferroni düzeltmesi sırasında yapılan eşik değerinin değişmesidir. Fakat yine de, neden eşik öneminizden daha küçük 12 derecelik bir p değeri göstermek istersiniz?

  3. Ve Bonferroni düzeltmesini kendi içinde de biraz keyfi kullanmıyor musunuz? Başlangıçta düzeltmenin çok muhafazakar olduğu düşünülür ve bu nedenle gözlemcinin çoklu karşılaştırmaları için kullanabileceği önem seviyesine erişmeyi seçebilecek başka düzeltmeler de vardır. Ancak bu nedenle, araştırmacının kullanmak istediği istatistiklere bağlı olarak bir şeyin önemli ölçüde önemli olduğu nokta değil. İstatistikler yorumlamaya çok açık olmalı mı?

Sonuç olarak, istatistikler daha sübjektif olmamalı (sübjektif olma ihtiyacının çok değişkenli bir sistemin bir sonucu olduğunu tahmin etmeme rağmen), ama sonuçta biraz açıklığa kavuşturmak istiyorum: bir şey başka bir şeyden daha önemli olabilir mi? Ve p <0.001, kesin p değerini kaydetmeye çalışmak için yeterli olacak mı?



4
Gevşek bir şekilde ilgili: Soruya cevabım Fisher ve Neyman-Pearson çerçevesini ne zaman kullanacağımı , her çerçevenin rolü olduğunu savunuyorum. Buradaki pozisyonumu koruyarak, kesin p-değerlerinin NP çerçevesinde önemli olmayacağını söyleyeceğim, ancak Balıkçılı çerçevesinde bulunabileceğini söyleyebilirim (bildirilen basamak sayısının gerçekte güvenilir olduğu ölçüde).
gung - Reinstate Monica

Bazı istatistikçilerin, genellikle yanlış sorunun doğru cevabı olduğu durumlarda, bir p-değeri kavramına ne kadar bağlı kalmaları şaşırtıcıdır. Diyelim ki p değerleri herhangi bir istatistik yazılımı paketinde uygulanmadı. İnsanların bunu almak için kendi kodlarını yazacaklarından şüpheliyim.
Olasılık

3
@probabilityislogic - İstatistiksel dişlerimi permütasyon testlerinde kestikten sonra, p-değerleri bu durumda düşünmenin çok doğal bir yoludur, bu yüzden eğer olmasaydı onları almak için kendi kodumu yazabilirim ... Testler yaptığım zaman çok nadir görülen durumlar, genellikle simülasyon veya yeniden örnekleme gerektiren bazı atipik durumlar içindir, aslında bunu yapmaya meyilli olduğumu buldum. Bunun yerine hipotez testlerinin genellikle yanlış soruyu cevapladığını söylemeye meyilliyim. Nadiren yaptıkları zaman, değerlerinin olduğunu düşünüyorum (en azından, diğer insanlar benim önem seviyeme bağlı değildir).
Glen_b

@glen_b - p-değerleri ile ilgili sorunum, alternatifleri görmezden geldikleri için herhangi bir hipotez testine "cevap" vermemesidir. Sadece bir numara ile sınırlandırılmışsanız, veri olasılığının değeri p-değerinden (p ile aynı problemlere sahip olmanın yanı sıra) çok daha iyi bir istatistiktir. Bu şekilde insanlar seçtiğiniz test istatistiği seçimine bağlı değildir (ek olarak eşiğiniz tarafından sınırlandırılmamasına ek olarak).
Olasılık

Yanıtlar:


24
  1. 1 / false reddetme hata oranı tamamen keyfi değil , ama evet, yakın. Α = 0,051'e göre daha çok tercih edilir çünkü bilişsel olarak daha az karmaşıktır ( yuvarlak sayılar ve beşin katları gibi insanlar ). Şüphesizlik ve pratiklik arasında iyi bir uzlaşma olsa da, belki biraz modası geçmiş olsa da - modern yöntemler ve araştırma kaynakları standartlar olması gerekiyorsa daha yüksek standartları (örneğin düşük p değerleri) tercih edebilir. ( Johnson, 2013 ) .α=.05α=0,051p

    IMO, eşik seçiminden daha büyük sorun, gerekli veya yararlı olmadığı bir eşik kullanmak için genellikle incelenmemiş bir seçimdir. Pratik bir seçim yapılması gereken durumlarda, değeri görebiliyorum, ancak birçok temel araştırma, bir kanıtı reddetme kararını zorunlu kılmamakta ve verilen bir numunenin kendisine yönelik kanıtlarının yetersiz kalması nedeniyle boş bırakma ihtimalinden vazgeçmek zorunda kalmamaktadır. neredeyse her makul eşikten. Oysa bu kadar araştırmanın yazarlarından onların izleyicileri genellikle umurumda değil çünkü kaymaya hissedebiliyorum zaman dikkatini çekmek için dilenmek "marjinal" önemi gibi terimler icat, kongre bunu, ve rahatsız buna karşı almak zorunda hissetmeyin s . 05 .p.05pdeğer yorumlaması, değerleriyle ilgili ikili / kararlarla p değerlerinin yorumlanması konusunda çok fazla ayrılık göreceksiniz .pfail toreject

  2. ppp

    p

  3. α

    p

fail torejectpdeğerleri bildirildi mi? (ve neden R, 2.22e-16'ya bir minimum koyar?) "- Yığın Taşması ile bağlantılı olduğunuz bu sorunun versiyonuna verilen cevaplardan çok daha iyidir!

Kaynaklar
- Johnson, VE (2013). İstatistiksel kanıtlar için gözden geçirilmiş standartlar. Ulusal Bilimler Akademisi'nin Bildirileri, 110 (48), 19313–19317. Http://www.pnas.org/content/110/48/19313.full.pdf adresinden alındı .
- Lew, MJ (2013). P'ye veya P'ye değil: P değerlerinin kanıt niteliği ve bilimsel çıkarımdaki yerleri hakkında. arXiv: 1311.0081 [stat.ME]. Http://arxiv.org/abs/1311.0081 adresinden alındı .


3
+1, burada çok iyi düşünceler var. 1 kelime oyunu olsa, 1. re, ben sık sık olmalıdır söyleyebilirim alt standartları (yani yüksek tercih olarak p-değerleri). Bir şeyi incelemek için yeterli güce sahip olmak için yeterli veriyi bulmak genellikle zordur. Nadir bir durumu araştırmak isteyen doktorlar için bir dizi güç analizi yaptım. 'Bu gerçekten anlaşıldı, yeni bir yaklaşım için bir fikrim var, önümüzdeki iki yıl içinde muhtemelen 50 hasta bulabiliriz' diyorlar ve 'gücünüz% 45 olacak' diyorum. terk etti. Eğer p <0,05 ya da daha az ise, nadir hastalıklar anlaşılmaya devam edecektir.
gung - Reinstate Monica

2
@gung: Tamamen katılıyorum. Johnson (2013) 'a atıfta bulundum, çünkü onun argümanının farkındaydım, onunla aynı fikirdeyim çünkü :) IMO, tarif ettiğiniz kaygılara karşı esnek olmayan ve duyarsız olan geleneksel bir standarda sahip (benim # 3) 'e verilen cevap temel sorunlardan biridir ve yukarı ya da aşağı ayarlanması sorunu çözmeyecektir. Sert ve hızlı bir karar fail to/ rejectkarar için gerçek bir ihtiyaç olmadığı zaman, bir kanıtının ne kadar değerli olduğuna karar vermenin, verilen boşluğa verilen örneklem olasılığından daha fazla olduğuna karar vermenin daha iyi olacağını düşünüyorum.
Nick Stauner

4
Mükemmel tartışma Bazı alaka düzeyinin ilginç bir makalesi Gelman ve Stern’dir. “Önemli” ve “anlamlı olmayan” arasındaki fark, istatistiksel olarak anlamlı değildir (daha sonra Amerikan İstatistikçisi’nde 2006’da yayınlanmıştır). anlamsız olmakla birlikte, p-değerlerinin karşılaştırılmasına çok önem verilmesi konusunda güçlü bir dikkat notu ekleyecektir (örneğin, etki tahminleri yerine). Gelman, bununla ilgili sorunları sıkça blogunda tartıştı.
Glen_b -Reinstate Monica,

2
ppp

2
Gelman bir bağlantı sağlar görünüyor pdf aynı zamanda onun sitesinde yayınlanan kağıt.
Glen_b -Reinstate Monica

13

Bana öyle geliyor ki, eğer bir değer anlamlıysa, kesin değer anlamlıdır.

P değeri bu soruyu yanıtlar:

Eğer, bu örneğin rastgele çizildiği popülasyonda, boş hipotez doğruysa, en azından örneklemde bulunduğumuz kadar aşırı bir test istatistiği alma olasılığı nedir?

Peki ya bu tanım anlamsız bir değere sahip?

Bu, p'nin aşırı değerleri ile ilgili olanlardan farklı bir sorudur. P'yi içeren 0 ifadelerinin sorunu, aşırı uçlarda p'yi ne kadar iyi tahmin edebileceğimizle ilgilidir. Bunu çok iyi yapamadığımızdan, p'nin bu kadar kesin tahminlerini kullanmanın bir anlamı yoktur. Bu, p = 0.0319281010012981 olduğunu söylemememizin aynı nedenidir. Bu son rakamları güvenle bilmiyoruz.

Sonuçlarımız p <0.05 yerine p <0.001 ise farklı mı olmalı? Veya kesin sayıları kullanmak için, p = 0.035 yerine p = 0.00023 ise, sonuçlarımız farklı mı olmalı?

Bence sorun genellikle p hakkında bir şeyleri nasıl sonuçlandırdığımızla ilgilidir. Bazı keyfi seviyelere dayanarak "anlamlı" veya "anlamlı değil" diyoruz. Eğer bu keyfi seviyeleri kullanırsak, o zaman evet, sonuçlarımız farklı olacaktır. Fakat bu, böyle şeyler hakkında düşünmemiz gerektiği gibi değil. Kanıtın ağırlığına bakıyor olmalıyız ve istatistiksel testler bu kanıtların sadece bir kısmı . Robert Abelson'un "MAGIC kriterleri" ni bir kez daha ekleyeceğim:

Büyüklük - etkisi ne kadar büyük?

Artikülasyon - ne kadar kesin olarak ifade edilir? Çok fazla istisna var mı?

Genel - hangi gruba uygulanır?

İlginçlik - insanlar umursar mı?

Güvenilirlik - anlamlı mı?

Önemli olan tüm bunların birleşimidir. Abelson'un p değerlerinden hiç bahsetmediğini, ancak bir tür büyüklük ve eklemlenme melezi olarak geldiklerini unutmayın.


5
Sık sık söylemiyoruz, ancak teknik olarak p-değeri yalnızca "boş hipotez doğruysa, örnek tahminimiz doğruysa" en azından örneklemde elde ettiğimiz en yüksek düzeyde bir test istatistiği alma olasılığı "hakkında bir şeyler yansıtıyor. Nüfus varyansının oranı tamamen doğrudur ve testimizin diğer tüm varsayımlarını karşılıyoruz. Önyükleme yoluyla bazı p değerlerinin etrafına bazı güven aralıklarını attığınızı ve sık sık yüzlerce mekan için kendimizden emin olmadığımızı göreceğinizi düşünüyorum.
russellpierce

2
Kısacası, bir p-değerini ölçmeye çalışmak, gerçekten (ne demek istediğinizi) MAGIC'e geri dönmemiz gerektiğinde karşı üretkendir.
russellpierce

İtiraf etmeliyim ki, p değerlerinin etrafına güven aralıklarını (veya güvenilirlik aralıklarını) koymayı düşünmemiştim. Bu alanda ne kadar yapıldığını merak ediyorum?
Peter Flom - Eski Monica

2
Kullanışlı bir alıntıya sahip değilim, ancak bu satırlar boyunca iş olduğunu biliyorum - ne olursa olsun, yapılacak akademik bir şey, çünkü güven aralıklarınızın güven aralıklarını, reklam aralıklarının neredeyse sonsuz olduğunu (maksimumları var) yapabilirsiniz. herhangi bir veri kümesinden makul olarak tahmin edilen varyans). Bir zamanlar @Nick Stauner ile bu hatlar boyunca oldukça uzun ve ayrıntılı bir konuşma yaptım. Yine de bu konuşma sırasında masaya getirmek için çıkardığı bazı makaleleri alabilir.
russellpierce

1
Hatırladığım p değerleri için güven aralıklarında hiçbir şey yok , ancak bu bölümleri gözden kaçırmış olabilirim. P değerleri için de güven aralıkları yapmak
istemedim
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.