Küçük p değerleri daha ikna edici midir?


31

Ben okuyordum -değerlerinin, tip 1 hata oranları, anlamlılık düzeyleri güç hesaplamaları, efekt boyutları ve Neyman-Pearson tartışma vs Fisher. Bu beni biraz bunalmış hissetmeme neden oldu. Metin duvarı için özür dilerim, ancak şu anki sorularıma geçmeden önce bu kavramlarla ilgili şu anki anlayışımı gözden geçirmenin gerekli olduğunu hissettim.p


Topladığım şeye göre, bir değeri basit bir sürpriz ölçüsüdür, sıfır hipotezinin doğru olduğu göz önüne alındığında, en azından en uç düzeyde bir sonuç alma olasılığı. Fisher başlangıçta sürekli bir ölçü olması için tasarlandı.p

Neyman-Pearson çerçevesinde, önceden bir önem seviyesi seçer ve bunu (keyfi) bir kesme noktası olarak kullanırsınız. Anlamlılık seviyesi, tip 1 hata oranına eşittir. Uzun çalışma frekansı ile tanımlanır, yani bir deneyi 1000 kez tekrarlarsanız ve boş hipotez doğruysa, bu denemelerin yaklaşık 50'si örneklem değişkenliği nedeniyle önemli bir etkiye neden olur. Bir anlamlılık düzeyi seçerek, kendimizi bu yanlış pozitiflere karşı kesin bir olasılıkla koruyoruz. değerleri geleneksel olarak bu çerçevede görünmez.P

Biz bulursanız 0,01 değeri, bu mu değil tip 1 hata oranı 0.01 olduğu anlamına, tip 1 hata önsel belirtilmektedir. Bunun Fisher ve NP tartışmalarındaki ana argümanlardan biri olduğuna inanıyorum, çünkü değerleri genellikle 0,05 *, 0,01 **, 0,001 *** olarak bildiriliyor. Bu etki belli anlamlı olduğunu söyleyerek insanları yanlış yönlendirebilir yerine belirli bir önemi değerde arasında-değeri.ppp

Ayrıca değerinin örneklem büyüklüğünün bir işlevi olduğunu da fark ettim . Bu nedenle mutlak bir ölçüm olarak kullanılamaz. Küçük bir değeri büyük bir örnek deneyinde küçük, alakalı olmayan bir etkiye işaret edebilir. Buna karşı koymak için, denemeniz için örnek boyutunu belirlerken güç / etki büyüklüğü hesaplaması yapmak önemlidir. değerleri bize bir etkisinin olup olmadığını söyler, ne kadar büyük olduğunu değil. Sullivan 2012'ye bakınız .ppP

Sorum şu: değerinin bir sürpriz ölçüsü olduğu (daha küçük = daha ikna edici) olduğu gerçeğini nasıl uzlaştırıp aynı zamanda mutlak bir ölçüm olarak görülemez?p

Aşağıdaki Ne hakkında karıştı şöyledir: biz küçük bir daha emin olabilir büyük olandan-değeri? Balıkçı anlamında, evet derdim, daha şaşırdık. NP çerçevesinde, daha küçük bir önem seviyesi seçmek, kendimizi yanlış pozitiflere karşı daha güçlü bir şekilde koruduğumuz anlamına gelir.p

Ancak diğer taraftan, değerleri örneklem büyüklüğüne bağlıdır. Mutlak bir ölçü değiller. Dolayısıyla 0.001593'ün 0.0439'dan daha önemli olduğunu söyleyemeyiz. Yine de, Fisher'ın çerçevesi içinde ima edilecek olan şey: bu kadar aşırı bir değere daha çok şaşırırız. Bir yanlış isim olma terimiyle ilgili çok önemli bir terim bile var : Sonuçları "çok önemli" olarak adlandırmak yanlış mı?p

Bazı bilim alanlarındaki değerlerinin yalnızca 0.0001'den küçük olduklarında önemli olarak kabul edildiğini duydum , oysaki diğer alanlarda 0.01 değerinin çok önemli olduğu kabul edildi.p

İlgili sorular:


Ayrıca, "anlamlı" bir p değerinin size teoriniz hakkında hiçbir şey söylemediğini unutmayın. Bu, en ateşli savunucular tarafından bile kabul edilir: İstatistiki önemin kesinliği: Gerekçe, geçerlilik ve fayda. Siu L. Chow. DAVRANIŞ VE BEYİN BİLİMLERİ (1998) 21, 169–239 Veriler delile dönüştürüldüğünde yorumlanır. Varsayımlar, bir yorumlamanın numaralandırılması ve ardından mümkünse kontrol edilmesi gerektiği üzerine kuruludur. Ne ölçülüyor?
Livid

2
+1, ancak soruyu odaklamanızı ve yan soruları kaldırmanızı öneririm. Neden bazı kişilerin güven aralıklarının p-değerlerinden daha iyi olduğunu iddia ettiklerini merak ediyorsanız, ayrı bir soru sorun (daha önce sorulmadığından emin olun).
amip diyor Reinstate Monica

3
Bunun dışında, sorunuz nasıl bir kopyası değil? Neden düşük p değerleri boşa karşı daha fazla kanıt değil? Bu ipliği gördün mü? Belki de gönderinizin sonundaki listeye ekleyebilirsiniz. Benzer bir soruya bakınız. P-değerlerini birbirleriyle karşılaştırmanın anlamı nedir? , ama bu konuyu önermekte isteksizim çünkü kabul edilen cevap IMHO yanlış / yanıltıcı (yorumlarda tartışmaya bakınız).
amip diyor Reinstate Monica

2
Gelman, p değerleri hakkında söylenecek çok şey var. örneğin 1. burada (Gelman ve Stern, Am.Stat. 2006 pdf) , 2. burada blogunda , 3. yine blogunda ve belki de 4. burada (Gelman, 2013 başka bir makale üzerine yorum yaptı, pdf)
Glen_b - Monica

2
Bağlantılar için teşekkürler, @Glen_b; Gelman ve Stern gazetesini iyi tanıyorum ve sıklıkla kendimden bahsettim, ancak bu 2013 bildirisini veya daha önce tartışmasını görmedim. Bununla birlikte, OP'yi, Gelman ve Stern'i sorusu bağlamında yorumlama konusunda uyarmak istiyorum. G&S, ve 10 ± 10 olarak bir etkisi olduğunu tahmin eden iki çalışma ile güzel bir örnek sunar ; bir durumda p < 0.01 , diğerinde p > 0.05 , ancak tahminler arasındaki fark anlamlı değildir. Bu akılda tutulması önemlidir, ancak eğer şimdi OP'den sonra ilk çalışmanın daha ikna edici olup olmadığını soruyoruz, kesinlikle evet derdim. 25±1010±10p<0.01p>0.05
amip diyor Reinstate Monica

Yanıtlar:


18

Küçük değerleri "daha inandırıcı" mı? Evet, elbette onlar.p

Fisher çerçevesinde değeri, sıfır hipotezine karşı kanıt miktarının bir ölçümüdür. Kanıtlar az ya da çok ikna edici olabilir; p değeri ne kadar küçükse o kadar inandırıcıdır. Sabit örneklem büyüklüğü n ile yapılan herhangi bir deneyde , p- değerinin @Scortchi'nin cevabında güzel bir şekilde belirttiği gibi, etki büyüklüğü ile tekdüze olarak ilişkili olduğuna dikkat edin (+1). Böylece daha küçük p değerleri daha büyük etki boyutlarına karşılık gelir; Tabii onlar daha inandırıcı!ppnpp

Neyman-Pearson çerçevesindeki amaç ikili bir karar almaktır: ya kanıtlar "önemli" ya da değil. eşiğini seçerek, α yanlış pozitifinden daha fazlasına sahip olmayacağımızı garanti ederiz . Aynı verilere bakarken farklı insanların aklında farklı α olabileceğini unutmayın; belki de şüpheci olduğum bir alandan bir makale okuduğumda, kişisel olarak "önemli" bir sonuç olarak görmezdim, örneğin yazarlar onları önemli olarak adlandırsa bile, p = 0.03 . Kişisel α’m 0.001 olarak ayarlanmış olabilir . Açıkçası rapor edilen p düşükαααp=0.03α0.001pdeğer, daha şüpheci okuyucular ikna etmek mümkün olacak! Bu nedenle, daha düşük bir -değerleri daha inandırıcı.p

Şu anda standart uygulama, Fisher ve Neyman-Pearson yaklaşımlarını birleştirmektir: , sonuçlar "anlamlı" olarak adlandırılır ve p- değeri [tam olarak veya yaklaşık olarak] rapor edilir ve inandırıcılık ölçüsü olarak kullanılır (işaretleyerek yıldızlarla, ifadeleri "son derece anlamlı" olarak kullanma, vb.); eğer p > α , ardından sonuç "önemli değil" denir ve bu kadar.p<αpp>α

Bu genellikle "hibrit yaklaşım" olarak adlandırılır ve gerçekten de hibrittir. Bazı insanlar bu melezin tutarsız olduğunu; Ben aynı fikirde değilim. Aynı anda iki geçerli şey yapmak neden geçersiz?

Daha fazla okuma:


1
(+1) Fakat Michael Lew'in makalesinin 4.4. Bölümüne bakın: bazıları, farklı örnekleme alanlarına sahip deneylerden elde edilen p değerleri karşılaştırılırken fark yaratan, p-değeri ile olan kanıt miktarını eşitlemek yerine tercih eder. Bu yüzden kanıtları / olasılıkları "endekslemek" veya "kalibre etmek" hakkında konuşurlar.
Scortchi - Monica’yı yeniden kurun

Üzgünüm, demek istediğim, daha doğrusu, bu görüşe göre, bir parametrenin alabileceği farklı değerler için göreceli "kanıt" (veya "destek"), gözlemlenen veriler için değerlendirilen olasılık fonksiyonlarının oranıdır. Öyleyse Lew'in örneğinde, altı fırlatmadan bir kafa, örnekleme planının binom veya negatif binom olup olmadığına bakılmaksızın, sıfır hipotezine karşı aynı kanıtıdır; Yine de, p değerleri farklıdır - bir örnekleme şeması altında boşluğa karşı daha fazla kanıt toplamanın daha az olası olduğunu söyleyebilirsiniz. ( "Delil" sözcüğü ders hakları içinde olduğu gibi "önemli", ...
Scortchi - Eski Monica

... henüz kesin olarak kurulmamıştır.)
Scortchi - Monica’yı yeniden yerleştir

Hmmm, bu bölüme dikkatimi çektiğiniz için teşekkür ederiz; Daha önce okudum ama görünüşe göre önemini kaçırdım. Şunu söylemeliyim ki şu anda kafam karıştı. Lew, durdurma kuralları dikkate alınarak p değerlerinin "ayarlanmaması" gerektiğini belirtir; fakat 5-6 formüllerinde herhangi bir ayar göremiyorum. "Düzeltilmemiş" p değerleri ne olur?
amip diyor Reinstate Monica

1
@ Scortchi: Hmmm. Neden gerçekten bu p-değerlerinden birinin “ayarlı” olduğunu, diğeriyse anlamıyorum; neden tam tersi değil? Lew'in buradaki argümanıyla ikna olmadım ve bunu tam olarak anlamadım. Bunu düşünerek, Lew'in 2012'den beri olabilirlik ilkesi ve p değerleri hakkındaki sorusunu buldum ve oraya bir cevap gönderdim. Mesele şu ki, farklı p değerleri almak için farklı durma kurallarına ihtiyaç duyulmuyor; biri sadece farklı test istatistiklerini düşünebilir. Belki orada konuşmaya devam edebiliriz, katılımınızı takdir ediyorum.
amip diyor Reinstate Monica

9

Küçük p değerlerinin "daha iyi" olması veya bizim "onlara daha fazla güvenilmesi" ile ne anlama geldiğini bilmiyorum. Ancak, p-değerlerini, boş hipoteze inandığımızda, verilere göre ne kadar şaşırmamız gerektiğinin bir ölçüsü olarak görmek yeterince makul görünüyor; p değeri, seçtiğiniz test istatistiklerinin monotonik bir işlevidir.Boş hipotez ile uyuşmazlığı ilginizi çeken bir yönde ölçmek, bir populasyondan ilgili bir örnekleme prosedürü altında kendi özelliklerine göre kalibre etmek veya rastgele bir deneysel tedavi ataması yapmak. "Önem", p-değerlerinin belirli bir değerin altında veya üstünde olmasını ifade etmek için teknik bir terim haline gelmiştir; Bu nedenle, anlamlılık düzeylerini belirleme ve hipotezleri kabul etme veya reddetme konusunda ilgisi olmayanlar bile “son derece önemli” gibi ifadelerden kaçınma eğilimindedir;

P-değerlerinin örneklem büyüklüğü ve etki büyüklüğüne olan bağımlılığı ile ilgili olarak, belki de bazı karışıklıklar ortaya çıkmaktadır. Örneğin, 1000 atıştan 474 başın, madeni paranın adil olduğunu düşünen birine göre 10'un 2'sinden daha az şaşırtıcı olması gerektiği anlaşılabilir. örneklem oranı önceki durumda sadece% 50'den biraz sapıyor - yine de p değerleri yaklaşık olarak aynı. Ancak doğru veya yanlış derece derecelerini kabul etmeyin; p-değeri ne isteniyorsa yapıyor: genellikle bir parametrenin güven aralıkları, bir etkinin ne kadar kesin olarak ölçüldüğünü ve tahmin edilen büyüklüğünün pratik veya teorik önemini değerlendirmek için gerçekten istenen şeydir.


1
p=0.04p=0.000004

1

Yorumlarınız ve önerilen okumalar için teşekkür ederiz. Bu soruna karar vermek için biraz daha zamanım oldu ve ana karışıklık kaynaklarını yalıtmayı başardığımı düşünüyorum.

  • Başlangıçta p-değerini bir sürpriz ölçüsü olarak görmek ile mutlak bir ölçüt olmadığını belirten bir ikilik olduğunu düşündüm. Şimdi bu ifadelerin mutlaka birbiriyle çelişmediğini fark ediyorum. Birincisi, aynı deneyin diğer varsayımsal sonuçlarına kıyasla, gözlenen etkinin ekstrüzyonunda (hatta olasılıksızlık?) Daha fazla ya da daha az kendimize güvenmemizi sağlar. Bununla birlikte, ikincisi bize sadece bir deneyde ikna edici bir p değeri olarak kabul edilebilecek olanın, başka bir örnekte etkileyici olamayacağını, örneğin örneklem büyüklüklerinin farklı olduğunu söyler.

  • Bazı bilim alanlarının farklı bir güçlü p-değer taban çizgisi kullanması, ortak örneklem büyüklüklerindeki (astronomi, klinik, psikolojik deneyler) farklılığın bir yansıması ve / veya etki büyüklüğünü bir değer. Ancak ikincisi, ikisinin yanlış bir birleşimidir.

  • Önem, deneyden önce seçilen alfaya dayalı evet / hayır sorusudur. Bu nedenle, bir p değeri, seçilen anlamlılık seviyesinden daha küçük veya daha büyük olduklarından, diğerinden daha önemli olamaz. Öte yandan, daha küçük bir p değeri daha büyük olandan daha ikna edici olacaktır (ilk adımda belirtildiği gibi benzer bir örneklem büyüklüğü / aynı deney için).

  • Güven aralıkları doğal olarak etki büyüklüğünü taşır ve yukarıda belirtilen sorunlara karşı korunmalarını sağlar.


0

P değeri bir sürpriz ölçüsü olamaz, çünkü yalnızca boş değer geçerli olduğunda bir olasılık ölçüsüdür. Boş değer true ise, her olası p değeri eşit derecede muhtemeldir. Boş olanı reddetmeye karar vermeden önce herhangi bir p-değerinde sürpriz olamaz. Biri bir karar verdiğinde, p değerinin anlamı ortadan kalkar. Bunlardan biri, yalnızca boşluğun reddini haklı çıkarmak ya da değil haklı çıkarmak için nispeten zayıf bir endüktif zincirdeki bir bağlantı olarak rapor eder. Ancak reddedildiyse, aslında artık bir anlamı yoktur.


? Boş ancak, bu sadece sürekli rastgele değişkenler için geçerlidir düşünüyorum '' o zaman her p-değeri eşit olasılıkla doğrudur aslında" için 1

P 'nin her "olası" değerinin eşit derecede muhtemel olduğunu söylemiştim. Yani bu gizli veya sürekli değişkenler için geçerlidir. Gizli değişkenlerde, olası değerlerin sayısı daha düşüktür.
John,

H0

Öncü cevabın bunun sorun olmadığını gösterdiğine inanıyorum. Dağılımın düzensiz görünmesinin nedeni, olası p değerlerinin eşit aralıklarla olmamasıdır. Glenn bile yarı üniforma diyor. Küçük N'lere sahip çok seyrek binom veri testleri ile belki de belirli p-değerleri olasılığının eşit olmadığı, ancak belirli bir aralıktaki p-değerleri olasılığını göz önüne alırsanız, tekdüzeye yakın olacağını düşünmekteyim.
John,

1
@ amoeba: Diyelim ki bahsettiğiniz t-testi testlerini söylüyor.H0:μ=0.5p=0.0000000004H0:μ=0.45p=0.0000000001μ=0.45
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.