Neden düşük p değerleri boşa karşı daha fazla kanıt değil? Johansson 2011'den Bağımsız Değişkenler


31

Johansson (2011) " İmkansızları selamla: p-değerleri, kanıtlar ve olabilirlik " (ayrıca dergi ile bağlantı da buradadır ), düşük -değerlerinin çoğu zaman null'a karşı daha güçlü kanıtlar olarak kabul edildiğini belirtir . Johansson onların istatistik testi çıktısı eğer insanlar daha güçlü olması için boş aleyhindeki kanıtları dikkate alacağını ima ait -Değer onların istatistik testi outputted eğer daha arasında -Değer . Johansson, değerinin null değerine karşı delil olarak kullanılamamasının dört sebebini listeler :p 0.01 p 0.45 ppp0.01p0.45p

  1. p , boş hipotez altında eşit olarak dağılmıştır ve bu nedenle boş değer için asla kanıt gösteremez.
  2. p , yalnızca boş hipoteze göre koşullandırılır ve bu nedenle kanıtları ölçmek için uygun değildir, çünkü kanıtlar her zaman başka bir hipoteze göre bir hipoteze yönelik kanıt olma anlamında görecelidir.
  3. p , kanıtların gücünden ziyade kanıt alma olasılığını (sıfır olarak verilir) belirler.
  4. p gözlemlenmemiş verilere ve öznel niyetlere dayanır ve bu nedenle, kanıtlara göre yorumlandığında, gözlemlenen verilerin kanıtlayıcı gücünün gerçekleşmeyen şeylere ve öznel niyetlere bağlı olduğunu ima eder.

Ne yazık ki Johansson'un makalesinden sezgisel bir anlayış alamıyorum. Bana göre bir ait-değeri boş bir daha doğrudur az şans olduğunu gösterir ait-değeri . Neden düşük değerleri null'a karşı daha güçlü kanıtlar değildir? 0.01 p 0.45 pp0.01p0.45p


Merhaba, Luciano! Görüyorum ki bu konuda herhangi bir cevap kabul etmediniz. Ne tür bir cevap arıyorsunuz? Sorunuz öncelikle Johannson'un argümanları hakkında mı, yoksa genel olarak daha düşük p değerleri mi?
amip diyor Reinstate Monica

Bunların hepsi Fisher-Neyman-Pearson sık sık çerçeveleriyle ilgilidir. @Gung tarafından bu cevapta daha fazlasını görün .
Firebug

Yanıtlar:


21

Argümanlarını benim kişisel değerlendirmem:

  1. Burada, Null için kanıt olarak kullanılmasından bahsediyor , tezi ise Null'a karşı kanıt olarak kullanılamayacağı yönünde. Bu nedenle, bu argümanın büyük oranda alakasız olduğunu düşünüyorum.ppp
  2. Bunun bir yanlış anlaşılma olduğunu düşünüyorum. Fisherian testi, bir teoriyi destekleyemeyeceğinizi ancak eleştirdiğiniz anlamına gelen Popper'ın Eleştirel Rasyonalizmi fikrini kuvvetle takip ediyor. Yani bu anlamda sadece tek bir hipotez (Boş) vardır ve verilerinizin buna uygun olup olmadığını kontrol edersiniz.p
  3. Burada aynı fikirde değilim. Test istatistiğine bağlıdır ancak genellikle Null'a karşı konuşan etki büyüklüğünün bir dönüşümüdür. Bu nedenle etki ne kadar yüksek olursa, p değeri o kadar düşük olur - diğer tüm şeyler eşit. Tabii ki, farklı veri kümeleri veya hipotezleri için bu artık geçerli değil. p
  4. Eminim tamamen bu sözleri anlamıyor, ama ben ne toplayabilir gelen bu az bir sorundur yanlış onu kullanan insanların olduğu. uzun vadeli frekans yorumuna sahipti ve bu bir hata değil bir özelliktir. Ama suçlayamazsın tek alarak insanlar için sadece yayıncılık kendi hipotezi için kanıtı olarak değer veya kişiler . p p p p < .05ppppp<.05

Olasılık oranını bir kanıt ölçüsü olarak kullanma önerisi bence iyi bir şey (ama burada bir Bayes faktörü fikri daha geneldir), ancak getirdiği bağlamda biraz tuhaf: İlk önce ayrıldı Fisherian testinin gerekçesi, olasılık oranını hesaplamak için alternatif bir hipotez olmadığı. Ama boşa karşı delil olarak Fisherian. Dolayısıyla, Fisher ve Neyman-Pearson'u şaşırtıyor. İkincisi, kullandığımız test istatistiklerinin çoğu (oranlar) olasılık oranıdır ve bu durumda , oran oranının bir dönüşümüdür. As Cosma Shalizi koyar:ppp

belli bir boyut tüm testler arasında , küçük Bayan olasılık, ya da en yüksek güce sahip olan, bir şekilde "demek 'sinyali' varsa , aksi takdirde 'gürültü' demek , "ve eşiği , ile ters olarak değişir . Miktarı olabilirlik oranıdır; Neyman-Pearson lemması, gücü en üst düzeye çıkarmak için, sesten yeterince muhtemel ise "sinyal" demeliyiz diyor.q ( x ) / p ( x ) > t ( s ) t s q ( x ) / p ( x )sq(x)/p(x)>t(s)tsq(x)/p(x)

Burada "sinyal" durumundaki yoğunluk ve "gürültü" durumundaki yoğunluktur. Ölçüsü "yeteri kadar olası" burada olacaktır olup . Doğru Neyman-Pearson testinde in sabit bir ile ikame edildiğine dikkat edin, öyle ki . q(x)p(x)P(q(X)/p(x)>tObs|'H0)ptObst(s)P(q(X)/p(x)>t(s)|'H0)=α


6
Sadece 3. nokta için +1. Cox, p-değerini, olasılık oranının (veya diğer test istatistiğinin) bir kalibrasyonu olarak tanımlar ve bu genellikle unutulan bir bakış açısıdır.
Scortchi

(+1) Güzel cevap, @Momo. "Ama onlar!" Gibi bir şey ekleyerek geliştirilip geliştirilemeyeceğini merak ediyorum. Yanıtınızın başlığı olarak büyük bir fontta, çünkü bu OP'nin "Neden düşük p değerleri boşa karşı daha fazla kanıt değil?" başlıklı sorusuna cevabınız gibi görünüyor. Verilen tüm argümanları küçümsüyorsunuz, ancak açıkça başlık sorusuna bir cevap vermiyorsunuz.
amip diyor Reinstate Monica

1
Bunu yapmakta tereddütlü olacağım, hepsi çok ince ve varsayımlara, bağlamlara vb. Bağımlı Balıkçı bakış açısına göre değil. Ayrıca, argümanları küçümseyeceğimi söyleyemem, sadece farklı bir bakış açısı sağladığımı ve argümandaki bazı mantıksal hataları işaret ettiğimi düşünüyorum. Yazar, amacını iyi savunur ve kendi başına eşit derecede sorunlu olarak görülebilecek ilgili bir yaklaşıma çözüm sağlamaya çalışır.
Momo

9

Johansson gibi argümanların geri dönüştürülmesinin nedeni, P-değerlerinin sıfır değerine karşı delillerin bir göstergesi olduğu, ancak delillerin ölçüleri olmadığı gerçeğiyle ilgili gibi görünmektedir . Kanıt, tek bir sayının ölçebildiğinden daha fazla boyuta sahiptir ve bu nedenle P değerleri ile insanların zor bulabileceği kanıtlar arasındaki ilişkinin daima yönleri vardır.

Johansson'un P-değerleri ve olabilirlik işlevleri arasındaki ilişkiyi gösteren bir makalede kullandığı ve dolayısıyla kanıtların birçoğunu gözden geçirdim: http://arxiv.org/abs/1311.0081 Ne yazık ki bu makale üç kez reddedildi, Her ne kadar iddiaları ve kanıtları reddedilmedi. (Johansson gibi görüşler taşıyan yanlışlardan ziyade hakemlerin uygunsuz olduğu görülüyor.)


+1 @Michael Lew, başlığı değiştirmeye ne dersiniz? P (ee) ya da P (ee) ye ... bir ikilem gibi gelmiyor. Hepimiz bu durumda ne yapacağımızı biliyoruz. = D Şaka bir yana, kağıdınızın reddedilme nedenleri nelerdi?
Denizdeki yaşlı bir adam.

4

@ Momo'nun güzel cevabına ekleme:

1


2
Kanıtlara verdiğiniz yanıt değişmiş olsa bile, kanıtın kendisinin çok sayıda testten etkilenmediğine dikkat etmek önemlidir. Verilerdeki kanıtlar, verilerdeki kanıtlardır ve bilgisayarınızda gerçekleştirebileceğiniz hiçbir hesaplamadan etkilenmez. Testin çokluğu için p-değerlerinin tipik “düzeltilmesi”, p-değeri ile deneysel kanıtlar arasındaki ilişkiyi düzeltmek yerine yanlış pozitif hata oranlarını korumakla ilgilidir.
Michael Lew

1

Johansson, iki farklı deneyden elde edilen p değerleri hakkında mı konuşuyor? Eğer öyleyse, p değerlerini karşılaştırmak, elmaları kuzu pirzolasıyla karşılaştırmak gibi olabilir. Eğer "A" deneyi çok sayıda numuneyi içeriyorsa, küçük bir tutarsız küçük fark bile istatistiksel olarak anlamlı olabilir. Eğer "B" deneyi sadece birkaç örnek içeriyorsa, önemli bir fark istatistiksel olarak önemsiz olabilir. Daha da kötüsü (bu yüzden kuzu pirzolası ve portakal demedim), teraziler tamamen karşılaştırılabilir olabilir (birinde psi, diğerinde kwh).


3
Benim izlenimim, Johansson'un farklı deneylerden p-değerleri karşılaştırmaktan bahsetmediği yönünde. Bu & @ Glen_b'in yorumunun ışığında, yayınınızı açıklığa kavuşturur musunuz Emil? İlgili bir noktaya değinmek sorun değil ('J'nin A bağlamında yanlış olduğunu düşünüyorum, ancak B bağlamında bazı değerleri olacak'), ancak yaptığınız şeyin bu olduğu açık olmalıdır. Eğer varsa vardır bir soru sorarak ya da yorum yapma bu yazıyı silmek ve bir açıklama yapın.
gung - Reinstate Monica
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.