Yayınlanan p değerlerinin p <.05'teki dağılımındaki süreksizlik nedir?


27

Son bir makalede , Masicampo ve Lalande (ML) birçok farklı çalışmada yayınlanmış çok sayıda p değeri topladı. P-değerlerinin histogramında% 5 kanonik kritik seviyede meraklı bir sıçrama gözlemlediler.

Wasserman'in blogunda bu ML Phenomena hakkında güzel bir tartışma var:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

Blogunda histogramı bulacaksınız:

Yayınlanmış p değerlerinin histogramı

% 5 seviyesi bir sözleşme ve bir doğa yasası olmadığı için , yayınlanan p değerlerinin ampirik dağılımındaki bu davranışa ne sebep olur?

Seçim yanlılığı, kanonik kritik seviyenin hemen üzerindeki p-değerlerinin sistematik olarak “ayarlanması” ya da ne?


11
En az 2 tür açıklama vardır: 1) "dosya çekmecesi sorunu" - p <.05 ile yapılan çalışmalar yayınlanır, yukarıda olanlar yayınlanmaz, bu yüzden bu gerçekten iki dağılımın bir karışımıdır 2) İnsanlar muhtemelen bilinçaltında şeyleri manipüle ediyorlar , p <0,05
Peter Flom - Reinstate Monica

3
Selam @Zen. Evet, tam olarak böyle bir şey. Böyle şeyler yapmak için güçlü bir eğilim var. Teorimiz doğrulanırsa, istatistiksel sorunların araştırılmayacağından daha düşük bir ihtimaldir. Bu, doğamızın bir parçası gibi gözüküyor, ancak korunmaya çalışmak bir şey.
Peter Flom - Monica'yı yeniden konumlandırın

@Zen Andrew Gelman'ın blogunda, yayın önyargısı ile ilgili araştırmalarda yayın önyargısı bulunmadığını tespit eden bir araştırmadan bahseden bu yazıyla ilgilenebilirsiniz ...! andrewgelman.com/2012/04/…
smillig

1
İlginç olan, dergilerdeki p-değerleri, eskiden kullanılan Epidemiyoloji (ve bazı duyularda olduğu gibi) gibi, p-değeri temelli makaleleri açıkça reddeden kağıtlardan geri hesaplamaktır . Dergi çıkıp çıkmadığını umursamadığını veya gözden geçirenlerin / yazarların güven aralıklarına dayanarak zihinsel geçici testler yapıp yapmadıklarını değiştirip değiştirmeyeceğini merak ediyorum.
Fomite

4
Larry'nin blogunda açıklandığı gibi, bu, p-değerlerin Dünyasından örneklenen rastgele bir p-değerleri örneği yerine, yayınlanan bir p-değerleri koleksiyonudur. Bu nedenle, Larry'nin görevinde modellendiği gibi bir karışımın bir parçası olarak bile resimde düzgün bir dağılımın ortaya çıkması için hiçbir neden yoktur.
Xi'an

Yanıtlar:


14

(1) @PeterFlom tarafından daha önce de belirtildiği gibi, bir açıklama "dosya çekmecesi" sorunuyla ilgili olabilir. (2) @Zen ayrıca, yazar (lar) ın verileri veya modelleri manipüle ettiği veya değiştirdiği durumdan bahsetti (örneğin, veri tarama ). (3) Ancak, hipotezleri tamamen rastgele bir temelde test etmiyoruz. Yani, hipotezler tesadüfen seçilmez, fakat (az çok güçlü) teorik varsayımımız vardır.

Ayrıca, yakın zamanda sözde "kaliper testi" olarak adlandırılan alanda araştırma yapan Gerber ve Malhotra'nın çalışmaları da ilginizi çekebilir:

Ayrıca, Andreas Diekmann tarafından düzenlenen bu özel sayıya da ilgi duyabilirsiniz:


10

Şimdiye kadar eksik olan bir argüman araştırmacıların özgürlük derecesi olarak bilinen veri analizinin esnekliğidir. Her analizde, alınacak birçok karar vardır, temel kriterleri nereye koyacağınız, verilerin nasıl dönüştürüleceği ve ...

Bu yakın zamanda Simmons, Nelson ve Simonsohn'un etkili bir makalesinde gündeme geldi:

Simmons, JP, Nelson, LD, ve Simonsohn, U. (2011). Yanlış-Pozitif Psikoloji: Veri Toplama ve Analizde Açıklanamayan Esneklik, Önemli Olan Herşeyi Sunmaya İzin Verir. Psikolojik Bilimler , 22 (11), 1359-1366. DOI: 10,1177 / 0956797611417632

(Bunun, Sosyal Psikolojide yakın zamanda tespit edilmiş bazı veri dolandırıcılık vakalarından sorumlu olan Simonsohn'un aynı olduğunu unutmayın, örneğin, röportaj , blog yazısı )


8

Bence zaten söylenmiş olan her şeyin bir birleşimi. Bu çok ilginç bir veri ve daha önce bunun gibi p-değer dağılımlarına bakmayı düşünmedim. Boş hipotez doğruysa, p-değeri tekdüze olur. Ancak elbette yayınlanan sonuçlarla pek çok sebepten dolayı bir tekdüzelik görmeyiz.

  1. Çalışmayı yapıyoruz çünkü sıfır hipotezinin yanlış olmasını bekliyoruz. Dolayısıyla, önemli sonuçlardan çok sık sık elde etmeliyiz.

  2. Eğer sıfır hipotezi sadece zamanın yarısı yanlış olsaydı, p-değerlerinin düzgün bir dağılımını elde edemezdik.

  3. Dosya çekmecesi sorunu: Belirtildiği gibi, p değeri anlamlı olmadığında, örneğin 0,05'in altında kağıt göndermekten korkarız.

  4. Yayıncılar, göndermeyi seçmemize rağmen, önemli olmayan sonuçlardan dolayı makaleyi reddedeceklerdir.

  5. Sonuçlar sınırda olduğunda, önem kazanması için (belki de kötü niyetli olmayan) şeyler yapacağız. (a) p değeri 0,053 olduğunda 0,05'e yuvarlanır, (b) aykırı değerler olduğunu düşündüğümüz gözlemleri bulur ve bunları değiştirdikten sonra p değeri 0,05'in altına düşer.

Umarım bu, makul şekilde anlaşılabilir bir şekilde söylenen her şeyi özetler.

İlgilendiğim şey p-değerleri 0,05 ile 0,1 arasında gördüğümüz. Eğer yayın kuralları p'nin değeri 0.05'ten büyük olan herhangi bir şeyi reddetmiş olsaydı, sağ kuyruk 0.05'te kesilirdi. Aslında 0,10'da kesildi mi? öyleyse belki bazı yazarlar ve bazı dergiler 0.10 önem seviyesini kabul eder ancak daha yüksek bir şey kabul etmez.

Birçok makale birkaç p-değeri (çokluk için ayarlanmış veya değil) içerdiğinden ve önemli testler önemli olduğu için makale kabul edildiğinden listede önemli olmayan p-değerleri görebiliriz. Bu, “Histogramda yer alan yazılı tüm p-değerleri bildirildi mi?” Sorusunu gündeme getirdi.

Ek bir gözlem, p-değeri 0,05'in çok altına düştüğünde, yayınlanan makalelerin sıklığında yukarı doğru önemli bir eğilim olduğudur. Belki de bu, p <0.0001 p-değeri düşüncesini geçersiz kılan yazarların bir göstergesidir, yayına çok daha layıktır. Bence yazar, p değerinin, etki büyüklüğünün büyüklüğünde olduğu kadar örneklem büyüklüğüne bağlı olduğunu görmezden geliyor ya da anlamıyor.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.