P-değerlerinin dağılımında yüksek varyans (Taleb 2016'da bir tartışma)


17

Taleb, 2016, Standart P-Değerlerinin Meta-Dağılımı'nda yapılan büyük resim iddiasını anlamaya çalışıyorum .

İçinde Taleb, p-değerinin güvenilmezliği için aşağıdaki argümanı yapar (anladığım kadarıyla):

Üzerine bir tahmin prosedürü çalışma bir dağıtım gelen veri noktaları X çıkışları p değeri. Bu dağıtımdan daha fazla nokta çizersek ve başka bir p değeri çıkarırsak, "gerçek p değeri" olarak adlandırılan sınırda elde edilen bu p değerlerini ortalayabiliriz.nX

Bu "gerçek p-değerinin" rahatsız edici derecede yüksek bir varyansa sahip olduğu gösterilmiştir, böylece "gerçek p değeri" olan bir dağıtım + prosedürü zamanın% 60'ını <.05 olarak bildirir..12

Soru : Bu, değeri lehine geleneksel argüman ile nasıl uzlaştırılabilir . Anladığım kadarıyla, p-değerinin prosedürünüzün yüzde kaçının size doğru aralığı (ya da her neyse) vereceğini söylemesi gerekiyor. Bununla birlikte, bu makale, prosedürü tekrar çalıştırırsanız p-değeri aynı olmayacağından bu yorumun yanıltıcı olduğunu iddia ediyor gibi görünmektedir.p

Bu noktayı kaçırıyor muyum?


1
Bu "geleneksel argümanın" ne olduğunu açıklayabilir misiniz? Hangi argümanı düşündüğünüzü bilmiyorum.
Glen_b -Manica Monica

Soru ilginçtir ve CV'nin uygun olduğunu düşünüyorsanız eklemek isteyebileceğiniz p-değerlerini birleştiren bir etiketi bile olan bir literatürle ilgilidir .
mdewey

1
İnanıyorum p-değerlerinin tekrarlanabilirlik sorusu çok yakından bununla alakalı olabilir. Belki de analiz, burada belirtilene benzer (hatta aynı) olabilir.
whuber

Yanıtlar:


13

Bir p değeri rastgele bir değişkendir.

altında (en azından sürekli dağıtılmış bir istatistik için), p-değerinin düzgün bir dağılımı olmalıdırH0

Tutarlı bir test için, altında numune boyutları sonsuza doğru arttıkça p değeri sınırda 0'a gitmelidir. Benzer şekilde, etki büyüklükleri arttıkça p-değerlerinin dağılımları da 0'a kayma eğiliminde olmalıdır, ancak her zaman "yayılacaktır".H1

"Gerçek" bir p değeri kavramı bana saçma geliyor. O da altında, ne anlama gelir veya H 1 ? Örneğin, " belirli bir etki büyüklüğü ve örneklem büyüklüğünde p-değerlerinin dağılımının ortalaması" demek istediğinizi söyleyebilirsiniz , ancak o zaman yaymanın büzülmesi gereken yakınsama nasıldır? Sabit tutarken örnek boyutunu artırabileceğiniz gibi değil.H0H1

Burada bir numune t-testi ve altında küçük bir etki boyutu ile bir örnek . Numune boyutu küçük olduğunda p değerleri hemen hemen eşittir ve numune boyutu arttıkça dağılım yavaşça 0'a konsantre olur.H1

resim açıklamasını buraya girin

P değerlerinin tam olarak böyle davranması gerekiyordu - yanlış bir boş için, örnek boyutu arttıkça, p değerleri düşük değerlerde daha konsantre hale gelmelidir, ancak değerlerin dağılımını, tip II hatası yapın - p değeri önem seviyenizin ne olursa olsun - bir şekilde bu önem seviyesine "yakın" olmalıdır.

α=0.05

Hem alternatif altında kullandığınız test istatistiği ne olursa olsun ne olduğunu ve null altındaki cdf'yi dağıtıma yapılacak bir dönüşüm olarak uygulayan (p değerinin dağılımını verecek) ile neler olduğunu düşünmek genellikle yararlı olur. belirli bir alternatif). Bu terimlerle düşündüğünüzde, davranışın neden olduğu gibi olduğunu görmek genellikle zor değildir.

Gördüğüm kadarıyla sorun, p-değerleri veya hipotez testleriyle ilgili herhangi bir doğal sorun olmadığı kadar çok değil, daha çok hipotez testinin özel probleminiz için iyi bir araç olup olmadığı veya başka bir şeyin daha uygun olup olmayacağı herhangi bir özel durumda - bu geniş fırça polemikleri için bir durum değil, hipotez testlerinin ele aldığı soru türlerini ve durumunuzun özel ihtiyaçlarını dikkatle ele alır. Ne yazık ki bu konuların dikkatle değerlendirilmesi nadiren yapılır - çoğu zaman biri "bu veriler için hangi testi kullanırım?" Şeklinde bir soru görür. ilgilenilen sorunun ne olabileceğine bakılmaksızın, bazı hipotez testlerinin bunu ele almanın iyi bir yolu olup olmadığını düşünelim.

Bir zorluk, hipotez testlerinin hem yaygın olarak yanlış anlaşılması hem de yaygın olarak yanlış kullanılmasıdır; insanlar bize genellikle yapmadıkları şeyleri söylediklerini düşünürler. P değeri muhtemelen hipotez testleri ile ilgili en yanlış anlaşılan şeydir.


pnm

nnn

1
H1H1

3
n

3
+1. Aklıma gelen ilgili ve eğlenceli bir analiz Geoff Cumming'in "p-değerleri dansı" dediği şeydir: bkz. Youtube.com/watch?v=5OL1RqHrZQ8 ("dans" yaklaşık 9 dakikada gerçekleşir) . Bu küçük sunum temel olarak p-değerlerinin nispeten yüksek güç için bile ne kadar değişken olduğunu vurgular. Cumming'in ana noktasına tam olarak katılıyorum, güven aralıklarının p değerlerinden çok daha iyi olduğu (ve buna "yeni istatistikler" demekten nefret ediyorum ), ancak bu miktar değişkenliğinin birçok insan ve "dans" bunu göstermenin hoş bir yoludur.
amip, Reinstate Monica

11

Glen_b'in cevabı yerinde (+1; benimkini tamamla). Taleb tarafından referansta bulunduğunuz makale, p-değerlerinin dağılımlarını analiz etmek için ne tür bilgileri toplayabileceğiniz konusunda psikoloji ve istatistik literatüründeki bir dizi makaleye (yazarların p-eğrisi dediği ; sitelerini bir burada bir p-eğrisi analiz uygulaması da dahil olmak üzere kaynakların bir demet ).

Yazarlar p-eğrisinin iki temel kullanımını önermektedir:

  1. Bir literatürün kanıtlanmış değerini, literatürün p eğrisini analiz ederek değerlendirebilirsiniz . Bu, reklamı yapılan ilk p-eğrisi kullanımıydı. Glen_b açıklar gibi sıfır olmayan etki boyutları ile konum muamele, sen olumlu geleneksel eşiğin altına çarpıtılmış olan p-eğrilerini görmelisiniz Esasen, p gibi <.05 küçük p değerleri p daha muhtemel olmalıdır p'ye daha yakın değerler= .05 bir efekt (veya efekt grubu) "gerçek" olduğunda. Bu nedenle, bir p-eğrisini, anlamlı değerin bir testi olarak anlamlı pozitif eğrilik açısından test edebilirsiniz. Tersine, geliştiriciler, belirli bir etki kümesinin çeşitli şüpheli analitik uygulamalara tabi olup olmadığını test etmenin bir yolu olarak negatif eğriltme testi (yani, daha küçük olanlardan daha sınırda önemli p-değerli) gerçekleştirmenizi önerir.
  2. Yayınlanmış p-değerlerine sahip p-eğrisini kullanarak, etki büyüklüğünün yayın-sapmasız meta-analitik tahminini hesaplayabilirsiniz . Bu özlü bir şekilde açıklamak biraz daha zordur ve bunun yerine, etki boyutu tahmin odaklı kağıtlarını (Simonsohn, Nelson ve Simmons, 2014a, 2014b) kontrol etmenizi ve yöntemleri kendiniz okumanızı tavsiye ederim. Ancak esasen yazarlar, bir meta-analiz yürütülürken p-eğrisinin dosya çekmecesi efekti sorununu ortadan kaldırmak için kullanılabileceğini önermektedir.

Yani, daha geniş bir sorunuza gelince:

bu, p-değeri lehine geleneksel argüman ile nasıl uzlaştırılabilir?

Talebin (ve diğerlerinin) gibi yöntemlerin p-değerlerini yeniden kullanmanın bir yolunu bulduğunu söyleyebilirim, böylece p-değer gruplarını analiz ederek tüm edebiyatlar hakkında yararlı bilgiler elde edebiliriz , oysa bir p-değeri kendi başına olabilir. yararlılığı açısından çok daha sınırlı.

Referanslar

Simonsohn, U., Nelson, LD ve Simmons, JP (2014a). P-eğrisi: Dosya Çekmecesinin Anahtarı. Deneysel Psikoloji Dergisi: Genel , 143 , 534-547.

Simonsohn, U., Nelson, LD ve Simmons, JP (2014b). P Eğrisi ve Etki Büyüklüğü: Yalnızca Önemsiz Sonuçlar Kullanarak Yayın Sapmalarının Düzeltilmesi. Psikolojik Bilim Üzerine Perspektifler , 9 , 666-681.

Simonsohn, U., Simmons, JP ve Nelson, LD (2015). Daha İyi P-eğrileri: P-eğrisi analizini hatalara, sahtekarlığa ve iddialı P-hack'lerine karşı daha sağlam hale getirir, Ulrich ve Miller'a Yanıt (2015). Deneysel Psikoloji Dergisi: Genel , 144 , 1146-1152.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.