P değerleri ne zaman yanıltıcıdır?


14

Dikkat etmemiz gereken veri koşulları nelerdir, nerede p-değerleri istatistiksel anlamlılığa karar vermenin en iyi yolu olmayabilir? Bu kategoriye giren belirli sorun türleri var mı?


2
Snarky cevap: neredeyse her zaman. Analistler verileri incelerken Tip 1 hataları (yani, "yanlış alarmlar") oluşturmak için büyük bir teşvik vardır, bu yüzden karşılaşacağınız neredeyse tüm p-değerleri "çok" küçüktür.
statsRus

7
Sadece oraya atmak, ancak bu tür bir soru Cross Valtedted'de en iyi şekilde sorulmayacak mı?
buruzaemon

1
@buruzaemon: Belki. Bir arama yaptım, bu en yakın eşleşme: stats.stackexchange.com/questions/67320/… Buna değinen birkaç sorudan fazlası yok gibi görünüyor.
Alex I

Yanıtlar:


9

Bir veri kümesine karşı çok sayıda hipotezi test ederken veya aynı veriler tarafından önerilen bir veri kümesine karşı hipotezleri test ederken olan Veri Tarama'yı soruyorsunuz .

Özellikle, Çoklu hipotez tehlikesi ve veriler tarafından önerilen Test hipotezlerine göz atın .

Çözüm, Yanlış keşif oranı veya Scheffé'nin yöntemi veya (çok eski okul) Bonferroni düzeltmesi gibi Familywise hata oranı için bir tür düzeltme kullanmaktır .

Biraz daha az titiz bir şekilde, keşiflerinizi, her bir istatistiksel sonuç için olasılık oranı (OR) için güven aralığına göre filtrelemenize yardımcı olabilir. Oran oranı için% 99 güven aralığı 10-12 ise, OR , özellikle örnek boyutu da büyükse, son derece küçük bir olasılıkla <= 1'dir . Böyle bir şey bulursanız, milyonlarca hipotezin testinden çıkmış olsa bile muhtemelen güçlü bir etkidir.


1
Bonferroni kesinlikle eski okul olmasına rağmen hala oldukça popüler. Bununla ilgili olarak Šidák düzeltmesi ( en.wikipedia.org/wiki/%C5%A0id%C3%A1k_correction ) adı verilen bir yöntemdir . Bunu söylüyorum, çünkü üzerinde çalıştığım büyük ölçekli bir hedefleme reklam sisteminde, bu yaklaşımı Hive'da bir UDF olarak uygulayabildik. Ancak bu sadece testler arasında bağımsızlığınız olduğunda daha iyi çalışır. Değilse Bonferroni'ye veya başka bir yönteme geri dönmeniz gerekir.
Chris Simokat

5

P değerini bağlam dışında düşünmemelisiniz.

Oldukça basit bir nokta ( xkcd ile gösterildiği gibi ) aslında kaç tane test yaptığınızı düşünmeniz gerektiğidir. Açıkçası, sıfır hipotezi her seferinde doğru olsa bile, her 20 testten biri için p <0.05'i görmekten şok olmamalısınız.

Bunun daha ince bir örneği yüksek enerjili fizikte ortaya çıkar ve başka yere bakma etkisi olarak bilinir . Yeni bir parçacığı temsil edebilecek bir sinyali aradığınız parametre alanı ne kadar büyük olursa, sadece rastgele dalgalanmalardan dolayı görünen bir sinyal görme olasılığınız o kadar artar.


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.