P-hack olarak adlandırdığımız şey, bir defalarca bir önemlilik testi uygulamak ve yalnızca önemlilik sonuçlarını bildirmektir. Bunun iyi ya da kötü olması durumsal olarak bağımlıdır.
Açıklamak için, boş ve alternatif hipotezlerden ziyade Bayesian terimlerindeki gerçek etkileri düşünelim. İlgi etkilerimizin sürekli bir dağılımdan geldiğine inandığımız sürece , sıfır hipotezinin yanlış olduğunu biliyoruz . Ancak, iki taraflı bir test olması durumunda, bunun olumlu mu yoksa olumsuz mu olduğunu bilmiyoruz. Bu ışık altında, iki taraflı testler için p-değerlerini, kanıtın ne kadar güçlü olduğunu tahmin etmemizin doğru yöne (yani, olumlu veya olumsuz etkiye sahip) olduğunu düşünebiliriz.
Bu yorum altında, herhangi bir anlamlılık testinin üç olası sonucu olabilir: etkinin yönünü sonuçlandırmak için yeterli kanıt görüyoruz ve haklıyız, etkinin yönünü sonuçlandırmak için yeterli kanıt görüyoruz ama yanılıyoruz veya yapmıyoruz etkinin yönünü sonuçlandırmak için yeterli kanıtı görün. Yeterli kanıtınızın (yani, ) olduğuna dair şartlı olduğuna dikkat edin , yönün doğru olma olasılığının yanlış alma olasılığından daha büyük olması gerektiğine dikkat edin (bazı gerçekten çılgın, gerçekten kötü bir testiniz olmadıkça). gerçek etki büyüklüğü sıfıra yaklaşır, yeterli kanıt verildiğinde verilen yönü doğru alma koşulu olasılığı 0.5'e yaklaşır.p<α
Şimdi, daha fazla veri almak için geri döndüğünüzde ne olacağını düşünün. Ne zaman daha fazla veri elde ederseniz, yönü doğru şekilde alma olasılığınız yeterli veriye bağlı olarak artar. Bu nedenle, bu senaryoda, daha fazla veri alarak, aslında bir tip I hata olasılığını arttırmamıza rağmen, aynı zamanda yanlışlıkla yanlış yönlendirme olasılığını da azalttığımızı anlamamız gerekir.
Bunu aksine, P-hack'in daha da kötüye kullanımı; Çok küçük olma olasılığı iyi olan 100'ün üzerinde etki büyüklüğünü test ediyoruz ve yalnızca önemli olanları rapor ediyoruz. Bu durumda, eğer tüm etkiler küçükse, önem beyan ettiğimizde yönü yanlış anlama şansımızın% 50 civarında olacağına dikkat edin.
Tabii ki, bu veri-çift katmanın ürettiği p-değerleri hala bir tuz taneleri ile gelmelidir. Genel olarak, bir etki büyüklüğü hakkında daha emin olmak için daha fazla veri toplayan insanlarla ilgili bir sorun yaşamamanız gerekirken, bu başka şekillerde kötüye kullanılabilir. Örneğin, akıllı bir PI, 100 veri noktasının tümünü aynı anda toplamak yerine, önce 50 veri noktası toplayarak, verileri analiz ederek ve önemli değilse, sonraki 50'yi toplayarak bir miktar para tasarrufu yapabileceklerini ve güçlerini artırabileceklerini fark edebilirler. . Bu senaryoda, önemini beyan etme koşulunda etkinin yönünü yanlış anlama olasılığını arttırırlar, çünkü etkinin yönünü 100 veri noktasından ziyade 50 veri noktasıyla yanlış yönlendirme olasılığı daha yüksektir.
Ve son olarak, sonuçlarını dikkate değil biz önemsiz bir sonuç olduğunda daha fazla veri alma. Bu, hiçbir zaman bilimi ileriye itmeyecek olan konu hakkında daha fazla bilgi toplamayacağı anlamına mı geliyor? Güçlü bir çalışma bütün bir alanı öldürür.