Bu yazıda NY Times'dan "Sürekli Olarak Güncellenme Oranı" dikkatimi çekti. Kısacası, bunu belirtir
[Bayesian istatistikleri], eksik balıkçı John Aldridge'i bulmak için 2013 yılında kullanılan Sahil Güvenlik gibi aramalar da dahil olmak üzere karmaşık sorunlara yaklaşmakta özellikle yararlı olduğunu kanıtlıyor (şu ana kadar olmasa da, Malezya Havayolları Uçuş 370 avında). ......, Bayesian istatistikleri fizikten kanser araştırmasına, ekolojiden psikolojiye kadar her şeyi karıştırıyor ...
Makalede, aynı zamanda, frekans uzmanının p değeri ile ilgili bazı eleştiriler de var, örneğin:
P değeri yüzde 5'ten az ise sonuçlar genellikle “istatistiksel olarak anlamlı” kabul edilir. Ancak bu geleneğin bir tehlikesi var, diyor Columbia'daki istatistik profesörü Andrew Gelman. Bilim adamları hesaplamaları her zaman doğru yapmış olsalar bile - ve yapmazlar, - her şeyi yüzde 5'lik bir p değeriyle kabul etmek, 20 “istatistiksel olarak anlamlı” sonuçtan birinin rastgele gürültüden başka bir şey olmadığı anlamına gelir.
Yukarıdakilerin yanı sıra, belki de p-değerini eleştiren en ünlü makale şudur : “Bilimsel yöntem: İstatistiksel hatalar” Nature'dan Regina Nuzzo, p-değer yaklaşımı ile ortaya çıkan birçok bilimsel konunun tekrarlanabilirlik endişeleri gibi tartışıldığı, p-değeri hack, vb.
İstatistiksel geçerliliğin “altın standardı” P değerleri, birçok bilim insanının varsaydığı kadar güvenilir değildir. ...... Belki de en büyük yanılgı, Pennsylvania Üniversitesi'nden psikolog Uri Simonsohn ve meslektaşlarının P-hack terimini popülerleştirdikleri bir aldatmacadır; aynı zamanda veri tarama, gözetleme, balık tutma, önemini kovalama ve çift daldırma olarak da bilinir. “P-hack” diyor Simonsohn, “istediğiniz sonucu elde edene kadar çok şey deniyor” - bilinçsizce bile. ...... “Bu bulgu p-hack yoluyla elde edilmiş gibi görünüyor, yazarlar şartlardan birini düşürdüler, böylece genel p-değeri 0,05'ten az olacaktı” ve “O bir p-hacker, o toplanırken daima verileri izler. ”
Başka bir şey, arsa hakkında yorum ile buradan , aşağıdaki gibi ilginç bir arsa:
Etkiniz ne kadar küçük olursa olsun, p <.05 eşiğini geçmek için her zaman veri toplama zor işini yapabilirsiniz. Çalışmakta olduğunuz etki olmadığı sürece, p-değerleri sadece veri toplama konusunda ne kadar çaba harcadığınızı ölçmektedir.
Her şeyden önce, sorularım:
Andrew Gelman'in ikinci blok alıntıdaki argümanı tam olarak ne anlama geliyor? Yüzde 5'lik p değerini neden “20 istatistiksel olarak anlamlı sonuçtan biri, ancak rastgele gürültü” şeklinde yorumladı. İkna olmadım çünkü benim için p-değeri tek bir çalışmayı çıkarsamada kullanılıyor. Amacı çoklu testlerle ilgili görünüyor.
Güncelleme: Andrew Gelman'ın blogunu şu şekilde kontrol edin: Hayır, öyle demedim! (@ Scortchi, @ whuber için kredi).
P-değeri ile ilgili eleştiriler göz önüne alındığında ve ayrıca verilen bir modelin önemini değerlendirmek için AIC, BIC, Mallow's gibi birçok bilgi kriteri de vardır (bu nedenle değişkenler), değişken seçimi için hiç p-değeri kullanmamalı mıyız? ancak bu model seçim kriterlerini kullanın?
- Daha güvenilir araştırma sonuçlarına yol açabilecek istatistiksel analiz için p-değeri kullanmanın iyi pratik kuralları var mı?
Bayesian modelleme, bazı istatistikçilerin savunuculuğu yapması gereken daha iyi bir yol izler mi? Spesifik olarak, Bayesian yaklaşımının yanlış bulma ya da veri konularını manipüle etme problemini çözme olasılığı daha mı yüksek olur? Burada da ikna olmadım, çünkü önceleri Bayesian yaklaşımında çok özneldi. Bayesian yaklaşımının, frekansçı p-değerinden daha iyi olduğunu veya en azından bazı özel durumlarda olduğunu gösteren pratik ve iyi bilinen herhangi bir çalışma var mı?
Güncelleme: Özellikle, Bayesian yaklaşımının, frekansçı p-değeri yaklaşımından daha güvenilir olduğu durumların olup olmadığına ilgi duyarım. "Güvenilir" ifadesiyle, Bayesian yaklaşımının istenen sonuçlar için veri işleme olasılığının daha düşük olduğunu kastediyorum. Baska öneri?
Güncelleme 6.09.2015
Sadece haberi farkettim ve tartışmaya koymak için iyi olacağını düşündüm.
Psikoloji dergisi P değerlerini yasakladı
Tartışmalı bir istatistiksel test nihayet en azından bir dergide sona erdi. Bu ayın başlarında, Temel ve Uygulamalı Sosyal Psikoloji'nin editörleri (BASP), derginin artık P değerleri içeren yazılar yayınlamayacağını açıkladı, çünkü istatistikler düşük kaliteli araştırmayı desteklemek için çok sık kullanılıyordu.
Yakın tarihli bir makaleyle birlikte, “Fickle P değeri, P değeri” ile ilgili Nature'dan üretilemez sonuçlar veriyor .
Güncelleme 5/8/2016
Mart ayında, Amerikan İstatistik Kurumu (ASA) istatistiksel önemi ve p-değerleri üzerine açıklamalar yayınladı .
Bu ifade, p değerinin kötüye kullanımını ele alan 6 ilkeyi içermektedir:
- P değerleri, verilerin belirli bir istatistiksel modelle ne kadar uyumlu olmadığını gösterebilir.
- P-değerleri, çalışılan hipotezin gerçek olma olasılığını veya sadece rastgele tesadüfen elde edilen verilerin üretilme olasılığını ölçmez.
- Bilimsel sonuçlar ve iş veya politika kararları yalnızca bir p değerinin belirli bir eşiği geçip geçmediğine dayanmamalıdır.
- Doğru çıkarım, tam raporlama ve şeffaflık gerektirir.
- Bir p değeri veya istatistiksel önem, bir etkinin boyutunu veya sonucun önemini ölçmez.
- Kendi başına, bir p değeri, bir model veya hipotez ile ilgili iyi bir kanıt ölçüsü sağlamaz.
Ayrıntılar: "ASA'nın p-değerleri üzerine ifadesi: bağlam, süreç ve amaç" .