Şubat 2016'da, Amerikan İstatistik Kurumu, istatistiksel anlamlılık ve p değerleri ile ilgili resmi bir açıklama yaptı. Bizim bu konuda iplik yoğun bu konuları tartışmaktadır. Bununla birlikte, evrensel olarak kabul edilmiş etkili bir alternatif önerecek hiçbir otorite ortaya çıkmamıştır - şimdiye kadar. Amerikan İstatistik Kurumu (ASS) cevabını yayınladı, p-değerleri: Sırada ne var?
“P değeri pek iyi değil.”
ASA'nın yeterince ileri gitmediğini düşünüyoruz. P-değerleri döneminin bittiğini kabul etmenin zamanı geldi. İstatistikçiler, öğrencileri her yerde lisans öğrencilerini şaşırtmak, bilim adamlarını kandırmak ve aptal editörleri şaşırtmak için başarıyla kullandılar, ancak dünya bu hileyi görmeye başladı. Bu 20. yüzyılın başlarında, istatistikçilerin karar vermeyi kontrol altına alma girişimini bırakmamız gerekiyor. İşe yarayana geri dönmeliyiz .
Resmi ASS önerisi şudur:
P-değerleri yerine, ASS STOP (Pantolonun SeaT-of-Pants prosedürü) savunuculuğunu yapar . Bu zamanla onurlandırılmış ve test edilmiş yöntem, antik Yunanlılar, rönesans adamları ve Ronald Fisher gelip bir şeyleri mahvedinceye kadar bütün bilim adamları tarafından kullanıldı. STOP, basit, doğrudan, veri güdümlü ve yetkilidir. Bunu gerçekleştirmek için, bir otorite figürü (daha yaşlı bir erkek, tercihe göre) verileri inceler ve görüşüne katılıp katılmadıklarına karar verir. Yaptıklarına karar verdiğinde sonuç “anlamlı” dır. Aksi halde değildir ve herkesin her şeyi unutması gerekir.
Prensipler
Yanıt, ASA'nın altı ilkesinin her birine yöneliktir.
STOP, verilerin belirli bir istatistiksel modelle ne kadar uyumlu olmadığını gösterebilir.
Bu cümleyi seviyoruz, çünkü STOP'un herhangi bir soruyu evet veya hayır olarak cevaplayacağını söylemenin çok süslü bir yolu. P-değerleri veya diğer istatistiksel prosedürlerden farklı olarak, hiç şüphe bırakmaz. “Kötü bir hipoteze ihtiyacımız yok” diyenlere mükemmel cevap! Bu arada, neyin nesi? Ne olması gerektiğini kimse bulamadı. ”
STOP, bir hipotezin doğru olma olasılığını ölçmez: aslında doğru olup olmadığına karar verir.
Herkes olasılıklarla karıştı. Resimden olasılık alarak, STOP yıllarca lisans ve lisansüstü çalışma ihtiyacını ortadan kaldırıyor. Artık herhangi biri (yeterince yaşlı ve erkek olan), anlaşılmaz çıktılar veren tek bir istatistik dersi dinlemenin acısını ve işkencesini duymadan veya analiz edilemeyen bir arcan yazılımı çalıştıran istatistiksel analiz yapabilir.
Bilimsel sonuçlar ve iş veya politika kararları sağduyuya ve gerçek otorite rakamlarına dayanabilir.
Yine de önemli kararlar her zaman otoriteler tarafından alınmıştır, bu yüzden hadi kabullenelim ve aracıyı keselim. STOP kullanımı, istatistikçileri en uygun olanı yapmaları için özgür kılar: gerçeği gizlemek için sayıları kullanmak ve iktidardakilerin tercihlerini onaylamak.
Doğru çıkarım, tam raporlama ve şeffaflık gerektirir.
STOP şimdiye kadar icat edilmiş en şeffaf ve kendini kanıtlayan istatistiksel prosedürdür: verilere bakarsınız ve karar verirsiniz. Verilerin ne anlama geldiğine dair hiçbir ipucu olmadığı gerçeğini gizlemek için insanlar tarafından kullanılan kafa karıştırıcı z testleri, t testleri, ki-kare testleri ve alfabe çorbası prosedürlerini (ANOVA! GLM! MLE!) Ortadan kaldırır.
STOP sonucun önemini ölçer.
Bu açıktır: Otorite sahibi bir kişi DURDUR kullanıyorsa, sonuç önemli olmalıdır.
STOP kendi başına bir model veya hipotezle ilgili iyi bir kanıt ölçüsü sağlar.
Bir otoriteye meydan okumak istemeyiz, değil mi? Araştırmacılar ve karar vericiler STOP'un bilmeleri gereken tüm bilgileri sağladığını kabul edeceklerdir. Bu nedenlerden dolayı, veri analizi STOP ile sona erebilir; p değerleri, makine öğrenmesi veya astroloji gibi alternatif yaklaşımlara ihtiyaç yoktur.
Diğer yaklaşımlar
Bazı istatistikçiler, “Bayesci” yöntemlerini tercih ediyor, burada 18. yüzyılda bir din adamı tarafından posthumly yayınlanan karanlık bir teorem her sorunu çözmek için akılsızca uygulanır. En dikkat çeken savunucuları bu yöntemlerin “öznel” olduğunu açıkça kabul ediyorlar. Öznel yöntemleri kullanacaksak, karar vericinin ne kadar yetkili ve bilgili olduğu neticesinde, sonuç o kadar iyi olacaktır. Böylece STOP, tüm Bayes yöntemlerinin mantıksal limiti olarak ortaya çıkar. Neden bu korkunç hesaplamaları yapma ve o kadar çok bilgisayar zamanını bağlama çabasına gidip, verileri sorumlu adama gösterip ona fikrinin ne olduğunu sorabilirsiniz. Hikayenin sonu.
Son zamanlarda istatistikçilerin papazlığına meydan okumak için başka bir topluluk ortaya çıktı. Kendilerine “makine öğrenenleri” ve “veri bilimcileri” diyorlar, ancak gerçekten daha yüksek statü arayan bilgisayar korsanları. İnsanların onları ciddiye almasını istiyorlarsa, bu adamların kendi meslek örgütlerini kurmaları gerektiği, ASS'nin resmi pozisyonudur.
Soru
ASA'nın p değerleri ve boş hipotez testi ile tanımladığı sorunlara cevap bu mu? Bayesian ve Frequentist paradigmaları gerçekten bir araya getirebilir mi (yanıtta açıkça belirtildiği gibi)?