Bu p-değeri sorununa çözüm mü?


67

Şubat 2016'da, Amerikan İstatistik Kurumu, istatistiksel anlamlılık ve p değerleri ile ilgili resmi bir açıklama yaptı. Bizim bu konuda iplik yoğun bu konuları tartışmaktadır. Bununla birlikte, evrensel olarak kabul edilmiş etkili bir alternatif önerecek hiçbir otorite ortaya çıkmamıştır - şimdiye kadar. Amerikan İstatistik Kurumu (ASS) cevabını yayınladı, p-değerleri: Sırada ne var?

“P değeri pek iyi değil.”

ASA'nın yeterince ileri gitmediğini düşünüyoruz. P-değerleri döneminin bittiğini kabul etmenin zamanı geldi. İstatistikçiler, öğrencileri her yerde lisans öğrencilerini şaşırtmak, bilim adamlarını kandırmak ve aptal editörleri şaşırtmak için başarıyla kullandılar, ancak dünya bu hileyi görmeye başladı. Bu 20. yüzyılın başlarında, istatistikçilerin karar vermeyi kontrol altına alma girişimini bırakmamız gerekiyor. İşe yarayana geri dönmeliyiz .

Resmi ASS önerisi şudur:

P-değerleri yerine, ASS STOP (Pantolonun SeaT-of-Pants prosedürü) savunuculuğunu yapar . Bu zamanla onurlandırılmış ve test edilmiş yöntem, antik Yunanlılar, rönesans adamları ve Ronald Fisher gelip bir şeyleri mahvedinceye kadar bütün bilim adamları tarafından kullanıldı. STOP, basit, doğrudan, veri güdümlü ve yetkilidir. Bunu gerçekleştirmek için, bir otorite figürü (daha yaşlı bir erkek, tercihe göre) verileri inceler ve görüşüne katılıp katılmadıklarına karar verir. Yaptıklarına karar verdiğinde sonuç “anlamlı” dır. Aksi halde değildir ve herkesin her şeyi unutması gerekir.

Prensipler

Yanıt, ASA'nın altı ilkesinin her birine yöneliktir.

  1. STOP, verilerin belirli bir istatistiksel modelle ne kadar uyumlu olmadığını gösterebilir.

    Bu cümleyi seviyoruz, çünkü STOP'un herhangi bir soruyu evet veya hayır olarak cevaplayacağını söylemenin çok süslü bir yolu. P-değerleri veya diğer istatistiksel prosedürlerden farklı olarak, hiç şüphe bırakmaz. “Kötü bir hipoteze ihtiyacımız yok” diyenlere mükemmel cevap! Bu arada, neyin nesi? Ne olması gerektiğini kimse bulamadı. ”

  2. STOP, bir hipotezin doğru olma olasılığını ölçmez: aslında doğru olup olmadığına karar verir.

    Herkes olasılıklarla karıştı. Resimden olasılık alarak, STOP yıllarca lisans ve lisansüstü çalışma ihtiyacını ortadan kaldırıyor. Artık herhangi biri (yeterince yaşlı ve erkek olan), anlaşılmaz çıktılar veren tek bir istatistik dersi dinlemenin acısını ve işkencesini duymadan veya analiz edilemeyen bir arcan yazılımı çalıştıran istatistiksel analiz yapabilir.

  3. Bilimsel sonuçlar ve iş veya politika kararları sağduyuya ve gerçek otorite rakamlarına dayanabilir.

    Yine de önemli kararlar her zaman otoriteler tarafından alınmıştır, bu yüzden hadi kabullenelim ve aracıyı keselim. STOP kullanımı, istatistikçileri en uygun olanı yapmaları için özgür kılar: gerçeği gizlemek için sayıları kullanmak ve iktidardakilerin tercihlerini onaylamak.

  4. Doğru çıkarım, tam raporlama ve şeffaflık gerektirir.

    STOP şimdiye kadar icat edilmiş en şeffaf ve kendini kanıtlayan istatistiksel prosedürdür: verilere bakarsınız ve karar verirsiniz. Verilerin ne anlama geldiğine dair hiçbir ipucu olmadığı gerçeğini gizlemek için insanlar tarafından kullanılan kafa karıştırıcı z testleri, t testleri, ki-kare testleri ve alfabe çorbası prosedürlerini (ANOVA! GLM! MLE!) Ortadan kaldırır.

  5. STOP sonucun önemini ölçer.

    Bu açıktır: Otorite sahibi bir kişi DURDUR kullanıyorsa, sonuç önemli olmalıdır.

  6. STOP kendi başına bir model veya hipotezle ilgili iyi bir kanıt ölçüsü sağlar.

    Bir otoriteye meydan okumak istemeyiz, değil mi? Araştırmacılar ve karar vericiler STOP'un bilmeleri gereken tüm bilgileri sağladığını kabul edeceklerdir. Bu nedenlerden dolayı, veri analizi STOP ile sona erebilir; p değerleri, makine öğrenmesi veya astroloji gibi alternatif yaklaşımlara ihtiyaç yoktur.

Diğer yaklaşımlar

Bazı istatistikçiler, “Bayesci” yöntemlerini tercih ediyor, burada 18. yüzyılda bir din adamı tarafından posthumly yayınlanan karanlık bir teorem her sorunu çözmek için akılsızca uygulanır. En dikkat çeken savunucuları bu yöntemlerin “öznel” olduğunu açıkça kabul ediyorlar. Öznel yöntemleri kullanacaksak, karar vericinin ne kadar yetkili ve bilgili olduğu neticesinde, sonuç o kadar iyi olacaktır. Böylece STOP, tüm Bayes yöntemlerinin mantıksal limiti olarak ortaya çıkar. Neden bu korkunç hesaplamaları yapma ve o kadar çok bilgisayar zamanını bağlama çabasına gidip, verileri sorumlu adama gösterip ona fikrinin ne olduğunu sorabilirsiniz. Hikayenin sonu.

Son zamanlarda istatistikçilerin papazlığına meydan okumak için başka bir topluluk ortaya çıktı. Kendilerine “makine öğrenenleri” ve “veri bilimcileri” diyorlar, ancak gerçekten daha yüksek statü arayan bilgisayar korsanları. İnsanların onları ciddiye almasını istiyorlarsa, bu adamların kendi meslek örgütlerini kurmaları gerektiği, ASS'nin resmi pozisyonudur.


Soru

ASA'nın p değerleri ve boş hipotez testi ile tanımladığı sorunlara cevap bu mu? Bayesian ve Frequentist paradigmaları gerçekten bir araya getirebilir mi (yanıtta açıkça belirtildiği gibi)?


11
İnternethaber.com "Yüksek STOP ASS hakimi için Donald Trump: istatistikleri tekrar mükemmel hale getirin!"
Alex R.

14
Açıkça STOP, yetersiz bir prosedürdür. Bunun, ASS gibi saygın bir bilge kuruluşundan kaçtığına şaşırdım. Zekâ için, neden zaman verilere bakarak hiç ? Sadece evet / hayır cevabınızı verin. Bu metodoloji halihazırda zaten mükemmel bir etki için kullanılıyor. Vaka çalışmaları, özellikle Amerika Birleşik Devletleri'nde, 4 ile bölünebilir yıllar boyunca bol miktarda bulunmaktadır
kardinal,

4
İşletmelerin bu yöntemleri benimsemekten büyük ölçüde fayda sağlayabileceklerini düşünüyorum, çünkü artık verilerini analiz etmek için insanları işe almanın ağır maliyetini ödemek zorunda kalmayacaklardı.
dsaxton

4
@ henry [nisan-1] etiketi bize bunu söylemedi mi?
Glen_b

9
@ Henry Cidden? Bize gösterebilir herhangi Adını Google'dan çeyrek milyon hit üzerinden alır sahte organizasyon?
whuber

Yanıtlar:


18

: Ben Radd denilen istatistiksel karar verme için kendi yeni bir yaklaşım savunan oldum Ar oll A D amn D yani. Aynı zamanda tüm kilit noktaları da kapsar.

1) RADD, verilerin belirtilen istatistiksel modelle ne kadar uyumlu olduğunu gösterebilir.

Daha yüksek bir rakam alırsanız, kanıtlar modelinizden yanadır! Ekstra bir yarar, daha fazla güven istiyorsak, daha fazla tarafa sahip bir kalıp açabilmemizdir. Yeterince arama yaparsanız 100 taraflı zar bile bulabilirsiniz!

2) RADD, bir hipotezin doğru olup olmadığına karar verebilir.

Sadece 2 taraflı bir kalıbı yuvarlamalısınız, yani bir yazı tura atmalısınız.

3) RADD iş veya politika kararları vermek için kullanılabilir.

Bir odaya birkaç politika yapıcı koyun ve hepsinin zar atmasını sağlayın! En yüksek kazanç!

4) RADD şeffaftır.

Sonuç kaydedilebilir ve daha fazla araştırma için kalıbın kendisi saklanabilir *

5) RADD sonucun önemini ölçer.

Açıkçası, yüksek haddeleme çok önemli bir olayın meydana geldiğini gösterir.

6) RADD, iyi bir kanıt ölçüsü sağlar.

Daha yüksek ruloların daha iyi olduğunu söylemedik mi?

Yani, hayır, STOP cevap değildir. Cevap RADD.


7
Unutmamak gerekirse, tip I hata kontrolünü sağlayabilir (yeterli bir yüzeye sahip zarlar verilen herhangi bir seviyede), örneğin sadece 100 yüzlü zar sayısının en yüksek olduğu 5 taraftan biri geldiğinde boş bir hipotezi reddederek % 5 tip I hata oranı.
Björn


17

p-değerler ve diğer sık-sık veya Bayesian yöntemleri. İş perspektifinden STOP, belirsiz “olasılıksal” yöntemlerden daha güvenilir kılan basit ve kesin cevaplar sunar. Ayrıca, vakaların çoğunda, değişen gerçekliğe adapte olmak daha basit ve kolaydır, diğer yöntemlerden daha kolaydır. Evet / Hayır kararları orta ve üst düzey yönetim için daha ikna edicidir. "DURDURMA raporları" çoğu durumda veri tabanlı raporlardan daha kısa ve okunması kolaydır. Ayrıca, bu yöntemin benimsenmesi, işvereninizin veri bilimcileri ve SAS lisansları üzerindeki maliyetleri düşürmesini sağlar. STOP ile ilgili tek sorunun, STOP sonuçlarını sunan PowerPoint sunumunu yapmanın daha zor olduğunu söyleyebilirim, ancak bu dinamik olarak gelişen bir alandır, bu nedenle gelecekte daha iyi görselleştirme yöntemleri önerilebilir.


6
PowerPoint, sonuçlarla birlikte slaytlara büründüğünde, onu değiştirmek için çok geç oldu, bu yüzden iki seçenek var, analizi sonuca uygun hale getirmek ya da hiç analiz yapmaktan zahmet etmeyin.
Mark L. Stone

12
@ MarkL.Stone Tabii! Ben şahsen verileri görmeden önce sunum için çizim yapma fikrini seviyorum, fikir Bayesian düşüncesine dayanıyor ve ben onlara öncül grafikler diyorum :) Bu yaklaşımın ilk önce burada göründüğünü düşünüyorum: dilbert.com/strip/ 2008-05-08
Tim

15

P-değeri tartışmasına ek olarak ilginç olan, ancak benim görüşüme göre biraz bayat olan bu para cezası bana, birkaç yıl önce , her Noel gerçekten gerçek ama eğlenceli bir araştırma yayınlayan British Medical Journal'ın (BMJ) Noel dergisinde yayınlanan eşsiz bir makaleyi hatırlatıyor makaleler. Özellikle, Isaacs ve Fitzgerald tarafından yapılan bu çalışma kanıta dayalı tıbbın yedi temel alternatifini vurguladı (yani, gerçek klinik ve istatistiksel kanıtlara dayanan tıbbın uygulanması):

  • Eminence tabanlı tıp
  • Araç tabanlı tıp
  • Eloquence bazlı tıp
  • Providence tabanlı tıp
  • Zorluk temelli tıp
  • Sinirlilik temelli tıp
  • Güvene dayalı tıp

En ilginç olarak, yukarıdaki maddeler için ölçüm cihazlarını ve ölçüm birimlerini vurgulayan sütunlara bakmanız gerekir (örneğin araç bazlı tıp için odyometre ve desibel!).


4
+1. Sorunun tam anlamıyla mükemmel bir katkı için teşekkür ederim. (1) Açıklığa kavuşturmak için: “eski” veya sadece bu soruyu bulduğunuz p değeri tartışması mı? (2) Referans (6), "J Exponential Maaşları" nerede bulacağını biliyor musunuz? Eminim daha iyi bilseydi, çok hevesli bir okuyucusu olacaktı.
whuber

5
(1) Katkınız 'taze sertifikalı' (rottentomatoes.com'dan alıntı yapmak için). Bunun tersine, bu vurguyu, p değerlerinin sınırlamaları üzerinde biraz vurgulamış buluyorum. Makine öğrenmesi, büyük veri ve halk arasında zayıf bilimsel okuryazarlık çağında, ASA duruşu biraz mazoş görünebilir. (2) Bu makaleyi, aynı BMJ Noel eserinde önerilen randomize çalışmayı yayınladıkları aynı dergide bulacağınızı düşünüyorum: bmj.com/content/327/7429/1459 .
Joe_74

Her zaman unutuyorum, Dunning-Kruger'e dayalı çıkarım kullanan Güvene Dayalı Tıp mı?
Alexis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.