P-değeri esasen işe yaramaz ve kullanımı tehlikeli midir?


36

Bu yazıda NY Times'dan "Sürekli Olarak Güncellenme Oranı" dikkatimi çekti. Kısacası, bunu belirtir

[Bayesian istatistikleri], eksik balıkçı John Aldridge'i bulmak için 2013 yılında kullanılan Sahil Güvenlik gibi aramalar da dahil olmak üzere karmaşık sorunlara yaklaşmakta özellikle yararlı olduğunu kanıtlıyor (şu ana kadar olmasa da, Malezya Havayolları Uçuş 370 avında). ......, Bayesian istatistikleri fizikten kanser araştırmasına, ekolojiden psikolojiye kadar her şeyi karıştırıyor ...

Makalede, aynı zamanda, frekans uzmanının p değeri ile ilgili bazı eleştiriler de var, örneğin:

P değeri yüzde 5'ten az ise sonuçlar genellikle “istatistiksel olarak anlamlı” kabul edilir. Ancak bu geleneğin bir tehlikesi var, diyor Columbia'daki istatistik profesörü Andrew Gelman. Bilim adamları hesaplamaları her zaman doğru yapmış olsalar bile - ve yapmazlar, - her şeyi yüzde 5'lik bir p değeriyle kabul etmek, 20 “istatistiksel olarak anlamlı” sonuçtan birinin rastgele gürültüden başka bir şey olmadığı anlamına gelir.

Yukarıdakilerin yanı sıra, belki de p-değerini eleştiren en ünlü makale şudur : “Bilimsel yöntem: İstatistiksel hatalar” Nature'dan Regina Nuzzo, p-değer yaklaşımı ile ortaya çıkan birçok bilimsel konunun tekrarlanabilirlik endişeleri gibi tartışıldığı, p-değeri hack, vb.

İstatistiksel geçerliliğin “altın standardı” P değerleri, birçok bilim insanının varsaydığı kadar güvenilir değildir. ...... Belki de en büyük yanılgı, Pennsylvania Üniversitesi'nden psikolog Uri Simonsohn ve meslektaşlarının P-hack terimini popülerleştirdikleri bir aldatmacadır; aynı zamanda veri tarama, gözetleme, balık tutma, önemini kovalama ve çift daldırma olarak da bilinir. “P-hack” diyor Simonsohn, “istediğiniz sonucu elde edene kadar çok şey deniyor” - bilinçsizce bile. ...... “Bu bulgu p-hack yoluyla elde edilmiş gibi görünüyor, yazarlar şartlardan birini düşürdüler, böylece genel p-değeri 0,05'ten az olacaktı” ve “O bir p-hacker, o toplanırken daima verileri izler. ”

Başka bir şey, arsa hakkında yorum ile buradan , aşağıdaki gibi ilginç bir arsa:

Etkiniz ne kadar küçük olursa olsun, p <.05 eşiğini geçmek için her zaman veri toplama zor işini yapabilirsiniz. Çalışmakta olduğunuz etki olmadığı sürece, p-değerleri sadece veri toplama konusunda ne kadar çaba harcadığınızı ölçmektedir.

görüntü tanımını buraya girin

Her şeyden önce, sorularım:

  1. Andrew Gelman'in ikinci blok alıntıdaki argümanı tam olarak ne anlama geliyor? Yüzde 5'lik p değerini neden “20 istatistiksel olarak anlamlı sonuçtan biri, ancak rastgele gürültü” şeklinde yorumladı. İkna olmadım çünkü benim için p-değeri tek bir çalışmayı çıkarsamada kullanılıyor. Amacı çoklu testlerle ilgili görünüyor.

    Güncelleme: Andrew Gelman'ın blogunu şu şekilde kontrol edin: Hayır, öyle demedim! (@ Scortchi, @ whuber için kredi).

  2. P-değeri ile ilgili eleştiriler göz önüne alındığında ve ayrıca verilen bir modelin önemini değerlendirmek için AIC, BIC, Mallow's gibi birçok bilgi kriteri de vardır (bu nedenle değişkenler), değişken seçimi için hiç p-değeri kullanmamalı mıyız? ancak bu model seçim kriterlerini kullanın?Cp

  3. Daha güvenilir araştırma sonuçlarına yol açabilecek istatistiksel analiz için p-değeri kullanmanın iyi pratik kuralları var mı?
  4. Bayesian modelleme, bazı istatistikçilerin savunuculuğu yapması gereken daha iyi bir yol izler mi? Spesifik olarak, Bayesian yaklaşımının yanlış bulma ya da veri konularını manipüle etme problemini çözme olasılığı daha mı yüksek olur? Burada da ikna olmadım, çünkü önceleri Bayesian yaklaşımında çok özneldi. Bayesian yaklaşımının, frekansçı p-değerinden daha iyi olduğunu veya en azından bazı özel durumlarda olduğunu gösteren pratik ve iyi bilinen herhangi bir çalışma var mı?

    Güncelleme: Özellikle, Bayesian yaklaşımının, frekansçı p-değeri yaklaşımından daha güvenilir olduğu durumların olup olmadığına ilgi duyarım. "Güvenilir" ifadesiyle, Bayesian yaklaşımının istenen sonuçlar için veri işleme olasılığının daha düşük olduğunu kastediyorum. Baska öneri?


Güncelleme 6.09.2015

Sadece haberi farkettim ve tartışmaya koymak için iyi olacağını düşündüm.

Psikoloji dergisi P değerlerini yasakladı

Tartışmalı bir istatistiksel test nihayet en azından bir dergide sona erdi. Bu ayın başlarında, Temel ve Uygulamalı Sosyal Psikoloji'nin editörleri (BASP), derginin artık P değerleri içeren yazılar yayınlamayacağını açıkladı, çünkü istatistikler düşük kaliteli araştırmayı desteklemek için çok sık kullanılıyordu.

Yakın tarihli bir makaleyle birlikte, “Fickle P değeri, P değeri” ile ilgili Nature'dan üretilemez sonuçlar veriyor .

Güncelleme 5/8/2016

Mart ayında, Amerikan İstatistik Kurumu (ASA) istatistiksel önemi ve p-değerleri üzerine açıklamalar yayınladı .

Bu ifade, p değerinin kötüye kullanımını ele alan 6 ilkeyi içermektedir:

  1. P değerleri, verilerin belirli bir istatistiksel modelle ne kadar uyumlu olmadığını gösterebilir.
  2. P-değerleri, çalışılan hipotezin gerçek olma olasılığını veya sadece rastgele tesadüfen elde edilen verilerin üretilme olasılığını ölçmez.
  3. Bilimsel sonuçlar ve iş veya politika kararları yalnızca bir p değerinin belirli bir eşiği geçip geçmediğine dayanmamalıdır.
  4. Doğru çıkarım, tam raporlama ve şeffaflık gerektirir.
  5. Bir p değeri veya istatistiksel önem, bir etkinin boyutunu veya sonucun önemini ölçmez.
  6. Kendi başına, bir p değeri, bir model veya hipotez ile ilgili iyi bir kanıt ölçüsü sağlamaz.

Ayrıntılar: "ASA'nın p-değerleri üzerine ifadesi: bağlam, süreç ve amaç" .


11
Cevap 1: Gelman bloğunun yanlış bir şey olabileceğinden şüpheleniyorum, çünkü doğru olması için güçlü (karşı taraf) varsayımlara ihtiyacı var. Her şey şimdiye kadar dünyada çalışılan Eğer onların boş hipotez izledi ve tüm boş hipotezleri az bütün p-değerleri daha sonra inşaat tarafından% 5 basit (ve kompozit) idi tesadüfen oluşacak - "Rasgele gürültü" olarak Bununla birlikte, eğer insanlar her zaman ayrıntılı hipotezin doğru olduğu (son alıntıda olduğu gibi) ayrıntılı deneyler yaparlarsa , temel olarak tüm p değerlerinin% 100'ü az olur ve hiçbiri "gürültü" olmazdı. 0.050.050.05
whuber

10

4
İyi bul, @Scortchi! Kayıt için - bağlantının kötü gitmesi durumunda - Gelman, NY Times karakterizasyonunu kesinlikle reddetti (çok dokunaklı olsa da) ve "yüzde 5'lik bir p değeri olan her şeyi kabul etmenin sahte bulgulara yol açabileceğini - gözlenen bir vaka" yazdığını yazdı. İstatistiksel olarak anlamlı olan "verilerdeki desen, popülasyondaki karşılık gelen bir deseni yansıtmaz - zamanın yüzde 5'inden fazlası."
whuber

3
“Okuduğunuz etki varolmadığı sürece” yorumunuza atıfta bulunarak, p değerlerini içeren çalışmaların noktasıdır - okuduğunuz etkinin gerçekten mevcut olup olmadığını ya da Topladığınız veriler sadece rastgele şanslardan kaynaklanmaktadır. Artan örneklem büyüklüğü ile p değerini düşürmek tamamen matematiksel olarak doğrudur ve aslında tek seçenektir. P-değerini "hackleme" denilemezsin. Sezgisel bir bakış açısına göre, veri toplamaya daha fazla çaba göstermenin ondan çıkardığınız sonuçlara daha fazla güven duyacağı anlamına gelir.
David Webb

1
@DavidWebb Anlaşıldı. Efekt boyutu küçükse, sorun yoktur ve efektin daha fazla veriyle ne kadar büyük veya küçük olduğunu söylemek daha kolay olacaktır. Daha fazla veri bulabilirseniz, almalısınız.
15’e

Yanıtlar:


25

İşte bazı düşünceler:

  1. @Whuber'ın belirttiği gibi, Gelman’ın (benzer bir şey söylese de söylese de) söylediğinden şüpheliyim. Boş değerin doğru olduğu vakaların yüzde beşi , 0,05 alfa kullanarak önemli sonuçlar (tip I hataları) verecektir. Boş değerin yanlış olduğu tüm çalışmalar için gerçek gücün olduğunu varsayarsak , ifade ancak yanlış olduğu çalışmalara doğru olduğu yerlerde yapılan çalışmaların oranı . 80 80%100/118.7584%
  2. Örneğin AIC model seçim kriterleri, uygun bir seçme bir yolu olarak görülmektedir değerini gösterir. Bunu daha iyi anlamak için, @ Glen_b'in buradaki cevabını okumak için yardımcı olabilir: R - Kritik p değerinde kademeli regresyon . Üstelik, eğer AIC'in yayınlanması için bir gereklilik haline getirilmişse, hiçbir şey insanların 'AIC-hack'lemesini' önleyemez. p
  3. Eğer geçersiz kılmayacak şekilde modelleri uydurma için iyi bir rehber Frank Harrell'in kitabı olurdu-değerlerine Regresyon Modelleme Stratejileri . p
  4. Dogesal olarak Bayesian yöntemlerini kullanmaya karşı değilim, ancak bu sorunu çözeceklerine inanmıyorum. Örneğin, güvenilir aralık, reddetmek istediğiniz değeri artık içermeyene kadar veri toplamaya devam edebilirsiniz. Böylece, 'güvenilir bir aralık korsanlığı' yaşarsınız. Gördüğüm gibi, mesele pek çok uygulayıcının kullandıkları istatistiksel analizlerle içsel olarak ilgilenmediği, bu yüzden hangi yöntem gerekli olursa olsun düşünülmeyen ve mekanik bir şekilde kullanacakları. Buradaki bakış açım hakkında daha fazla şey için, şu cevabımı okumak için yardımcı olabilir: Önemlilik testi için hipotez olarak etki büyüklüğü .

10
(+1) Güvenilir bir aralığı kesmenin kolay bir yolu, en doğru olanı benimsemektir :-). Tabii ki hiçbir yetkili uygulayıcı bunu yapmaz - Gelman duyarlılık değerlendirmelerinin, bilgi vermeyen hiperpistlerin vb. Kullanılmasını vurgulamaktadır. Öte yandan, bir Bayesian analizinde , p-değeri hacklemesine dahil olabilecek tüm belgelenmemiş analizlere kıyasla, birisinin ne yaptığını - bir öncekinin açıkça açıklandığını varsayarak - saklamak daha zor olabilir.
whuber

1
@whuber, bu doğru, ama sanırım bir öncekinin uygunsuzluğu veya öznelliği ile ilgili sorunları bir kenara koyabiliriz. Eğer gerçek efekt tam olarak 0 değilse, yeterli veri w / yeterli veri ise güvenilir aralık sonunda 0 içermez, tıpkı p <.05 (cf, son alıntı) olacak, böylece elde edene kadar veri toplamaya devam edebilirsiniz. öncekinden bağımsız olarak istediğiniz sonucu.
dediklerinin - Eski Monica

4
Güzel nokta. 100.000 üründe hiçbir başarısızlık gözlemlemedikten sonra 10.000 üründeki başarısızlıkları öngörme hakkında son bir soru hatırlattı. Cevap öncekine karşı oldukça hassastır çünkü başarısızlıklar çok nadirdir. Bu, "kuralı kanıtlayan" istisnai bir durum olabilir; gerçekte, istenen bir sonucu elde etmek için yeterli veri toplamanın mümkün olamayacağını göstermektedir. Bu tam olarak bazı müşteriler, istatistikçilere istenen sonucu elde etmek için "sihirlerini yapma" konusunda yalvarmaya başladıklarında! Muhtemelen birçok okuyucu bu baskıyı daha önce hissetmişti ....
whuber

1
Örneğin, pratik klinik çalışmalarda, denemeler için daha fazla konu almak için her zaman farklı aşamalarda durma kriterleri vardır. Bu anlamda, Bayesian yaklaşımının, araştırma sonucundaki güvenilir aralığı manipüle etmesi daha az olası görünüyor mu?
Aaron Zeng

2
@AaronZeng, bana göre kesin durma kriterleri Frequentist ve Bayesian perspektiflerine eşit olarak uygulanıyor. Burada net bir avantaj / dezavantaj görmüyorum.
dediklerinin - Eski Monica

8

Bana göre, p-hack tartışmalarına ilişkin en ilginç şeylerden biri, Joseph Kaldane'nin Adli istatistiklerle ilgili bir JASA makalesinde yazdığı gibi, istatistiksel önem için "mavi ayda bir kez" standardı olarak p <= 0.05'in tüm tarihinin olmasıdır. 90'larda, hiçbir şekilde kesinlikle hiçbir teoriye dayanmıyor. RA Fisher ile başlayan ve o zamandan beri "sorgusuz" statüsüne kavuşan ya da yeniden kutsanan bir kongre, basit sezgisel ve kural. Bayes ya da değil, bu metrik standarda meydan okumak veya en azından hak ettiği şüpheciliği vermek için zamanın çok geç kalmış olması.

Bununla birlikte, Gelman'ın fikrini yorumlamam, iyi bilindiği gibi, meslektaş inceleme sürecinin olumlu istatistiksel önemi ödüllendirdiği ve bu makaleleri yayınlamayarak önemsiz sonuçları cezalandırdığıdır. Bu, önemsiz bir bulgunun yayınlanmasının, belirli bir alan için düşünme ve teori üzerinde potansiyel olarak büyük bir etkiye sahip olup olmamasına bakılmaksızındir. Gelman, Simonshohn ve diğerleri, defalarca hakemli ve sosyal araştırmalarda saçma, ancak istatistiksel olarak anlamlı bulgular örnekleri alarak, hakemli ve yayımlanmış araştırmalarda 0.05 anlamlılık düzeyinin kötüye kullanıldığına işaret etmişlerdir. En korkunç olanlardan biri, hamile kadınların kırmızı elbiseler giyme ihtimalinin yüksek olduğu istatistiksel olarak anlamlıydı. Gelman, istatistiksel sonuçlara yönelik mantıksal zorlukların olmadığı durumlarda,potansiyel olarak anlamsız açıklama. Burada, endüstrinin mesleki tehlikesine , aşırı dinleyici kitle arasında tartışma yapmak için çok az ya da hiçbir şey yapmayan aşırı teknik ve eksik tartışmalarla atıfta bulunuyor .

Bu, Gary King'in "bu sonuç ap <= 0.05 düzeyinde önemliydi" ve mekanik bir teknik röportajı durdurması için pratik olarak nicel siyaset bilimcilerine (ve buna bağlı olarak bütün kuantörler) durduğunda şiddetle yaptığı bir nokta. . İşte onun bir gazeteden alıntı.

(1) en büyük maddi çıkarı olan miktarların sayısal olarak kesin tahminlerini iletmek, (2) bu tahminler hakkında makul belirsizlik önlemleri içermesi ve (3) anlaşılması için çok az özel bilgi gerektirmesi. Aşağıdaki basit açıklama, kriterlerimizi karşılamaktadır: 'Başka şeyler eşittir, ek bir eğitim yılı yıllık gelirinizi ortalama 1.500 dolar artı veya eksi yaklaşık 500 dolar artıracaktır.' Herhangi bir akıllı lise öğrencisi, istatistiksel modeli ne kadar karmaşıklaştırırsa ve onu üretmek için kullanılan bilgisayarlarda güçlü olursa olsun, bu cümleyi anlardı.

King'in fikri çok iyi ele alınmış ve tartışmanın alması gereken yönü belirliyor.

İstatistiksel Analizlerden Yararlanma : Yorum ve Sunumun Geliştirilmesi , King, Tomz ve Wittenberg, 2002, Poli Sci .


2
+1 Bu konuya okunaklı, bilgilendirici ve düşünceli katkı için teşekkür ederiz.
whuber

@whuber Kibar sözler için teşekkürler. Diğer katılımcıların buna katılıp katılmadığını zaman söyleyecektir.
Mike Hunter,

2
Aldatılmış olabilirim, ancak aktif seçmenlerimizden bazılarının (çoğu olmasalar da) anlaşmaya veya anlaşmazlıklara dayanarak oy vermediğini, ancak bir yazının asıl soruya açık ve yetkili bir şekilde yanıt verip vermediğine karar vermeyi düşünüyorum. . Ne de olsa, simgesinin üstündeki vurgulu metinde "Bu cevabı faydalı" yazıyor, "Bu adama katılmıyorum" yazıyor. (Bu bizim meta sitesinde, oyluyor ile karıştırılmamalıdır değil does anlaşmanın delalet derecede.) Bu gösterim için bazı kanıtlar birçok kişi tarafından tanınan bir sportmenlik rozetleri verildi.
whuber

@Whuber Belirttiğiniz nüans usulüne uygun olarak belirtilmiştir.
Mike Hunter

Bu konu @whuber geçen gün sohbetimizde aldatılmış kelimeyi kullanmamın kaynağıydı .
Mike Hunter,

5

Tüm anlayışlı yorumları ve cevapları okuduktan sonra Soru 3 ile ilgili düşüncelerimden bazıları.

P-değeri kırılmasını önlemek için istatistiksel analizde belki bir pratik rehber, bunun yerine bilimsel (veya biyolojik, klinik, vb.) Anlamlı / anlamlı etki boyutuna bakmaktır.

Spesifik olarak, araştırma veri analizinden önce veya hatta veri toplamadan önce faydalı veya anlamlı olarak bildirilebilecek etki büyüklüğünü önceden tanımlamalıdır. Örneğin, eğer izin anlamında olabildikleri, yerine aşağıdaki hipotezi test etmenin bir uyuşturucu etkisi biri gerektiği zaman testi ile anlamlı önemini iddia önceden tanımlanmış etki boyutu olmak.θ

H0:θ=0vs.Ha:θ0,
H0:θ<δvs.Ha:θδ,
δ

Ek olarak, etkiyi tespit etmek için çok büyük örneklem büyüklüğü kullanmaktan kaçınmak için, gereken örneklem büyüklüğü de dikkate alınmalıdır. Yani, deney için kullanılan maksimum numune büyüklüğüne bir sınırlama koymalıyız.

Sonuç olarak,

  1. Anlamlı etki büyüklüğünün önemini belirtmesi için bir eşik önceden tanımlamamız gerekir;
  2. Anlamlı etki büyüklüğünün ne kadar tespit edilebileceğini ölçmek için deneyde kullanılan örneklem büyüklüğü için bir eşik önceden tanımlamamız gerekir;

Yukarıda, belki de büyük bir örneklem büyüklüğü tarafından talep edilen küçük "önemli" etkilerden kaçınabiliriz.


[Güncelleme 18.06.2015]

Soru 3 ile ilgili olarak, işte son yazılan makaleye dayanarak bazı öneriler : “ Soru değeri P değeri, tekrarlanamayan sonuçlar doğuruyor” .

  1. Etki büyüklüğü tahminlerini ve bunların hassasiyetini, yani% 95 güven aralığını bildirin, çünkü daha bilgilendirici bilgiler, farkın ne kadar büyük olduğu veya ilişki ya da ilişkilendirme ne kadar güçlü olduğu gibi soruları tam olarak yanıtlar;
  2. Etki büyüklüğü tahminlerini ve% 95 CI'leri belirli bilimsel araştırmalar / sorular bağlamına koyun ve bu soruları yanıtlama konusundaki ilgilerine odaklanın ve kararsız P değerini düşürün;
  3. Etki büyüklüğünü belirlenmiş bir hassasiyet derecesine ulaşmak için gereken örneklem büyüklüğünü belirlemek için güç analizini " kesinliği planlama " ile değiştirin .

[Güncelleme 6.09.2015]


4
Eğer yeniden Eğer sonra için tartışıyoruz denklik testi birçok durumda yapılacak iyi bir şey olduğunu düşünüyorum. (Tipik olarak hipotez testleri ikinci durum gibi sunulmaz, çünkü boş veya alternatif olmayan potansiyel sonuçlar vardır.)H0:θ=δ
Andy W

@AndyW, Yorumlarınız için teşekkür ederiz. Buna göre cevabımı değiştirdim. Bu daha iyi bir seçenek olabilir mi?
Aaron Zeng,

2
Bu Nature makalesine referans için +1. Bununla birlikte, p-değerlerinin (habersiz) Bayesian yorumlaması gibi şaşırtıcı bir yanlış bilgi içeriyor: "Örnek olarak, eğer bir çalışma P = 0.03 alırsa, tekrarlanan bir çalışmanın bir yere P değeri döndürme şansı% 90 0-0,6 (% 90 tahmin aralıkları) geniş aralığı arasında, P <0,05 ise sadece% 56'dır. Yazarların hangi önceki dağıtımları üstlendiğini merak ediyorum - ve bu neden alakalı?
whuber

@AndyW ve Aaron Zeng, daha da iyisi, fark için her iki testin ve denklik testlerinin sonuçlarını birleştirmektir . Bu şekilde, biri hem ilgili etki büyüklüğünü hem de istatistiksel gücü açıkça bir kişinin çıkardığı sonuçlara yerleştirir (alaka düzeyi testleri ile ilgili bölüme bakınız).
Alexis

3

Çağdaş kullanımda p-değeri, boş hipotezi verilen verinin kümülatif olasılığını, bir eşik değerin altında veya üstünde olduğunu gösterir. Yani . Bence , bazı denemelerde tatmin edici bir şekilde rastlantısal olarak rastlanmayan bir sonuç olasılığına kıyasla genellikle edilen “etkisiz” hipotezi olma eğilimindedir. Alana bağlı olarak% 5 ila% 0,1 veya daha az arasında değişir. Ancak, rastgele bir karşılaştırma olmak zorunda değildir.P(D|H0)αH0H0

  1. Bu, 1/20 sonuçların olmaması gerektiğinde boş değeri reddedebileceği anlamına gelir. Eğer bilim bunun tekli deneylere dayandığı sonucuna dayanıyorsa, ifade savunulabilir olacaktır. Aksi takdirde, deneyler tekrarlanabilir olsaydı, 19/20'nin reddedilmeyeceği anlamına gelirdi. Hikayenin ahlaki, deneylerin tekrarlanabilir olması gerektiğidir.

  2. Bilim, “nesnelliğin” temelli bir geleneğidir, bu nedenle “nesnel olasılık” doğal olarak çekicidir. Deneylerin, çalışma dışı faktörleri kontrol etmek için genellikle blok tasarımı ve randomizasyonu kullanan yüksek düzeyde bir kontrol göstermesi gerektiğini hatırlayın. Bu nedenle, rastgele karşılaştırmak mantıklıdır, çünkü çalışmakta olanlar dışında diğer tüm faktörlerin kontrol edilmesi gerekmektedir. Bu teknikler tarımda ve sanayide bilime aktarılmadan önce oldukça başarılıydı.

  3. Bilgi eksikliğinin gerçekten sorun olup olmadığından emin değilim. Matematiksel olmayan bilimlerde birçok kimsenin istatistiğin işaretleyebileceği bir kutu olması dikkat çekicidir.

  4. İki çerçeveyi birleştiren karar teorisi hakkında genel bir okuma öneririm. Basitçe sahip olduğunuz kadar bilgiyi kullanmanız yeterlidir. Sık kullanılan istatistikler, modellerde parametrelerin sabit dağılımlardan bilinmeyen değerleri olduğunu varsayar. Bayesliler, modellerde parametrelerin bildiklerimiz tarafından şartlandırılmış dağılımlardan geldiğini varsayıyorlar. Doğru bir posterior güncellemek için önceden ve yeterli bilgi oluşturmak için yeterli bilgi varsa o zaman bu harika. Eğer yoksa o zaman daha kötü sonuçlara neden olabilirsiniz.


1

İstatistiksel test sonuçlarının tekrarlanabilirliği

Bu, istatistiksel testlere dayanan kararların tekrar edilebilirliğini değerlendirmek için kısa, basit bir alıştırmadır.

H1 ve H2 içeren bir dizi alternatif hipotez içeren boş bir H0 hipotezi düşünün. İstatistiksel hipotez test prosedürünü H1 doğruysa 0,8 bir güce sahip olmak üzere 0,05 anlamlılık düzeyinde kurun. Ayrıca, H2 için gücün 0.5 olduğunu varsayalım. Test sonucunun tekrar üretilebilirliğini değerlendirmek için, deneyin test prosedürünü iki kez gerçekleştirdiği kabul edilir. H0'nin doğru olduğu durumdan başlayarak, ortak deneyin sonuçlarına ilişkin olasılıklar Tablo 1'de gösterilmektedir. Kararları tekrarlayamama olasılığı 0.095'tir.

Tablo 1. H0 doğruysa frekanslar

Frequency.of.decisionReject.H0Retain.H0Reject.H00.00250.0475Retain.H00.04750.9025

Frekanslar, doğanın gerçek hali değiştikçe değişir. H1'in doğru olduğu varsayılırsa, H0 0.8 gücünde tasarlandığı gibi reddedilebilir. Ortak deneyin farklı sonuçları için sonuçta ortaya çıkan sıklıklar Tablo 2'de gösterilmektedir. Kararları tekrar üretememe olasılığı 0,32'dir.

Tablo 2. H1 doğruysa frekanslar

Frequency.of.decisionReject.H0Retain.H0Reject.H00.640.16Retain.H00.160.04

H2'nin doğru olduğu varsayıldığında, H0, 0,5 olasılık ile reddedilecektir. Ortak deneyin farklı sonuçları için sonuçta ortaya çıkan frekanslar Tablo 3'te gösterilmektedir. Kararları yeniden üretememe olasılığı 0.5'tir.

Tablo 3. H2 doğruysa frekanslar

Frequency.of.decisionReject.H0Retain.H0Reject.H00.250.25Retain.H00.250.25

Test prosedürü, tip I hataları (doğru olsa bile sıfır hipotezinin reddedilmesi) 0,05 olasılık ile sınırlamak ve tip II hataları sınırlamak (yanlış ve H1 doğru olsa bile null hipotezinin reddedilmemesi) kontrol etmek için tasarlanmıştır. 0.2'ye. Her iki durumda da, ya H0 ya da H1 'in doğru olduğu varsayılırsa, bu, aynı deney iki kez tekrarlanırsa, "yeniden üretilemez", "çelişkili" kararların sırasıyla 0.095 ve 0.32 gibi ihmal edilemez frekanslarına yol açar. Durum, yeniden üretilemeyen "," çelişkili "kararlar için 0,5'e varan sıklıkta kötüleşir, eğer gerçek durum null ile deneyi tasarlamak için kullanılan alternatif hipotez arasındaysa.

Durum ayrıca daha iyi olabilir - eğer tip 1 hataları daha sıkı bir şekilde kontrol edilirse ya da gerçek doğa durumu sıfırdan çok uzaksa, bu da 1'e yakın olan boşluğu reddetme gücü ile sonuçlanır.

Bu nedenle, daha fazla tekrarlanabilir karar almak istiyorsanız, önem düzeyini ve testlerinizin gücünü artırın. Çok şaşırtıcı değil ...


(+1) Ancak denemeden önce p değerini % 5'e ayarlayamazsınız - "önem düzeyi" demek istediğinizi düşünün.
Scortchi - Eski Monica

Teşekkür ederim. Son cümlede aynı şey: "anlamlılık seviyelerini
düşür

Bence p değerleri olan en büyük sorun, insanların kendilerini önemli ölçüde karıştırmalarıdır. Öyleyse, eğer p <.05, keşfedilen etki büyüklüğünün önemli olan kadar büyük olduğu anlamına gelir. İşyerinde p değerleri üreterek [önemli ölçüde] önemli etkiler yaratması isteniyor.
user54285
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.