Neden 0.05 <p <0.95 sonuç yanlış pozitif olarak adlandırılıyor?


9

Edit: Sorumun temeli kusurlu ve ben bile mantıklı olabilir olup olmadığını anlamak için biraz zaman harcamak gerekiyor.

Düzenleme 2: Bir p-değerinin sıfır hipotez olasılığının doğrudan bir ölçüsü olmadığını, ancak p-değerinin 1'e ne kadar yakın olduğunu varsaydığımı açıklığa kavuşturmak, bir hipotezin karşılık gelen sıfır hipotezi doğru olan deneysel test için seçilmiştir, p değeri 0'a ne kadar yakınsa, karşılık gelen sıfır hipotezi yanlış olan deneysel test için bir hipotezin seçilmesi daha olasıdır. Tüm hipotezler (veya deneyler için seçilen tüm hipotezler) bir şekilde patolojik olmadıkça bunun nasıl yanlış olduğunu göremiyorum.

Edit 3: Sanırım sorumu sormak için hala açık bir terminoloji kullanmıyorum. Piyango numaraları okundukça ve bunları biletinizle tek tek eşleştirdiğinizde bir şeyler değişir. Kazanma olasılığınız değişmez, ancak telsizi kapatma olasılığınız değişir. Deneyler yapılırken de benzer bir değişiklik olur, ancak kullandığım terminolojinin - "p-değerleri gerçek bir hipotezin seçilme olasılığını değiştirir" - doğru terminoloji olmadığını düşünürüm.

Edit 4: Üzerinde çalışabileceğim çok fazla bilgi içeren inanılmaz derecede ayrıntılı ve bilgilendirici iki cevap aldım. Şimdi ikisine de oy vereceğim ve sonra her iki cevaptan da sorumu cevapladıklarını ya da geçersiz kıldıklarını bilmek için yeterince öğrendiğimde bir tane kabul etmek için geri döneceğim. Bu soru, yemeyi umduğumdan çok daha büyük bir solucan kutusu açtı.

Okuduğum makalelerde, doğrulamadan sonra "yanlış pozitifler" olarak adlandırılan sonuçları p> 0.05 ile gördüm. Bununla birlikte, deneysel veriler ap <0.50 düşük fakat> 0.05 olan ve hem boş hipotez hem de @ NickStauner'in bağlantısında belirtilen asimetri ne olursa olsun , araştırma hipotezi istatistiksel olarak belirsiz / önemsiz (konvansiyonel istatistiksel anlamlılık eşiği verildiğinde) 0.05 <p < 0.95 arasında herhangi bir yerde , p <0.05'in tersi ne olursa olsun ?

Bu A numarasını diyelim ve bunu, deneyiniz / analiziniz için 0,05'lik bir p değerinin sizin denemeniz / analiziniz için gerçek bir sıfır olmayan hipotez seçtiniz. 0,05 <p <A diyelim ki, "Örneklem büyüklüğünüz soruyu cevaplayacak kadar büyük değildi ve daha büyük bir örnek alıp istatistikinizi alana kadar uygulamayı / gerçek dünyadaki önemi değerlendiremezsiniz. önemi çözüldü "?

Başka bir deyişle, yalnızca p> A ise ve yalnızca bir sonucu kesinlikle yanlış (desteklenmeden değil) olarak çağırmak doğru olmaz mı?

Bu benim için basit gibi görünüyor, ancak bu kadar yaygın kullanım bana yanlış olabileceğimi söylüyor. Ben miyim:

a) matematiği yanlış yorumlamak,
b) tam olarak doğru değilse zararsız bir kural hakkında şikayet etmek,
c) tamamen doğru mu,
d) diğer?

Bunun bir fikir çağrısı gibi göründüğünü biliyorum, ancak bu, ya ben ya da (neredeyse) herkesin yanlış yaptığı kesin bir matematiksel olarak doğru cevabı olan bir soru gibi gözüküyor.


1
Merhaba David. İşte beni düşündüren makale: link
Andrew Klaassen

2
İlk satırda, "yazma yerine istemem ... sonuçlarını aslen ilep<0.05 ama daha sonra p0.05 doğrulamadan sonra ... "? p eşikten daha büyük αaksi halde negatif sonuç olarak adlandırılır . Düzenlemelerinizden sonra bile, yorumlamanın karakterizasyonupyanlış, bu yüzden p-değerlerini yorumlama ve ne sormak istediğinizi yeniden gözden geçirme konusundaki bazı yayınlarımızı incelemek için birkaç dakikanızı ayırmanızı öneririm .
whuber

1
İsterseniz sorunuzu silebilirsiniz, ancak iki yukarı oy aldığınızda (oh heck, hadi 3 yapalım), yükseltilmiş bir cevap ve "gerçekten sizinkinden" başka bir cevap almak üzeresiniz, bırakmanızı rica ediyorum aktif ve formda gördüğünüz gibi çalışın, ancak istediğiniz gibi yapma hakkınızı saygıyla erteliyorum. Şerefe!
Nick Stauner

1
@Nick, Andrew ile aynı fikirdeyim: Burada biraz düşünce ve dikkat çeken cogent ve kışkırtıcı bir sorunuz var, bu yüzden onu yayınlamaya devam ederseniz minnettar oluruz ve eğer mümkünse, p-değerlerinin nasıl yorumlandığına dair kilit konu. Yeni kısım, anlatabileceğim kadarıyla, ret kriterinin büyük bir p değerine dayandırılması önerisidir. Yorumunuz: test anlamlı olduğunda yanlış pozitif oluşur, ancak sıfır hipotezinin doğru olduğu bilinmektedir .
whuber

1
@whuber: Benim için daha cazip bir arka plan odağı, daha büyük bir örneklem büyüklüğüne sahip bir takip deneyinin üretken olması muhtemel olan sonuç ne olacaktır. Şimdiye kadar verilen yanıtlar göz önüne alındığında, p-değerlerinin bu soru ile ilgili olup olmadığını sormam gerekiyor gibi görünüyor. Sıfır hipotezinin yanlış pozitifin ölçüsü olarak doğru olduğunu bilmek: Ne zaman sıfır hipotezinin p> (1 - α) durumu dışında doğru olduğunu söyleyebiliriz?
Andrew Klaassen

Yanıtlar:


15

Sorunuz yanlış bir önermeye dayanıyor:

sıfır hipotezinin p <0.50 olduğunda hala yanlış olmamasından daha olası değil mi

Bir p değeri, sıfır hipotezinin doğru olma olasılığı değildir . Örneğin, sıfır hipotezinin doğru olduğu bin vakayı aldıysanız, bunların yarısı olacaktır p < .5. O yarının tümü boş olacak .

Gerçekten de, p > .95sıfır hipotezinin "muhtemelen doğru" olduğu fikri eşit derecede yanıltıcıdır. Eğer sıfır hipotezi doğruysa, bu olasılıkla p > .95aynıdır p < .05.

Tahmini varış süresi: Düzenlemeniz sorunun ne olduğunu daha net hale getiriyor: hala yukarıdaki sorun var (bir p-değerini posterior olasılık olarak görmüyorsanız). Bunun ince bir felsefi ayrım olmadığına dikkat etmek önemlidir (bence piyango biletlerini tartışmanızı ima ettiğiniz gibi): p-değerlerinin herhangi bir yorumu için muazzam pratik çıkarımları vardır.

Ama olduğu aradığınız şeyle alırsınız p-değerleri üzerinde gerçekleştirebileceğiniz bir dönüşüm ve yerel yanlış keşif oranı denir. (Bu güzel makalede açıklandığı gibi , "posterior hata olasılığı" nın sıkça eşdeğeridir, bu yüzden isterseniz bu şekilde düşünün).

Somut bir örnekle çalışalım. Diyelim ki 10 sayıdan oluşan bir numunenin (normal dağılımdan) ortalama 0 (tek örnek, iki taraflı t testi) olup olmadığını belirlemek için bir t testi yapıyorsunuz. Birincisi, bakalım neler ortalama aslında zaman gibi p-değeri dağıtım görünüyor olan kısa R simülasyon ile sıfır:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

resim açıklamasını buraya girin

Gördüğümüz gibi, null p-değerleri eşit bir dağılıma sahiptir (0 ile 1 arasındaki tüm noktalarda eşit derecede olasıdır). Bu, p-değerlerinin gerekli bir koşuludur: gerçekten, p-değerlerinin anlamı tam olarak budur! (Boş değerin doğru olduğu düşünüldüğünde,% 5, .05'ten daha az,% 10, .1'den daha düşük bir şans vardır.)

Şimdi null değerinin yanlış olduğu alternatif hipotezleri ele alalım. Şimdi, bu biraz daha karmaşık: null yanlış olduğunda, "ne kadar yanlış?" Örneğin ortalaması 0 değil, .5 mi? 1? 10? Rastgele değişir, bazen küçük ve bazen büyük? Basitlik adına, diyelim ki her zaman .5'e eşittir (ancak bu komplikasyonun daha sonra önemli olacağını unutmayın):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

resim açıklamasını buraya girin

Dağıtımın tekdüze olmadığına dikkat edin: 0'a kaydırılır! Yorumunuzda bilgi veren bir "asimetriden" bahsediyorsunuz: bu o asimetridir.

Bu dağıtımların her ikisini de bildiğinizi düşünün, ancak yeni bir deneyle çalışıyorsunuz ve ayrıca% 50 boş ve alternatifinin% 50 şansı var. .7'lik bir p değeri alırsınız. Bundan ve p değerinden bir olasılığa nasıl ulaşırsınız?

Yapmanız gereken yoğunlukları karşılaştırmaktır :

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

Ve p değerinize bakın:

abline(v=.7, col="red", lty=2)

resim açıklamasını buraya girin

Boş yoğunluk ve alternatif yoğunluk arasındaki bu oran, yerel yanlış keşif oranını hesaplamak için kullanılabilir : null, alternatife göre ne kadar yüksek olursa, yerel FDR o kadar yüksek olur. Bu hipotezin boş olma olasılığıdır (teknik olarak daha katı bir frekansçı yorumu vardır, ancak burada basit tutacağız). Eğer bu değer çok yüksekse, o zaman "sıfır hipotezi neredeyse kesinlikle doğrudur" yorumunu yapabilirsiniz. Gerçekten de, yerel FDR'nin .05 ve .95 eşiğini yapabilirsiniz: bu, aradığınız özelliklere sahip olacaktır. (Ve yerel FDR p değeri ile monoton olarak arttığından, en azından doğru yaparsanız, bunlar A ve B eşiklerine dönüşecektir.

Şimdi, "Peki neden p-değerleri yerine bunu kullanmıyoruz?" Diye sorduğunuzu duyabiliyorum. İki sebep:

  1. Önceden testin boş olduğuna karar vermelisiniz
  2. Alternatifin altındaki yoğunluğu bilmeniz gerekir. Bunu tahmin etmek çok zordur, çünkü etki boyutlarınızın ve varyanslarınızın ne kadar büyük olabileceğini ve ne sıklıkta olduklarını belirlemeniz gerekir !

Bir p-değeri testi için bunlardan hiçbirine ihtiyacınız yoktur ve p-değeri testi yine de yanlış pozitiflerden (birincil amacıdır) kaçınmanıza izin verir. Şimdi, bir sen p-değerleri binlerce varken, birden hipotez testlerinde bu değerler her iki tahmin etmek mümkün (örneğin bir binlerce genin her biri için bir test olarak: bakınız bu kağıdı veya bu gazeteyi örneğin) ama sizi Tek bir test yapıyorsunuz.

Son olarak, ".05'in üstünde bir p değerine yol açan bir çoğaltma söylemek hala yanlış değil mi?" Bir p değeri .04 ve başka bir p değeri .06 elde etmek, orijinal sonucun gerçekten yanlış olduğu anlamına gelmez, ancak pratikte seçmek makul bir metriktir. Ancak her durumda, başkalarının bu konuda şüpheleri olduğunu bilmek memnun olabilir! : Eğer başvurmak kağıt istatistiklerinde biraz tartışmalı bu kağıt farklı bir yöntem kullanır ve tıbbi araştırma p-değerleri hakkında çok farklı bir sonuca varır ve sonra çalışma eleştirilmiş olduğu bazı tanınmış Bayesians (ve tarafından yuvarlak ve yuvarlak gider ...). Sorunuz p değerleri ile ilgili bazı hatalı varsayımlara dayanıyor olsa da, bence alıntı yaptığınız makalenin ilginç bir varsayımını inceliyor.


Merhaba David. Doğru tespit. Bu bölümü yanlış anlamamak için sorumu yeniden ifade etmeye çalışacağım ve hala bir sorun görüp görmediğimi göreceğim.
Andrew Klaassen

@David_Robinson: p-değerini Bayes kuralında yanlış alarm oranı olarak kullanmak doğru olabilir mi ve araştırmanın olasılığı ve / veya sıfır hipotezleri hakkında sonuçlar çıkarabilir mi? Öncekini% 50'ye ayarlayın ve oradan hızlı ve gevşek oynayın? :-)
Andrew Klaassen

1
Evet, büyüleyici! Cevabınız üzerinde çalışabilir misiniz? Fakat p'nin null doğru olduğu zaman nasıl davrandığı ile null doğru hipotezinin veriden çıkarılan p-değerine göre doğru olma olasılığı hakkında bazı bilgiler vermesi yanlış olduğunda neyin doğru olduğu arasında bir asimetri vardır. Eğer gerçek bir sıfır hipotezi eşit olarak dağıtılmış p-değerleri üretiyorsa ve gerçek bir sıfır olmayan hipotez 0'a doğru eğilmiş p-değerleri üretiyorsa, ap = 0,01 mermeri çekerek ~ -null kavanoz kavanoz, deney yaparak olasılık değişmese bile.
Andrew Klaassen

1
@AndrewKlaassen: "Yerel yanlış keşif oranı" kavramıyla ilgileniyor olabilirsiniz. Sıfırın doğru olması Bayes posterior olasılığına sıkça eşdeğerdir. İki şey gerektirir: a) null değerinin (bazen pi0 olarak da adlandırılır) önceki olasılığı ve b) alternatif hipotez için yoğunluk tahmini. Birden fazla hipotez testinde (binlerce p değeriniz varsa), her ikisini de yoğunluğa bakarak tahmin etmek mümkündür. Biraz daha zamanım olursa cevabımla ilgili daha derin bir açıklama yapabilirim.
David Robinson

1
@AndrewKlaassen: Yerel FDR'yi ayrıntılı olarak açıkladığım düzenlememe, neden "A" değerini (A'yı hesaplarken .05'i değiştirmek isteseniz de) hesaplamanın yolu olduğunu ve neden nadiren kullanıldığını görün. . Her neyse, cevaba tam olarak uymayan bir noktayı açıklığa kavuşturmak için: piyango bileti örneğiniz, ben ve diğerlerinin yaptığı noktayı yanlış anlıyor. "Yeni bilgilerle olasılıklar değişiyor mu" fikrine takılmıyorduk (hem Bayesliler hem de frekansçılar bunu yorumluyorlar): mesele sadece onları doğru şekilde değiştirmemeniz!
David Robinson

10

Farenizi herhangi bir fareyle üzerine getirin (sahte bir etikettir) aşağıda görünür. Lütfen satır aralığını kesintiye uğratın. Etiket alıntıları, okuyucuların okurken jargonun anlaşılmasını kontrol etmelerine yardımcı olabileceğinden, bunu değerli buluyorum. Bu alıntılardan bazıları da düzenlemeyi hak edebilir, bu yüzden bir yayıncı olan IMHO'yu da hak ediyorlar.

p>.05 normalde kişinin . Tersine,ya da yanlış pozitif bir kişi null nedeniyle reddettiğinde oluşur hata veya başka bir olağandışı olay aksi takdirde mümkün değildi (genellikle p<.05) rastgele örneklenmiş olması burada null doğrudur. İle bir sonuçp>.05 yanlış pozitif olarak adlandırılan, sıfır hipotezinin yanlış anlaşıldığını yansıtıyor gibi görünüyor (NHST). NHST herkesin bildiği gibi sezgisel olduğundan, yanlış anlaşılmalar yayınlanmış araştırma literatüründe nadir değildir. Bu bir araya gelen çığlıklardan biriistila (destekliyorum ama takip etmiyorum ... henüz). Yakın zamana kadar kendim gibi yanlış izlenimlerle çalıştım, bu yüzden en yürekten sempati duyuyorum.

@DavidRobinson bunu gözlemlemekte doğru p null değerinin yanlış olma olasılığı değil NHST. Bu (en azından) Goodman'ın (2008) "Kirli Düzine" hakkındaki yanılgılarından biridir.pdeğerleri (ayrıca bkz Hurlbert & Lombardi 2009 ) . NHST'de,p bu gelecekteki herhangi bir rastgele örneği bir ilişki veya fark (veya diğer etki büyüklüğü çeşitleri varsa ... null değerine karşı test ediliyorsa ... pdeğeri, boş doğruysa. Yani,pnull verildiğinde sizinki gibi bir örnek alma olasılığıdır ; sıfır olasılığını yansıtmaz - en azından doğrudan değil. Tersine, Bayesci yöntemler, bir veya daha fazladiğer avantajların yanı sıra tartışmalı dezavantajları bir kenara bırakarak, daha sezgisel olarak çekici bir yaklaşım olduğunu iddia ettikleri veriler göz önüne alındığında bir efekt teorisi ( Wagenmakers, 2007 ) . (Adil olmak gerekirse, bkz. " Bayesian analizinin eksileri nelerdir? " Ayrıca, burada bazı güzel cevaplar verebilecek makalelere atıfta bulunmuştunuz: Moyé, 2008; Hurlbert & Lombardi, 2009. )

Tartışmalı olarak, kelimenin tam anlamıyla belirtildiği gibi sıfır hipotezinin genellikle yanlış olmamasından daha olasıdır, çünkü sıfır hipotezleri en yaygın olarak, kelimenin tam anlamıyla sıfır etki hipotezidir . (Bazı kullanışlı karşı örnekler için, bkz. " Büyük veri kümeleri hipotez testi için uygun değil mi? ") Kelebek etkisi gibi felsefi sorunlar gerçek kelimeyi tehdit ediyorböyle bir hipotezin; bu nedenle null, genellikle sıfır olmayan bir etkinin alternatif bir hipotezi için bir karşılaştırma temeli olarak yararlıdır. Böyle bir alternatif hipotez, veri toplandıktan sonra null doğru olsaydı mümkün olmayacak olan null değerinden daha akla yatkın kalabilir . Bu nedenle araştırmacılar tipik olarak null'a karşı kanıtlardan alternatif bir hipotez için destek çıkarırlar, ancak bu değildirdoğrudan nicelleştirmek ( Wagenmakers, 2007 ) .

Şüphelendiğiniz gibi, bir işlevi yanı sıra efekt boyutu ve tutarlılığı. (Bkz @ son soruya dediklerinin cevabı, " ortalama farkı neredeyse 0 olup olmadığını nasıl bir t-testi istatistiksel olarak anlamlı olabilir? ") Sık sık Verilerimizin sormak niyetinde soruları etkisi nedir" vardır xüzerinde y? " Çeşitli nedenlerden ötürü (özellikle istatistikçi olmayanlar tarafından öğretildiği gibi, istatistiklerde IMO, yanlış anlaşılmış ve başka türlü eksik eğitim programları dahil), kendimizi sık sık gevşek bir şekilde, "Rastgele mayın gibi verileri örnekleme olasılığı nedir?" xetkilemeyen bir popülasyondan y? " Bu, sırasıyla etki büyüklüğü tahmini ve önem testi arasındaki temel farktır. birp değer yalnızca son soruyu doğrudan yanıtlar, ancak birkaç profesyonel (@rpierce muhtemelen size benden daha iyi bir liste verebilir; sizi buna sürüklediğiniz için affet!) araştırmacıların yanlış okuduğunu savundu pönceki etki büyüklüğü sorusuna çok sık bir cevap olarak; Korkarım hemfikir olmalıyım.

Anlamına ilişkin daha doğrudan cevap vermek .05<p<0,95, boş değeri doğru olan bir popülasyondan verileri rastgele örnekleme olasılığının, ancak boş değerin, en azından verileriniz kadar geniş ve tutarlı bir kenar boşluğu ile tam olarak tanımladığı değerden farklı bir ilişki veya fark sergilemesidir. .. <nefes al> ...% 5-95 arasındadır. Bunun kesinlikle örneklem büyüklüğünün bir sonucu olduğunu iddia edebiliriz, çünkü artan örneklem büyüklüğü kişinin küçük ve tutarsız etki büyüklüklerini tespit etme ve bunları% 5'i aşan bir sıfır sıfır etkisinden bağımsız olarak ayırt etme yeteneğini geliştirir. Bununla birlikte, küçük ve tutarsız etki boyutları pragmatik olarak önemli olabilir veya olmayabilir (istatistiksel olarak anlamlı - Goodman'ın (2008) kirli düzine diğeri); bu, daha çok, istatistiksel önemin kendisini sınırlı bir ölçüde ilgilendirdiği verilerin anlamına bağlıdır. Yukarıdakilere cevabımı görün .

... p> 0.95 ise bir sonucun kesinlikle yanlış (desteklenmeden ziyade) olarak adlandırılması doğru olmaz mı?

Veri yana olmalıdır genellikle ampirik olgusal gözlemleri temsil, bunlar yanlış olmamalı; ideal olarak, sadece onlar hakkındaki çıkarımlar bu riskle yüzleşmelidir. (Elbette ölçüm hatası da meydana gelir, ancak bu sorun bu cevabın kapsamı dışındadır, bu yüzden burada bahsetmekten başka, onu yalnız bırakacağım.) Sıfırın daha az yararlı olması konusunda yanlış pozitif bir çıkarım yapma riski her zaman vardır. alternatif hipotezden, en azından çıkarımcı sıfırın doğru olduğunu bilmedikçe. Sadece null'un kelimenin tam anlamıyla doğru olduğunun anlaşılması zor bilgi durumunda, alternatif bir hipotezi destekleyen bir çıkarım kesinlikle yanlış olur ... en azından şu anda hayal edebildiğim kadarıyla.

Açıkçası, yaygın kullanım veya konvansiyon epistemik veya çıkarımsal geçerlilik konusunda en iyi otorite değildir. Yayınlanmış kaynaklar bile hatalıdır; bakınız p-değeri tanımında yanlışlık . Referansınız ( Hurlbert ve Lombardi, 2009 ) bu prensibin bazı ilginç açıklamalarını da sunmaktadır (sayfa 322):

StatSoft (2007) web sitelerinde , çevrimiçi kılavuzlarının “Encyclopedia Brittanica tarafından önerilen istatistiklere ilişkin tek internet kaynağı olduğunu” iddia ediyor. Tampon etiketinin dediği gibi 'Güvensizlik Otoritesi' için hiç bu kadar önemli olmamıştı. [Komik olarak kesilmiş URL, köprülü metne dönüştürüldü.]

Bir başka örnek: çok yakın tarihli Nature News makalesinde ( Nuzzo, 2014 ) : "P değeri, kanıtların gücü için ortak bir endeks ..." Bkz. Wagenmakers'ın (2007, sayfa 787) "Sorun 3:pDeğerler İstatistiksel Kanıtları Nicelleştirmiyor "... Ancak, @MichaelLew ( Lew, 2013 ) faydalı bulabileceğiniz bir şekilde aynı fikirde değil:polasılık fonksiyonlarını indekslemek için değerler. Ancak yayınlanan bu kaynaklar birbiriyle çeliştiği ölçüde, en azından birinin yanlış olması gerekir! (Bir düzeyde, sanırım ...) Tabii ki, bu kendi başına "güvenilmez" kadar kötü değil. Umarım Michael'ı onu benim gibi etiketleyerek buraya koyabilirim (ancak kullanıcı etiketlerinin düzenlendiğinde bildirim gönderdiğinden emin değilim - OP'de seninki yaptığını sanmıyorum). Nuzzo - hatta Doğa'yı kurtarabilecek tek kişi olabilir kendisi ! Bize yardım et Obi-Wan! (Ve buradaki cevabım hala çalışmanızın etkilerini anlayamadığımı gösteriyorsa affet, ki her halükarda eminim ki ...) BTW, Nuzzo ayrıca ilginç bir savunma ve çürütme sunuyor Wagenmaaker'ların "Sorun 3": bkz. Nuzzo'nun "Olası neden"( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner ve Greenberg, 2007 ) . Bunlar gerçekten aradığınız cevabı içerebilir, ama söyleyebileceğimden şüpheliyim.

Re: çoktan seçmeli sorunuz, ben seçiyorum d. Burada bazı kavramları yanlış yorumlamış olabilirsiniz, ancak eğer öyleyse kesinlikle yalnız değilsiniz ve yargıyı size bırakacağım, çünkü gerçekten neye inandığınızı biliyorsunuz. Yanlış yorumlama bir miktar kesinlik anlamına gelirken, bir soru sormak bunun tam tersini ima eder ve ne yazık ki belirsizliğin oldukça övünebilir ve her yerde bulunmadığı zaman soru sorma dürtüsü. Bu insan doğası meselesi, sözleşmelerimizin yanlışlığını ne yazık ki zararsız ve burada atıfta bulunulanlar gibi şikayetleri hak ediyor. (Size kısmen teşekkür ederiz!) Ancak, teklifiniz de tamamen doğru değil.

İle ilgili sorunlar hakkında bazı ilginç tartışmalar pkatıldığım değerler şu soruda yer alıyor: p değerlerinin yerleşik görünümlerini barındırmak . Cevabım, yorumlayıcı problemleri ve alternatifleri daha fazla okumak için yararlı bulabileceğiniz birkaç referansı listeliyorpdeğerler. Dikkatli olun: Hala bu tavşan deliğinin dibine vurmadım , ama en azından bunun çok derin olduğunu söyleyebilirim . Hala kendim öğreniyorum (başka bir Bayesian perspektiften yazacağımdan şüpheleniyorum [değiştir]: ya da belki NFSA perspektifinden! Hurlbert & Lombardi, 2009 ) , en iyi ihtimalle zayıf bir otoriteyim ve hoş geldiniz burada söylediklerime başkalarının sunabileceği herhangi bir düzeltme veya ayrıntı. Sonuç olarak düşünebileceğim tek şey, muhtemelen matematiksel olarak doğru bir cevap olması ve çoğu insanın yanlış anlaması olabilir. Aşağıdaki referansların gösterdiği gibi, doğru cevap kesinlikle kolay değildir ...

PS İstendiği gibi (bir çeşit ... Ben gerçekten sadece üzerinde çalışmak yerine bunu tack itiraf ediyorum), bu soru bazen düzgün bir dağılım için daha iyi bir referanstırpnull verilen: " P-değerleri null hipotezi altında niçin eşit olarak dağıtılır? " Özellikle ilgi çekici bir durum yaratan @ whuber'ın yorumlarıdır. Bir bütün olarak tartışma ile bir şekilde doğru olduğu gibi, iddialarını bırakmadan,% 100 argümanlarını takip etmiyorum, bu yüzden bu problemlerden emin değilimpdağıtım tekdüzeliği aslında istisnai bir durumdur. Korkarım derinlemesine istatistiksel karışıklığa neden olmaktan korkuyorum ...

Referanslar

- Goodman, SN (1992). Çoğaltma, P değerleri ve kanıtlar üzerine bir yorum . Tıpta İstatistikler, 11 (7), 875–879.
- Goodman, SN (2001). Of P mütevazı önerisi:-değerlerinin ve Bayes. Epidemiyoloji, 12 (3), 295-297. Http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf adresinden erişildi .
- Goodman, S. (2008). Kirli bir düzine: On iki P değeri yanlış anlama. Hematoloji Seminerleri, 45 (3), 135-140. Http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf adresinden erişildi .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. ve Greenberg, DA (2007). İlişkilendirme çalışmalarının çoğaltılmaması: çoğaltmak için “sahte başarısızlıklar”? Tıpta Genetik, 9 (6), 325-331. Http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html adresinden erişildi .
- Hurlbert, SH ve Lombardi, CM (2009). Neyman-Pearson karar teorik çerçevesinin nihai çöküşü ve neoFisherian'ın yükselişi. Annales Zoologici Fennici, 46 (5), 311-349. Http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf adresinden erişildi .
- Lew, MJ (2013). P'ye ya da P'ye: P değerlerinin kanıtsal doğası ve bunların bilimsel çıkarımdaki yeri hakkında. arXiv: 1311.0081 [stat.ME]. Alınanhttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Klinik çalışmalarda Bayesians: Anahtarda uyuyor. Tıpta İstatistikler, 27 (4), 469-482.
- Nuzzo, R. (12 Şubat 2014). Bilimsel yöntem: İstatistiksel hatalar. Nature News, 506 (7487). Http://www.nature.com/news/scientific-method-statistic-errors-1.14700 adresinden erişildi .
- Wagenmakers, EJ (2007). P değerlerinin yaygın problemlerine pratik bir çözüm . Psikonomik Bülten ve Gözden Geçirme, 14 (5), 779-804. Http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf adresinden erişildi .


,: Hala (bunun için teşekkürler) senin çok kapsamlı cevap yoluyla çalışıyorum ama "Bayes istilası" tutarındaki söz bana "Anahtarındaki Uyurken Klinik Araştırmalarda Bayesians" düşündürdü burada Bölüm 12 olarak yeniden basıldı , ben' Ayrıca yavaşça kafamı sararım.
Andrew Klaassen

"Ya görüntülenemeyen bir sayfaya ulaştınız ya da bu kitap için görüntüleme sınırınıza ulaştınız" ...?
Nick Stauner

1
Bu talihsizlik. Dergi erişiminiz varsa, bunu burada da bulabilirsiniz . "Bayesianlar artık klinik araştırmalarda geleneksel engelleri yıkıyor" ifadesini aramak sizi oraya götürebilir.
Andrew Klaassen

1
Neyman-Pearson karar teorik çerçevesinin son çöküşü ve neoFisherian'ın yükselişi aynı zamanda eğlenceli bir p-değerleri geçmişi ve araştırmada Bayes analizinin kullanımına yönelik saldırı içerir. Bunu değerlendirmek için yeterince iyi anladığımı söyleyemem, ama en azından mevcut coşkuyla ilgili düzeltmelerden haberdar olmanın iyi olduğunu düşünüyorum.
Andrew Klaassen

1
@NickStauner Bu tartışmayı yeni buldum. Kabul etmeyen bir dizi hesap varsa, en az bir hesabın yanlış olması gerekli değildir. Farklı modellere dayanabilirler. [Eğer oyun iseniz, Bill Thompson'un İstatistiksel Kanıtın Doğası (2005) kitabını okumalısınız.] Bununla birlikte, hesabım kesinlikle doğru ;-) (Bu sabah yine bir dergi tarafından reddedilmesine rağmen.) Nuzzo belgesini buldum dikkatsiz ve potansiyel olarak yanıltıcı olabilir.
Michael Lew
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.