Farenizi herhangi bir fareyle üzerine getirin etiket (←sahte bir etikettir) aşağıda görünür. Lütfen satır aralığını kesintiye uğratın. Etiket alıntıları, okuyucuların okurken jargonun anlaşılmasını kontrol etmelerine yardımcı olabileceğinden, bunu değerli buluyorum. Bu alıntılardan bazıları da düzenlemeyi hak edebilir, bu yüzden bir yayıncı olan IMHO'yu da hak ediyorlar.
p > .05 normalde kişinin sıfır hipotezi. Tersine,tip-i-hatalarıya da yanlış pozitif bir kişi null nedeniyle reddettiğinde oluşurörnekleme hata veya başka bir olağandışı olay örneklem aksi takdirde mümkün değildi (genellikle p < .05) rastgele örneklenmiş olması nüfusburada null doğrudur. İle bir sonuçp > .05 yanlış pozitif olarak adlandırılan, sıfır hipotezinin yanlış anlaşıldığını yansıtıyor gibi görünüyor anlamlılık testi(NHST). NHST herkesin bildiği gibi sezgisel olduğundan, yanlış anlaşılmalar yayınlanmış araştırma literatüründe nadir değildir. Bu bir araya gelen çığlıklardan biribayesciistila (destekliyorum ama takip etmiyorum ... henüz). Yakın zamana kadar kendim gibi yanlış izlenimlerle çalıştım, bu yüzden en yürekten sempati duyuyorum.
@DavidRobinson bunu gözlemlemekte doğru p null değerinin yanlış olma olasılığı değil frequentistNHST. Bu (en azından) Goodman'ın (2008) "Kirli Düzine" hakkındaki yanılgılarından biridir.pdeğerleri (ayrıca bkz Hurlbert & Lombardi 2009 ) . NHST'de,p bu olasılık gelecekteki herhangi bir rastgele örneği bir ilişki veya fark (veya etki boyutlu diğer etki büyüklüğü çeşitleri varsa ... null değerine karşı test ediliyorsa ... pdeğeri, boş doğruysa. Yani,pnull verildiğinde sizinki gibi bir örnek alma olasılığıdır ; sıfır olasılığını yansıtmaz - en azından doğrudan değil. Tersine, Bayesci yöntemler, bir veya daha fazlaöncekidiğer avantajların yanı sıra tartışmalı dezavantajları bir kenara bırakarak, daha sezgisel olarak çekici bir yaklaşım olduğunu iddia ettikleri veriler göz önüne alındığında bir efekt teorisi ( Wagenmakers, 2007 ) . (Adil olmak gerekirse, bkz. " Bayesian analizinin eksileri nelerdir? " Ayrıca, burada bazı güzel cevaplar verebilecek makalelere atıfta bulunmuştunuz: Moyé, 2008; Hurlbert & Lombardi, 2009. )
Tartışmalı olarak, kelimenin tam anlamıyla belirtildiği gibi sıfır hipotezinin genellikle yanlış olmamasından daha olasıdır, çünkü sıfır hipotezleri en yaygın olarak, kelimenin tam anlamıyla sıfır etki hipotezidir . (Bazı kullanışlı karşı örnekler için, bkz. " Büyük veri kümeleri hipotez testi için uygun değil mi? ") Kelebek etkisi gibi felsefi sorunlar gerçek kelimeyi tehdit ediyorgeçerlilikböyle bir hipotezin; bu nedenle null, genellikle sıfır olmayan bir etkinin alternatif bir hipotezi için bir karşılaştırma temeli olarak yararlıdır. Böyle bir alternatif hipotez, veri toplandıktan sonra null doğru olsaydı mümkün olmayacak olan null değerinden daha akla yatkın kalabilir . Bu nedenle araştırmacılar tipik olarak null'a karşı kanıtlardan alternatif bir hipotez için destek çıkarırlar, ancak bu değildirp-değerleridoğrudan nicelleştirmek ( Wagenmakers, 2007 ) .
Şüphelendiğiniz gibi, İstatistiksel anlamlılık bir işlevi örnek boyutyanı sıra efekt boyutu ve tutarlılığı. (Bkz @ son soruya dediklerinin cevabı, " ortalama farkı neredeyse 0 olup olmadığını nasıl bir t-testi istatistiksel olarak anlamlı olabilir? ") Sık sık Verilerimizin sormak niyetinde soruları etkisi nedir" vardır x
üzerinde y
? " Çeşitli nedenlerden ötürü (özellikle istatistikçi olmayanlar tarafından öğretildiği gibi, istatistiklerde IMO, yanlış anlaşılmış ve başka türlü eksik eğitim programları dahil), kendimizi sık sık gevşek bir şekilde, "Rastgele mayın gibi verileri örnekleme olasılığı nedir?" x
etkilemeyen bir popülasyondan y
? " Bu, sırasıyla etki büyüklüğü tahmini ve önem testi arasındaki temel farktır. birp değer yalnızca son soruyu doğrudan yanıtlar, ancak birkaç profesyonel (@rpierce muhtemelen size benden daha iyi bir liste verebilir; sizi buna sürüklediğiniz için affet!) araştırmacıların yanlış okuduğunu savundu pönceki etki büyüklüğü sorusuna çok sık bir cevap olarak; Korkarım hemfikir olmalıyım.
Anlamına ilişkin daha doğrudan cevap vermek .05 < p < .95, boş değeri doğru olan bir popülasyondan verileri rastgele örnekleme olasılığının, ancak boş değerin, en azından verileriniz kadar geniş ve tutarlı bir kenar boşluğu ile tam olarak tanımladığı değerden farklı bir ilişki veya fark sergilemesidir. .. <nefes al> ...% 5-95 arasındadır. Bunun kesinlikle örneklem büyüklüğünün bir sonucu olduğunu iddia edebiliriz, çünkü artan örneklem büyüklüğü kişinin küçük ve tutarsız etki büyüklüklerini tespit etme ve bunları% 5'i aşan bir sıfır sıfır etkisinden bağımsız olarak ayırt etme yeteneğini geliştirir. Bununla birlikte, küçük ve tutarsız etki boyutları pragmatik olarak önemli olabilir veya olmayabilir (≠istatistiksel olarak anlamlı - Goodman'ın (2008) kirli düzine diğeri); bu, daha çok, istatistiksel önemin kendisini sınırlı bir ölçüde ilgilendirdiği verilerin anlamına bağlıdır. Yukarıdakilere cevabımı görün .
... p> 0.95 ise bir sonucun kesinlikle yanlış (desteklenmeden ziyade) olarak adlandırılması doğru olmaz mı?
Veri yana olmalıdır genellikle ampirik olgusal gözlemleri temsil, bunlar yanlış olmamalı; ideal olarak, sadece onlar hakkındaki çıkarımlar bu riskle yüzleşmelidir. (Elbette ölçüm hatası da meydana gelir, ancak bu sorun bu cevabın kapsamı dışındadır, bu yüzden burada bahsetmekten başka, onu yalnız bırakacağım.) Sıfırın daha az yararlı olması konusunda yanlış pozitif bir çıkarım yapma riski her zaman vardır. alternatif hipotezden, en azından çıkarımcı sıfırın doğru olduğunu bilmedikçe. Sadece null'un kelimenin tam anlamıyla doğru olduğunun anlaşılması zor bilgi durumunda, alternatif bir hipotezi destekleyen bir çıkarım kesinlikle yanlış olur ... en azından şu anda hayal edebildiğim kadarıyla.
Açıkçası, yaygın kullanım veya konvansiyon epistemik veya çıkarımsal geçerlilik konusunda en iyi otorite değildir. Yayınlanmış kaynaklar bile hatalıdır; bakınız p-değeri tanımında yanlışlık . Referansınız ( Hurlbert ve Lombardi, 2009 ) bu prensibin bazı ilginç açıklamalarını da sunmaktadır (sayfa 322):
StatSoft (2007) web sitelerinde , çevrimiçi kılavuzlarının “Encyclopedia Brittanica tarafından önerilen istatistiklere ilişkin tek internet kaynağı olduğunu” iddia ediyor. Tampon etiketinin dediği gibi 'Güvensizlik Otoritesi' için hiç bu kadar önemli olmamıştı. [Komik olarak kesilmiş URL, köprülü metne dönüştürüldü.]
Bir başka örnek: çok yakın tarihli Nature News makalesinde ( Nuzzo, 2014 ) : "P değeri, kanıtların gücü için ortak bir endeks ..." Bkz. Wagenmakers'ın (2007, sayfa 787) "Sorun 3:pDeğerler İstatistiksel Kanıtları Nicelleştirmiyor "... Ancak, @MichaelLew ( Lew, 2013 ) faydalı bulabileceğiniz bir şekilde aynı fikirde değil:polasılık fonksiyonlarını indekslemek için değerler. Ancak yayınlanan bu kaynaklar birbiriyle çeliştiği ölçüde, en azından birinin yanlış olması gerekir! (Bir düzeyde, sanırım ...) Tabii ki, bu kendi başına "güvenilmez" kadar kötü değil. Umarım Michael'ı onu benim gibi etiketleyerek buraya koyabilirim (ancak kullanıcı etiketlerinin düzenlendiğinde bildirim gönderdiğinden emin değilim - OP'de seninki yaptığını sanmıyorum). Nuzzo - hatta Doğa'yı kurtarabilecek tek kişi olabilir kendisi ! Bize yardım et Obi-Wan! (Ve buradaki cevabım hala çalışmanızın etkilerini anlayamadığımı gösteriyorsa affet, ki her halükarda eminim ki ...) BTW, Nuzzo ayrıca ilginç bir savunma ve çürütme sunuyor Wagenmaaker'ların "Sorun 3": bkz. Nuzzo'nun "Olası neden"( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner ve Greenberg, 2007 ) . Bunlar gerçekten aradığınız cevabı içerebilir, ama söyleyebileceğimden şüpheliyim.
Re: çoktan seçmeli sorunuz, ben seçiyorum d
. Burada bazı kavramları yanlış yorumlamış olabilirsiniz, ancak eğer öyleyse kesinlikle yalnız değilsiniz ve yargıyı size bırakacağım, çünkü gerçekten neye inandığınızı biliyorsunuz. Yanlış yorumlama bir miktar kesinlik anlamına gelirken, bir soru sormak bunun tam tersini ima eder ve ne yazık ki belirsizliğin oldukça övünebilir ve her yerde bulunmadığı zaman soru sorma dürtüsü. Bu insan doğası meselesi, sözleşmelerimizin yanlışlığını ne yazık ki zararsız ve burada atıfta bulunulanlar gibi şikayetleri hak ediyor. (Size kısmen teşekkür ederiz!) Ancak, teklifiniz de tamamen doğru değil.
İle ilgili sorunlar hakkında bazı ilginç tartışmalar pkatıldığım değerler şu soruda yer alıyor: p değerlerinin yerleşik görünümlerini barındırmak . Cevabım, yorumlayıcı problemleri ve alternatifleri daha fazla okumak için yararlı bulabileceğiniz birkaç referansı listeliyorpdeğerler. Dikkatli olun: Hala bu tavşan deliğinin dibine vurmadım , ama en azından bunun çok derin olduğunu söyleyebilirim . Hala kendim öğreniyorum (başka bir Bayesian perspektiften yazacağımdan şüpheleniyorum [değiştir]: ya da belki NFSA perspektifinden! Hurlbert & Lombardi, 2009 ) , en iyi ihtimalle zayıf bir otoriteyim ve hoş geldiniz burada söylediklerime başkalarının sunabileceği herhangi bir düzeltme veya ayrıntı. Sonuç olarak düşünebileceğim tek şey, muhtemelen matematiksel olarak doğru bir cevap olması ve çoğu insanın yanlış anlaması olabilir. Aşağıdaki referansların gösterdiği gibi, doğru cevap kesinlikle kolay değildir ...
PS İstendiği gibi (bir çeşit ... Ben gerçekten sadece üzerinde çalışmak yerine bunu tack itiraf ediyorum), bu soru bazen düzgün bir dağılım için daha iyi bir referanstırpnull verilen: " P-değerleri null hipotezi altında niçin eşit olarak dağıtılır? " Özellikle ilgi çekici bir durum yaratan @ whuber'ın yorumlarıdır. Bir bütün olarak tartışma ile bir şekilde doğru olduğu gibi, iddialarını bırakmadan,% 100 argümanlarını takip etmiyorum, bu yüzden bu problemlerden emin değilimpdağıtım tekdüzeliği aslında istisnai bir durumdur. Korkarım derinlemesine istatistiksel karışıklığa neden olmaktan korkuyorum ...
Referanslar
- Goodman, SN (1992). Çoğaltma, P değerleri ve kanıtlar üzerine bir yorum . Tıpta İstatistikler, 11 (7), 875–879.
- Goodman, SN (2001). Of P mütevazı önerisi:-değerlerinin ve Bayes. Epidemiyoloji, 12 (3), 295-297. Http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf adresinden erişildi .
- Goodman, S. (2008). Kirli bir düzine: On iki P değeri yanlış anlama. Hematoloji Seminerleri, 45 (3), 135-140. Http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf adresinden erişildi .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. ve Greenberg, DA (2007). İlişkilendirme çalışmalarının çoğaltılmaması: çoğaltmak için “sahte başarısızlıklar”? Tıpta Genetik, 9 (6), 325-331. Http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html adresinden erişildi .
- Hurlbert, SH ve Lombardi, CM (2009). Neyman-Pearson karar teorik çerçevesinin nihai çöküşü ve neoFisherian'ın yükselişi. Annales Zoologici Fennici, 46 (5), 311-349. Http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf adresinden erişildi .
- Lew, MJ (2013). P'ye ya da P'ye: P değerlerinin kanıtsal doğası ve bunların bilimsel çıkarımdaki yeri hakkında. arXiv: 1311.0081 [stat.ME]. Alınanhttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Klinik çalışmalarda Bayesians: Anahtarda uyuyor. Tıpta İstatistikler, 27 (4), 469-482.
- Nuzzo, R. (12 Şubat 2014). Bilimsel yöntem: İstatistiksel hatalar. Nature News, 506 (7487). Http://www.nature.com/news/scientific-method-statistic-errors-1.14700 adresinden erişildi .
- Wagenmakers, EJ (2007). P değerlerinin yaygın problemlerine pratik bir çözüm . Psikonomik Bülten ve Gözden Geçirme, 14 (5), 779-804. Http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf adresinden erişildi .