Aşağıdaki iki fikirde büyük suç alıyorum:
Büyük örneklemlerle anlamlılık testleri, sıfır hipotezinden küçük, önemsiz ayrılmalar üzerine sıçrama yapar.
Neredeyse hiçbir boş hipotez gerçek dünyada doğru değildir, bu yüzden onlar için bir önemlilik testi yapmak saçma ve tuhaftır.
P-değerleri hakkında çok tartışmalı bir tartışma. İstatistiklerin gelişimini motive eden en temel sorun, bir eğilim görmek ve gördüklerimizin tesadüfen mi yoksa sistematik bir eğilimin temsilcisi olup olmadığını bilmek istemekten kaynaklanmaktadır.
Bunu göz önünde bulundurarak, istatistikçiler olarak, tipik olarak boş bir hipotezin doğru olduğuna inanmadığımız doğrudur (yani , burada iki grup arasındaki bazı ölçümlerde ortalama farktır). Ancak, iki taraflı testlerle, hangi alternatif hipotezin doğru olduğunu bilmiyoruz! İki taraflı bir testte, verileri görmeden önce % 100 emin olduğumuzu söylemeye istekli olabiliriz . Ancak veya olup olmadığını bilmiyoruz . Dolayısıyla, ve olduğu sonucuna , (Matloff'un söyleyebileceği gibi; gereksiz sonuç) reddetmiş oluruz ama daha da önemlisi, biz de reddettik.Ho:μd=0μdμd≠0μd>0μd<0μd>0μd=0μd<0 (diyorum ki; faydalı sonuç). @ Amoeba'nın işaret ettiği gibi, bu aynı zamanda, bir ilacın olumlu bir etkisinin olup olmadığının test edilmesi gibi iki taraflı olma potansiyeline sahip tek taraflı bir test için de geçerlidir.
Bunun size etkinin büyüklüğünü söylemediği doğru. Fakat size etkinin yönünü anlatıyor. Öyleyse arabayı attan önce koymayalım; etkinin büyüklüğü ile ilgili sonuçlar çıkarmaya başlamadan önce, etkinin yönünü doğru yaptığımdan emin olmak istiyorum!
Benzer şekilde, "p-değerlerinin minik, önemsiz etkiler üzerinde durduğu" argümanı bana oldukça kusurlu görünüyor. Verilerin sonucunuzun yönünü ne kadar desteklediğinin bir ölçüsü olarak bir p-değeri düşünürseniz, tabii ki, örneklem büyüklüğü yeterince büyük olduğunda küçük etkileri almasını istersiniz. Bunun faydalı olmadığını söylemek benim için çok garip: p-değerlerinden muzdarip olan bu araştırma alanları, o kadar çok veriye sahip olanların tahminlerinin güvenilirliğini değerlendirmek zorunda kalmayacakları aynı mı? Benzer şekilde, eğer sorunlarınız gerçekten "küçük etki büyüklüklerinde " p değerleri ise, o zaman basitçe ve hipotezlerini test edebilirsiniz.H 2 : μ d < - 1H1:μd>1H2:μd<−1(1'in asgari önemli etki büyüklüğü olduğuna inanıyorum). Bu genellikle klinik çalışmalarda yapılır.
Bunu daha fazla açıklamak için, güven aralıklarına ve atılan p değerlerine baktığımızı varsayalım. Güven aralığında kontrol edeceğiniz ilk şey nedir? Sonuçları çok ciddiye almadan önce etkinin kesinlikle olumlu (veya olumsuz) olup olmadığı. Dolayısıyla, p-değerleri olmasa bile, gayrı resmi olarak hipotez testi yapıyorduk.
Son olarak, OP / Matloff'un “p-değerlerinin ikna edici bir argümanını önemli ölçüde daha iyi bir argüman ver” isteğine ilişkin olarak, sorunun biraz garip olduğunu düşünüyorum. Bunu söylüyorum çünkü görüşünüze bağlı olarak, otomatik olarak kendini yanıtlıyor ("bana bir hipotezi test etmenin onları test etmekten daha iyi olduğu somut bir örnek verin"). Bununla birlikte, neredeyse inkar edilemez olduğunu düşündüğüm özel bir durum RNAseq verisidir. Bu durumda, genellikle RNA'nın iki farklı gruptaki (yani hastalıklı, kontroller) ekspresyon seviyesine bakıyoruz ve iki grupta farklı şekilde eksprese edilen genleri bulmaya çalışıyoruz. Bu durumda, etki büyüklüğünün kendisi bile gerçekten anlamlı değildir. Bunun nedeni, farklı genlerin ekspresyon seviyelerinin o kadar çılgınca değişmesi ki, bazı genler için 2 kat daha yüksek ifadeye sahip olmak hiçbir şey ifade etmiyor. Sıkıca regüle edilmiş diğer genlerde, 1.2x daha yüksek ekspresyon ölümcüldür. Dolayısıyla, etki büyüklüğünün gerçek büyüklüğü, grupları ilk karşılaştırırken aslında biraz ilginçtir. Ama sengerçekten, gerçekten genin ifadesinin gruplar arasında ve değişimin yönü arasında değişip değişmediğini bilmek istiyorum! Ayrıca, çoklu karşılaştırmalarla ilgili sorunları (tek bir çalışmada 20.000 kişi yapıyor olabilirsiniz), p-değerleri ile olduğundan daha fazla güven aralıklarıyla ele almak çok daha zordur.