Önemlilik testi devam ettiğinde (veya önemlilik testi ile esasen aynı şeyi yapan herhangi bir şey ), çoğu durumda en iyi yaklaşımın, bunun için% 95'lik bir güven aralığı ile standartlaştırılmış bir etki büyüklüğü tahmin edebileceğini düşündüm. etki büyüklüğü. Orada gerçekten yeni bir şey yok - matematiksel olarak aralarında ileri geri çekebilirsiniz - eğer bir 'sıfır' boş değeri <.05 ise, o zaman 0% 95 CI'nin dışında kalır ve bunun tersi de geçerlidir. Bunun avantajı bence psikolojiktir.; yani, var olan bilgiyi verir, ancak insanların sadece p değerleri bildirildiğinde göremediklerini belirtir. Örneğin, bir etkinin çılgınca “anlamlı” olduğunu, ama gülünç derecede küçük olduğunu görmek kolaydır; veya 'anlamlı değil', ancak yalnızca hata çubukları çok büyük olduğu için, tahmin edilen etki beklenenden az veya çok olduğu için. Bunlar ham değerler ve CI'leri ile eşleştirilebilir.
Şimdi, birçok alanda ham değerler doğal olarak anlamlıdır ve bunun zaten araçlar ve eğimler gibi değerlere sahip olduğumuz göz önüne alındığında etki büyüklüğü ölçütlerini hesaplamanın hala değip değmeyeceği sorusunu gündeme getirdiğini biliyorum. Bir örnek bodur büyümeye bakıyor olabilir; 20 yaşında beyaz bir erkeğin 6 +/- 2 inç daha kısa (yani 15 +/- 5 cm) olmasının ne anlama geldiğini biliyoruz, öyleyse neden ? Her ikisinde de raporlamanın hala değerli olabileceğini düşünmeye meyilliyim ve bunları hesaplamak için fonksiyonlar yazılabilir, böylece çok az ekstra çalışma olur, ancak fikirlerin değişeceğini biliyorum. Her halükarda, güven tahminleriyle nokta tahminlerinin cevabımın ilk parçası olarak p-değerlerinin yerini aldığını iddia ediyorum. d=−1.6±.5
Öte yandan, daha büyük bir sorunun 'önemlilik testinin gerçekten istediğimiz şeyi yaptığı şey mi' olduğunu düşünüyorum. Bence asıl sorun, verilerin analizini yapan çoğu insan için (yani, istatistikçi olmayan uygulayıcılar), anlamlılık testinin veri analizinin tamamı haline gelebileceğini düşünüyorum. Bana göre en önemli şey, verilerimizde neler olup bittiğini düşünmenin ilkeli bir yolunun olması ve boş hipotez anlamlılık testi, en azından bunun çok küçük bir kısmı. Hayali bir örnek vereyim (bunun bir karikatür olduğunu kabul ediyorum, ama ne yazık ki, bunun biraz makul olduğunu düşünüyorum):
Bob, başka bir şey hakkında veri toplayan bir çalışma yürütür. Verilerin normal olarak dağıtılmasını, bazı değerlerin etrafında sıkıca kümelenmesini ve verilerinin önceden belirlenmiş bir değerden “önemli ölçüde farklı olup olmadığını” görmek için tek örnekli bir t testi yapmayı planlıyor. Örneğini topladıktan sonra, verilerinin normal şekilde dağıtılıp dağıtılmadığını kontrol eder ve olmadığını tespit eder. Bunun yerine, merkezde belirgin bir yumru yoktur, ancak belirli bir aralıkta göreceli olarak yüksektir ve daha sonra uzun bir sol kuyruk ile izlerini sürün. Bob, testinin geçerli olmasını sağlamak için ne yapması gerektiğinden endişe ediyor. Bir şeyler yapmaktan vazgeçer (örneğin, bir dönüşüm, parametrik olmayan bir test vb.) Ve sonra bir test istatistiği ve bir p değeri rapor eder.
Umarım bu iğrenç bir şey değildir. Kimseyle alay etmek istemem ama bunun gibi bir şey olur sanırım. Bu senaryo gerçekleşirse, bunun kötü veri analizi olduğu konusunda hemfikir olabiliriz. Ancak, sorun test istatistiğinin veya p-değerinin yanlış olmaması değil; Verilerin bu bakımdan uygun bir şekilde kullanıldığını söyleyebiliriz.. Sorunun Bob’un Cleveland’ın “ezberli veri analizi” olarak adlandırdığı şeyle ilgili olduğunu savunuyorum. Tek noktanın doğru p-değerini elde etmek olduğuna inanıyor ve bu amacı gerçekleştirmenin dışındaki verileri hakkında çok az şey düşünüyor. Yukarıdaki önerime geçebilir ve% 95 güven aralığına sahip standart bir etki büyüklüğü bildirmiş olabilirdi ve daha büyük bir sorun olarak gördüğüm şeyi değiştirmezdi (esasen aynı şeyi yapmayı kastediyordum) "farklı bir yöntemle". Bu özel durumda, verilerin beklendiği gibi görünmediği (yani normal değildi) gerçeği gerçek bir bilgidir, ilginçtir.ve çok büyük olasılıkla önemli, ama bu bilgi aslında sadece atılıyor. Bob, anlam testine odaklandığından dolayı bunu tanımıyor. Aklıma göre, bu anlamlılık testi ile gerçek bir sorundur.
Bahsettiğim diğer birkaç perspektifi ele alalım ve kimseyi eleştirmediğim konusunda çok net olmak istiyorum.
- Pek çok insanın p-değerlerini gerçekten anlamadığından söz edilir (örneğin, boş olma olasılıkları olduğunu düşünerek), vb. çekip gitmek. İnsanların Bayesian veri analizine bu kadar içten ve mekanik bir şekilde yaklaşabileceğine inanıyorum. Ancak, p değerinin anlamını yanlış anlamanın, hiç kimse p değeri almayı düşünmüyorsa, bunun daha az zararlı olacağını düşünüyorum.
- “Büyük veri” nin varlığı genellikle bu konuyla ilgili değildir. Büyük veri yalnızca, veri analizini 'önem' etrafında organize etmenin faydalı bir yaklaşım olmadığını açıkça ortaya koymaktadır.
- Sorunun test edilen hipotezle olduğuna inanmıyorum. İnsanlar tahmin edilen değerin bir aralığın dışında olup olmadığını görmek istiyorsa, bir puan değerine eşit olmak yerine, aynı sorunların çoğunu ortaya çıkarabilir. (Yine, açık olmak istiyorum, senin 'Bob' olmadığını biliyorum .)
- Kayıt için, ilk paragraftan gelen kendi önerimin, işaret etmeye çalıştığım gibi sorunu ele almadığını belirtmek istiyorum .
Benim için asıl mesele bu: Gerçekten istediğimiz şey olanları düşünmenin ilkeli bir yolu . Bunun herhangi bir durumda ne anlama geldiği kesilmez ve kurutulmaz. Bunun bir metot sınıfındaki öğrencilere nasıl kazandırılacağı açık ve kolay değildir. Önemlilik testinin arkasında pek çok atalet ve gelenek vardır. İstatistik sınıfında neyin öğretilmesi gerektiği ve nasıl olduğu açıktır. Öğrenciler ve uygulayıcılar için, materyali anlamak için kavramsal bir şema ve analiz yapmak için bir kontrol listesi / akış şeması (bazılarını gördüm!) Geliştirmek mümkün hale gelir. Önemlilik testi, hiç kimse aptal, tembel ya da kötü olmadan doğal olarak eziyet veri analizine dönüşebilir. Yani sorundur.