Önceden bilmediğiniz dağıtımınız ve etki büyüklüğünüz hakkında bir fikriniz olmadan bir durma kuralınız olamaz.
Ayrıca evet, efekt boyutuna odaklanmamız gerekiyor - ve sadece p değerlerini dikkate almak hiç doğru görülmedi ve kesinlikle efekt boyutu yerine p değerleri veya F değerleri gösteren tablolar veya grafikler göstermemeliyiz.
Geleneksel İstatistiksel Hipotez Çıkarma Testi ile ilgili sorunlar var (Cohen'in kısaltmasına layık olduğunu söylüyor ve Fisher ve Pearson, bugün şiddetle karşı çıkan isimlerinde yapılan her şeyi görürlerse mezarlara dönecekti).
N'yi belirlemek için, dağıtımla ilgili birçok varsayım yapmanın yanı sıra, bir hedef önem ve güç eşiği belirlemiş olmanız ve özellikle de oluşturmak istediğiniz etki boyutunu belirlemeniz gerekir. İndolleme bunun başlangıç noktası olması gerektiği gibi doğrudur - hangi minimum etki büyüklüğünün uygun maliyetli olacağı!
"Yeni İstatistikler", ilgili standart sapmalar veya varyans (dağılımı anlamamız gerektiğinden) ve standart sapmaları veya güven aralıklarını (ancak ikincisi zaten bir p değeriyle kilitlemek ve bir yönü mü yoksa her şekilde bahsi mi tahmin edeceğinize dair bir karar). Ancak bilimsel bir öngörü ile belirtilen işaretin minimum bir etkisini belirlemek, bunu ön plana çıkarır - ön-bilimsel varsayılan, deneme yanılma yapmak ve sadece farklılıkları aramaktır. Fakat yine de bu şekilde giderseniz normallik hakkında varsayımlar yaptınız.
Başka bir yaklaşım, kutu grafiklerini parametrik olmayan bir yaklaşım olarak kullanmaktır, ancak bıyık ve aykırı değerlere ilişkin sözleşmeler büyük ölçüde değişir ve o zaman bile kendileri dağıtım varsayımlarından kaynaklanır.
Durdurma problemi gerçekten de N'yi ayarlayan veya ayarlayan bireysel bir araştırmacının problemi değildir, ancak binlerce araştırmacıdan oluşan bir topluluğumuz var, burada 1000 geleneksel 0.05 seviyesi için 1 / alfa'dan çok daha fazla. Cevabın şu anda meta-analizi kolaylaştırmak ve tüm deneylerin birleştirilmiş sonuçlarını sunmak için özet istatistikleri (ortalama, stddev, stderr - veya karşılık gelen "parametrik olmayan versiyonlar - medyan vb. belirli bir alfa seviyesine ulaşmış veya ulaşmamış olabilir.
Sıklıkla ilişkili olan ve deneylerin koruma gücü adına aşırı basit tutulduğu, sonuçları analiz etmek için aşırı karmaşık metodolojilerin önerildiği çoklu test problemi yakından ilişkilidir.
Ne yaptığımızı hala bilmediğimiz için, bununla ilgili henüz bir ders kitabı bölümü olabileceğini sanmıyorum ...
Şimdilik, en iyi yaklaşım muhtemelen soruna en uygun geleneksel istatistikleri kullanmaya devam etmek, özet istatistikleri görüntülemekle birlikte - etki ve standart hata ve N en önemlisidir. Güven aralıklarının kullanımı temel olarak karşılık gelen T-testine eşdeğerdir, ancak yeni sonuçların yayınlanmış olanlarla daha anlamlı bir şekilde karşılaştırılmasına ve tekrarlanabilirliği teşvik eden bir ethos'a ve çoğaltılan deneylerin ve meta-analizlerin yayınlanmasına izin verir.
Bilgi Teorisi veya Bayesci yaklaşımlar açısından, farklı araçlar kullanırlar ve farklı varsayımlar yaparlar, ancak yine de tüm cevaplara sahip değildirler ve sonunda aynı problemlerle veya daha kötüsü ile karşı karşıyadırlar çünkü Bayesian çıkarım kesin bir geri dönüş yapmaktan uzaklaşır varsayılmış ya da yoksundur.
Sonunda Makine Öğrenimi ayrıca önem için dikkate alması gereken sonuçlara sahiptir - genellikle CI'ler veya T-Testi ile, genellikle grafikler ile, dağıtımlar eşleşmediğinde uygun şekilde dengelenmiş sürümleri kullanmak yerine karşılaştırmak yerine umarım eşleşir. Ayrıca, önyükleme ve çapraz doğrulama ile önyargı ve varyans hakkında tartışmaları vardır. Hepsinden kötüsü, dizginsiz çoklu testlere izin vermek için düşünceli bir şekilde arşivlenmiş veri kümelerine uygulanan birçok araç kutusundan birinde bulunan tüm algoritmaları iyice parametrelendirerek sayısız alternatif model üretme ve test etme eğilimine sahiptir. En kötüsü hala karanlık çağlarda, doğruluk ya da daha da kötüsü, F-ölçüsü, şans için doğru yöntemler yerine değerlendirme için.
Bu konularla ilgili onlarca makale okudum, ancak çoğu araştırmacının istatistikleri herhangi bir "standarda göre düzgün bir şekilde ele almadığını ve yorumlamadığını gösteren negatif anket veya meta analiz kağıtları hariç, tamamen ikna edici bir şey bulamadım. ", eski veya yeni. Güç, çoklu test, boyutlandırma ve erken durma, standart hataların yorumlanması ve güven aralıkları ... bunlar sadece sorunlardan bazıları.
Lütfen beni vurun - Yanlış kanıtlanmak istiyorum! Bana göre çok fazla banyo suyu var, ama bebeği henüz bulamadık! Bu aşamada, aşırı görüşlerin veya isim-marka yaklaşımlarının hiçbiri cevap olarak umut verici görünmüyor ve diğer her şeyi atmak isteyenler muhtemelen bebeği kaybetti.