Veri analizimi tamamladım ve hipotezime uygun "istatistiksel olarak anlamlı sonuçlar" aldım. Bununla birlikte, istatistikteki bir öğrenci bunun erken bir sonuç olduğunu söyledi. Neden? Raporuma dahil edilmesi gereken başka bir şey var mı?
Veri analizimi tamamladım ve hipotezime uygun "istatistiksel olarak anlamlı sonuçlar" aldım. Bununla birlikte, istatistikteki bir öğrenci bunun erken bir sonuç olduğunu söyledi. Neden? Raporuma dahil edilmesi gereken başka bir şey var mı?
Yanıtlar:
Tipik olarak, hipotezler ikili bir şekilde çerçevelenir. Yönü hipotezlerini bir tarafa koyarım, çünkü konuyu fazla değiştirmezler. En azından psikolojide şu gibi hipotezlerden bahsetmek yaygındır: grup ortalamaları arasındaki fark sıfırdır veya değildir; korelasyon sıfırdır veya değildir; regresyon katsayısı sıfırdır veya sıfır değildir; r karesi sıfırdır veya değildir. Tüm bu durumlarda, etkisiz bir sıfır hipotezi ve etkinin alternatif bir hipotezi vardır.
Bu ikili düşünce genellikle bizim en çok ilgilendiğimiz şey değildir. Araştırma sorunuzu düşündüğünüzde, neredeyse her zaman parametreleri tahmin etmekle ilgilendiğinizi hemen hemen anlayacaksınız. Grup ortalamaları arasındaki gerçek fark veya korelasyonun büyüklüğü veya regresyon katsayısının büyüklüğü veya açıklanan varyans miktarı ile ilgileniyorsunuz.
Elbette, bir veri örneği aldığımızda, bir parametrenin örnek tahmini, popülasyon parametresi ile aynı değildir. Bu yüzden parametrenin değerinin ne olabileceği konusundaki belirsizliğimizi ölçmenin bir yoluna ihtiyacımız var. Sık sık bakış açısından bakıldığında, güven aralıkları, Bayesçi püristlerin yapmak isteyebileceğiniz çıkarımlara kesinlikle izin vermediklerini iddia edebildiklerini iddia etmelerine rağmen, bunu yapmanın bir yolunu sağlar. Bayes bakış açısına göre, arka yoğunluklardaki güvenilir aralıklar, bir popülasyon parametresinin değeri hakkındaki belirsizliğinizi ölçmenin daha doğrudan bir yolunu sağlar.
İkili hipotez test yaklaşımından uzaklaşmak sizi sürekli düşünmeye zorlar. Örneğin, gruptaki hangi büyüklük farkı teorik olarak ilginç olabilir? Grup araçları arasındaki farkı öznel bir dille veya pratik çıkarımlarla nasıl eşleştirirsiniz? Bağlamsal normlarla birlikte standartlaştırılmış etki ölçütleri, farklı parametre değerlerinin ne anlama geldiğini ölçmek için bir dil oluşturmanın bir yoludur. Bu tür ölçütler genellikle "etki büyüklükleri" olarak etiketlenir (örneğin, Cohen'in d, r, , vb.). Bununla birlikte, standartlaştırılmamış tedbirler kullanarak etkinin öneminden bahsetmek tamamen mantıklı ve sıklıkla tercih edilir (örneğin, gruptaki fark gelir düzeyi, yaşam beklentisi vb. Gibi anlamlı standartlaştırılmamış değişkenler anlamına gelir).
P-psikolojide (ve diğer alanlarda) p-değerlere, boş hipotez anlamlılık testine vb. Odaklanmayı eleştiren çok büyük bir literatür var (bu Google Akademik araştırmasına bakın ). Bu literatür sıklıkla, etki büyüklüklerinin çözünürlük olarak güven aralıklarıyla raporlanmasını önerir (örn., Wilkinson, 1999'daki APA Task force).
Eğer bu düşünceyi benimsemeyi düşünüyorsanız, aşamalı olarak daha ileri düzeyde yaklaşımlar izleyebileceğinizi düşünüyorum:
Birçok olası referans arasında, Andrew Gelman'ın blogunda ve araştırmasında bu konular hakkında çokça konuştuğunu göreceksiniz .
Sadece mevcut cevapları eklemek için (bu arada, harika). İstatistiksel anlamlılığın örneklem büyüklüğünün bir fonksiyonu olduğunu bilmek önemlidir .
Her geçen gün daha fazla veri elde ettiğinizde, nerede olursanız olun istatistiksel olarak anlamlı farkları bulabilirsiniz. Veri miktarı çok büyük olduğunda, en küçük etkiler bile istatistiksel olarak önemli olabilir. Bu, söz konusu etkilerin pratik olarak anlamlı olduğu anlamına gelmez.
Farklılıklar için test yaparken, sadece değerleri yeterli değildir, çünkü istatistiksel olarak anlamlı bir sonuç üretmek için gereken etki büyüklüğü, artan örnek büyüklüğü ile azalır . Uygulamada, asıl soru genellikle verilen asgari büyüklüğün etkisinin olup olmadığına ilişkindir (ilgili olmak). Örnekler çok büyüdüğünde , -değerleri gerçek soruyu yanıtlarken anlamsız hale gelir .p
Eğer hipotezinizden şüphelenmek için makul bir temel varsa, çalışmanızı yürütmeden önce doğru olabilir; ve iyi bir çalışma yaptınız (örneğin, herhangi bir karışıklığa neden olmadı); ve sonuçlarınız hipotezinizle tutarlıydı ve istatistiksel olarak anlamlıydı; o zaman, o kadarıyla, sen iyi olduğunu düşünüyorum.
Ancak, öneminizde, sonuçlarınızda önemli olan tek şey olduğunu düşünmemelisiniz. Öncelikle, aynı zamanda etki büyüklüğüne de bakmalısınız (buradaki cevabım: Etki büyüklüğü, önem testi için hipotez olarak ). Ayrıca, verilerinizi biraz araştırmak isteyip, takip etmeye değer olabilecek potansiyel olarak ilginç sürprizler bulabilir misiniz, görmek isteyebilirsiniz.
Bunu ve bunu ve bunu ve bunu rapor etmeden önce, sizden deneysel verilerden ne öğrenmek istediğinizi formüle ederek başlayın. Her zamanki hipotez testleriyle ilgili temel sorun (okulda öğrendiğimiz bu testler ...) ikilik değildir: asıl sorun, bunların ilgi hipotezi olmayan hipotezler için yapılan testlerdir. 13 no'lu slayta bakınız (animasyonları görmek için pdf dosyasını indirin). Etki büyüklükleri hakkında, bu kavramın genel bir tanımı yoktur . Açıkçası bunu uzman olmayan istatistikçiler için kullanmanızı tavsiye etmem, bunlar teknik değil, doğal değil, "etki" önlemidir. İlgilendiğiniz hipoteziniz, meslekten olmayanlar tarafından anlaşılabilir terimlerle formüle edilmelidir.
İstatistik konusunda uzman değilim, ancak bugüne kadar yaptığım istatistik derslerinde vurgulanan bir şey "pratik önem" meselesi. Bunun, “etki büyüklüğü” ne atıfta bulunurken Jeromy ve gung'un neden bahsettiğini ima ettiğini düşünüyorum.
İstatistiksel olarak anlamlı kilo kaybı sonuçları olan 12 haftalık bir diyetin sınıfında bir örneğimiz vardı, ancak% 95 güven aralığı 0,2 ile 1,2 kg arasında bir ortalama kilo kaybı gösterdi (Tamam, veriler büyük olasılıkla yapıldı ama bir nokta gösteriyor) . Sıfırdan farklı olarak "istatistiksel olarak anlamlı" "olmakla birlikte, 12 hafta boyunca 200 gram kilo kaybı," pratik olarak anlamlı "bir sonuç olarak sağlıklı olmaya çalışan aşırı kilolu bir kişinin sonucudur?
Çalışmanızın ve kişinin eleştirisinin daha fazla detayını bilmeden doğru cevap vermek mümkün değildir. Fakat burada bir olasılık var: eğer birden fazla test yaparsanız ve ortaya çıkan p<0.05
ve başkalarını görmezden gelenlere odaklanmayı seçtiyseniz , o zaman bu "önem" seçici dikkatiniz gerçeği ile seyreltilmiştir. Bunun için bir sezgi pompası olarak, p=0.05
"boş hipotez doğruysa bile, bu sonucun şans eseri (sadece)% 5 olacağı" anlamına geldiğini unutmayın . Bu nedenle ne kadar çok test yaparsanız, en azından bir tanesinin tesadüfen "önemli" bir sonuç olması ihtimali daha yüksektir - orada herhangi bir etkisi olmasa bile. Http://en.wikipedia.org/wiki/Multiple_comparisons ve http://en.wikipedia.org/wiki/Post-hoc_analysis bakın.
Aşağıdakileri okumanızı öneririm:
Anderson, DR, Burnham, KP, Thompson, WL, 2000. Boş hipotez testleri: Problemler, yaygınlık ve bir alternatif. J. Wildl. Yönetin. 64, 912-923. Gigerenzer, G., 2004. Akılsız istatistikler. Sosyo-Ekonomi Dergisi 33, 587-606. Johnson, DH, 1999. İstatistiksel Önemlilik Testinin Önemi. Yaban Hayatı Yönetimi Dergisi 63, 763-772.
Boş hipotezler, herhangi bir deney veya gözlem kümesinden, iki sonucun ortaya çıkması açısından nadiren ilginçtir: boşluğu doğru şekilde reddetmek veya bir Tip II hatası yapmak. Etki büyüklüğü belirleme konusunda muhtemelen ilgi çekici olan şeydir ve bir kez yapıldığında bu etki büyüklüğü için güven aralıkları oluşturmalısınız.