“İstatistiksel olarak anlamlı” neden yeterli değil?


46

Veri analizimi tamamladım ve hipotezime uygun "istatistiksel olarak anlamlı sonuçlar" aldım. Bununla birlikte, istatistikteki bir öğrenci bunun erken bir sonuç olduğunu söyledi. Neden? Raporuma dahil edilmesi gereken başka bir şey var mı?


4
Bu, "hipotezle tutarlı istatistiksel olarak anlamlı sonuçlar elde etmek" ile ne demek istediğinizi çok bağlıdır. Hipoteziniz rüzgârın ağaçlar tarafından üretilmesi ve denemeniz, ağaçların dallarını taşırken gözlemlerin% 100'ünde rüzgar olduğunu gösteriyorsa, istatistiki olarak anlamlı bulduğunuzu ve sonuçlarınızın kanıtlandığını gösterir. Bu açıkça yanlıştır. Yani, bu durumlardan biri olabilir.
sashkello

1
Gerçekten iyi tasarlanmış bir veri toplama, aynı model ve aynı hipotez testini kullanarak güvenilirlikle “önemli bir bulgu” olduğunu bildirmek için bir takip çalışmasına ihtiyacınız olacak. Ayrıca mevcut veri setinizin önemli bir bulgu ile ilgili hak talebinde bulunduğunuz "genel popülasyon" u temsil etmesini sağlamalısınız (bu "büyük veri" ile çıkarım için kilit bir sorundur)
olasılık

1
Kuşkusuz ki cevap, 'korelasyon nedensellik değildir' kadar basittir.
Kesirli

1
İşte benim favorim : Daha fazla pilav yiyen insanlar daha çok çocuk sahibi olur. Tüm dünya nüfusunu kontrol ederek , istatistiksel olarak anlamlı sonuçlar elde edersiniz ...
Karoly Horvath

4
Harika cevaplar, ancak kimsenin bariz bir çözüm önermediğine şaşırdım: Ona sor. Birisi size işinizde ya da değer verdiğiniz başka bir konuda yanıldığınızı söylediğinde, sadece sorun. Birine yanıldığını söylemek çünkü X, y ve Z harika - bu bir öğrenme fırsatı. Ama sadece birine yanıldığını ve uzak durduğunu söylemek bir çükme hareketidir.
Sylverdrag

Yanıtlar:


53

Parametre tahminine karşı hipotez testi

Tipik olarak, hipotezler ikili bir şekilde çerçevelenir. Yönü hipotezlerini bir tarafa koyarım, çünkü konuyu fazla değiştirmezler. En azından psikolojide şu gibi hipotezlerden bahsetmek yaygındır: grup ortalamaları arasındaki fark sıfırdır veya değildir; korelasyon sıfırdır veya değildir; regresyon katsayısı sıfırdır veya sıfır değildir; r karesi sıfırdır veya değildir. Tüm bu durumlarda, etkisiz bir sıfır hipotezi ve etkinin alternatif bir hipotezi vardır.

Bu ikili düşünce genellikle bizim en çok ilgilendiğimiz şey değildir. Araştırma sorunuzu düşündüğünüzde, neredeyse her zaman parametreleri tahmin etmekle ilgilendiğinizi hemen hemen anlayacaksınız. Grup ortalamaları arasındaki gerçek fark veya korelasyonun büyüklüğü veya regresyon katsayısının büyüklüğü veya açıklanan varyans miktarı ile ilgileniyorsunuz.

Elbette, bir veri örneği aldığımızda, bir parametrenin örnek tahmini, popülasyon parametresi ile aynı değildir. Bu yüzden parametrenin değerinin ne olabileceği konusundaki belirsizliğimizi ölçmenin bir yoluna ihtiyacımız var. Sık sık bakış açısından bakıldığında, güven aralıkları, Bayesçi püristlerin yapmak isteyebileceğiniz çıkarımlara kesinlikle izin vermediklerini iddia edebildiklerini iddia etmelerine rağmen, bunu yapmanın bir yolunu sağlar. Bayes bakış açısına göre, arka yoğunluklardaki güvenilir aralıklar, bir popülasyon parametresinin değeri hakkındaki belirsizliğinizi ölçmenin daha doğrudan bir yolunu sağlar.

Parametreler / efekt boyutları

İkili hipotez test yaklaşımından uzaklaşmak sizi sürekli düşünmeye zorlar. Örneğin, gruptaki hangi büyüklük farkı teorik olarak ilginç olabilir? Grup araçları arasındaki farkı öznel bir dille veya pratik çıkarımlarla nasıl eşleştirirsiniz? Bağlamsal normlarla birlikte standartlaştırılmış etki ölçütleri, farklı parametre değerlerinin ne anlama geldiğini ölçmek için bir dil oluşturmanın bir yoludur. Bu tür ölçütler genellikle "etki büyüklükleri" olarak etiketlenir (örneğin, Cohen'in d, r, , vb.). Bununla birlikte, standartlaştırılmamış tedbirler kullanarak etkinin öneminden bahsetmek tamamen mantıklı ve sıklıkla tercih edilir (örneğin, gruptaki fark gelir düzeyi, yaşam beklentisi vb. Gibi anlamlı standartlaştırılmamış değişkenler anlamına gelir).R2

P-psikolojide (ve diğer alanlarda) p-değerlere, boş hipotez anlamlılık testine vb. Odaklanmayı eleştiren çok büyük bir literatür var (bu Google Akademik araştırmasına bakın ). Bu literatür sıklıkla, etki büyüklüklerinin çözünürlük olarak güven aralıklarıyla raporlanmasını önerir (örn., Wilkinson, 1999'daki APA Task force).

İkili hipotez testinden uzaklaşmanın adımları

Eğer bu düşünceyi benimsemeyi düşünüyorsanız, aşamalı olarak daha ileri düzeyde yaklaşımlar izleyebileceğinizi düşünüyorum:

  • Yaklaşım 1a. Örnek etkinizin nokta tahminini (örneğin grup ortalama farkları) hem çiğ hem de standartlaştırılmış terimlerle bildirin. Sonuçlarınızı bildirirken, böyle bir büyüklüğün teori ve pratik için ne anlama geldiğini tartışın.
  • Yaklaşım 1b. 1a'ya, en azından çok temel bir düzeyde, örneklem büyüklüğünüze dayanarak parametre tahmininizdeki belirsizlik duygusu hakkında bir miktar bilgi ekleyin.
  • Yaklaşım 2. Ayrıca etki büyüklüklerine ilişkin güven aralıklarını rapor edin ve bu belirsizliği ilgilendiğiniz parametrenin makul değerleri hakkındaki düşüncelerinize dahil edin.
  • Yaklaşım 3. Bayesian'ın güvenilir aralıklarını bildiriniz ve daha önce seçim yapmak, modelinizin ima ettiği veri üretme süreci gibi, bu güvenilir aralık üzerindeki çeşitli varsayımların etkilerini inceleyiniz.

Birçok olası referans arasında, Andrew Gelman'ın blogunda ve araştırmasında bu konular hakkında çokça konuştuğunu göreceksiniz .

Referanslar

  • Nickerson, RS (2000). Boş hipotez anlamlılık testi: eski ve devam eden bir tartışmaya genel bakış. Psikolojik yöntemler, 5 (2), 241.
  • Wilkinson, L. (1999). Psikoloji dergilerinde istatistiksel yöntemler: kılavuzlar ve açıklamalar. Amerikalı psikolog, 54 (8), 594. PDF

12
Jeromy'nin yorumuna ek olarak, Ziliac ve McCloskey'nin istatistiksel öneme sahip kültüyle ilgili makalesini okumanızı tavsiye edebilir miyim? Akıllara durgunluk veren istatistikler değil, ancak etki büyüklükleri, pratik önem ve kayıp işlevlerinin neden çok önemli olduğu konusunda düşünceli - ve eğlenceli - bir tartışma sunuyor. deirdremccloskey.com/docs/jsm.pdf
Jim

Bence belki bazen p .05'ten daha düşük olmalıdır. Hepinize teşekkürler: gung, Jeromy ve Jim
Jim Von

1
Ziliak [NB] ve McCloskey'de: Meşgulseniz, önce phil.vt.edu/dmayo/personal_website/… adresini okuyun . Meşgul değilseniz, önce onu okuyunuz.
Nick Cox

Bir şey değil, @JimVon. FWIW, bazen p'nin 0,05'ten daha yükseğe ayarlanması gerektiğini düşünüyorum . Bu sadece bağlıdır.
gung - Monica'yı yeniden yerleştirme

1
Gelman'ın burada isimlendirildiğini görmek güzel. Görünüşe göre, p-değerleri bildirmekten bile hoşlanmıyor , onları ciddi çıkarım için kullanmaktan bile vazgeçti. Ayrıca elbette tüm değişkenlerinizi standartlaştırmak için de iyi bir örnek.
shadowtalker

26

Sadece mevcut cevapları eklemek için (bu arada, harika). İstatistiksel anlamlılığın örneklem büyüklüğünün bir fonksiyonu olduğunu bilmek önemlidir .

Her geçen gün daha fazla veri elde ettiğinizde, nerede olursanız olun istatistiksel olarak anlamlı farkları bulabilirsiniz. Veri miktarı çok büyük olduğunda, en küçük etkiler bile istatistiksel olarak önemli olabilir. Bu, söz konusu etkilerin pratik olarak anlamlı olduğu anlamına gelmez.

Farklılıklar için test yaparken, sadece değerleri yeterli değildir, çünkü istatistiksel olarak anlamlı bir sonuç üretmek için gereken etki büyüklüğü, artan örnek büyüklüğü ile azalır . Uygulamada, asıl soru genellikle verilen asgari büyüklüğün etkisinin olup olmadığına ilişkindir (ilgili olmak). Örnekler çok büyüdüğünde , -değerleri gerçek soruyu yanıtlarken anlamsız hale gelir .ppp


Bu benim slayt 13'te belirtilen nokta :)
Stéphane Laurent

6
Bunun için +1. Önemini fark etmeyen insanlar, örneklem büyüklüğünün bir işlevi beni deli ediyor.
Fomite

12

Eğer hipotezinizden şüphelenmek için makul bir temel varsa, çalışmanızı yürütmeden önce doğru olabilir; ve iyi bir çalışma yaptınız (örneğin, herhangi bir karışıklığa neden olmadı); ve sonuçlarınız hipotezinizle tutarlıydı ve istatistiksel olarak anlamlıydı; o zaman, o kadarıyla, sen iyi olduğunu düşünüyorum.

Ancak, öneminizde, sonuçlarınızda önemli olan tek şey olduğunu düşünmemelisiniz. Öncelikle, aynı zamanda etki büyüklüğüne de bakmalısınız (buradaki cevabım: Etki büyüklüğü, önem testi için hipotez olarak ). Ayrıca, verilerinizi biraz araştırmak isteyip, takip etmeye değer olabilecek potansiyel olarak ilginç sürprizler bulabilir misiniz, görmek isteyebilirsiniz.


Hipotezin makul olması gerektiğini mi kastediyorsun? Ve hipotezimin anlamsız veri analizine yol açıp açmayacağına nasıl karar verebilirim? Post-hoc tarafından “Potansiyel olarak ilginç sürprizler” ortaya çıkarılmalı mı?
Jim Von

Demek istediğim, muhtemelen araştırmayı ilk etapta yürütmek için meşru bir sebep vardı. Güncel teorik bilgi ve / veya son araştırmalar hipotezinizin doğru olabileceğini göstermiştir. Hipoteziniz tutarsız olmadığı sürece "anlamsız veri analizine yol açacak" gibi bir olasılık yok. Potansiyel olarak ilginç sürprizler / verilerinizin özellikleri çok iyi keşfedilebilir post-hoc; Sürpriz oldukları gerçeği , çalışmayı planladığınızda ortaya çıkacağını bilmediğiniz anlamına gelir. "Post-hoc" ile ilgili mesele sürprizlere inanılıp inanılmayacağı - gelecekteki araştırmalarla onaylanmaları gerekiyor.
gung - Monica’yı eski durumuna getirme

7

Bunu ve bunu ve bunu ve bunu rapor etmeden önce, sizden deneysel verilerden ne öğrenmek istediğinizi formüle ederek başlayın. Her zamanki hipotez testleriyle ilgili temel sorun (okulda öğrendiğimiz bu testler ...) ikilik değildir: asıl sorun, bunların ilgi hipotezi olmayan hipotezler için yapılan testlerdir. 13 no'lu slayta bakınız (animasyonları görmek için pdf dosyasını indirin). Etki büyüklükleri hakkında, bu kavramın genel bir tanımı yoktur . Açıkçası bunu uzman olmayan istatistikçiler için kullanmanızı tavsiye etmem, bunlar teknik değil, doğal değil, "etki" önlemidir. İlgilendiğiniz hipoteziniz, meslekten olmayanlar tarafından anlaşılabilir terimlerle formüle edilmelidir.


1
Küçük bir ekleme - boş hipotez aslında geçerli standart HT'nin geçerli veri analizi kapsamı dışında bir şey ifade etmelidir. Bu "icat edilmemiş" olmamalıdır, böylece teori / bulgunuz lehine reddetmeniz gereken bir şey vardır.
olasılık

2

İstatistik konusunda uzman değilim, ancak bugüne kadar yaptığım istatistik derslerinde vurgulanan bir şey "pratik önem" meselesi. Bunun, “etki büyüklüğü” ne atıfta bulunurken Jeromy ve gung'un neden bahsettiğini ima ettiğini düşünüyorum.

İstatistiksel olarak anlamlı kilo kaybı sonuçları olan 12 haftalık bir diyetin sınıfında bir örneğimiz vardı, ancak% 95 güven aralığı 0,2 ile 1,2 kg arasında bir ortalama kilo kaybı gösterdi (Tamam, veriler büyük olasılıkla yapıldı ama bir nokta gösteriyor) . Sıfırdan farklı olarak "istatistiksel olarak anlamlı" "olmakla birlikte, 12 hafta boyunca 200 gram kilo kaybı," pratik olarak anlamlı "bir sonuç olarak sağlıklı olmaya çalışan aşırı kilolu bir kişinin sonucudur?


Bu benim slayt 13'ü takip eden nokta :)
Stéphane Laurent

2
Bu aynı zamanda “yanlış” boş hipotezi test etmenin bir örneğidir. İlgilendiğiniz sonuç değil. Daha iyi bir hipotez testi, kilo kaybının 5 kg'dan az 5 kg'dan büyük olduğudur.
olasılık

1

Çalışmanızın ve kişinin eleştirisinin daha fazla detayını bilmeden doğru cevap vermek mümkün değildir. Fakat burada bir olasılık var: eğer birden fazla test yaparsanız ve ortaya çıkan p<0.05ve başkalarını görmezden gelenlere odaklanmayı seçtiyseniz , o zaman bu "önem" seçici dikkatiniz gerçeği ile seyreltilmiştir. Bunun için bir sezgi pompası olarak, p=0.05"boş hipotez doğruysa bile, bu sonucun şans eseri (sadece)% 5 olacağı" anlamına geldiğini unutmayın . Bu nedenle ne kadar çok test yaparsanız, en azından bir tanesinin tesadüfen "önemli" bir sonuç olması ihtimali daha yüksektir - orada herhangi bir etkisi olmasa bile. Http://en.wikipedia.org/wiki/Multiple_comparisons ve http://en.wikipedia.org/wiki/Post-hoc_analysis bakın.


0

Aşağıdakileri okumanızı öneririm:

Anderson, DR, Burnham, KP, Thompson, WL, 2000. Boş hipotez testleri: Problemler, yaygınlık ve bir alternatif. J. Wildl. Yönetin. 64, 912-923. Gigerenzer, G., 2004. Akılsız istatistikler. Sosyo-Ekonomi Dergisi 33, 587-606. Johnson, DH, 1999. İstatistiksel Önemlilik Testinin Önemi. Yaban Hayatı Yönetimi Dergisi 63, 763-772.

Boş hipotezler, herhangi bir deney veya gözlem kümesinden, iki sonucun ortaya çıkması açısından nadiren ilginçtir: boşluğu doğru şekilde reddetmek veya bir Tip II hatası yapmak. Etki büyüklüğü belirleme konusunda muhtemelen ilgi çekici olan şeydir ve bir kez yapıldığında bu etki büyüklüğü için güven aralıkları oluşturmalısınız.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.