2.04 standart hatalarının anlamı nedir? Güven aralıklarının büyük ölçüde örtüştüğü önemli ölçüde farklı araçlar?


10

Aşağıdaki görüntü Psikolojik Bilimler bölümündeki bu makaleden alınmıştır . Bir meslektaşım bununla ilgili olağandışı iki şeye dikkat çekti:

  1. Altyazıya göre, hata çubukları "± 2.04 standart hata,% 95 güven aralığı" gösterir. Ben sadece% 95 CI için kullanılan ± 1.96 SE gördüm ve herhangi bir amaç için kullanılan 2.04 SE hakkında hiçbir şey bulamıyorum. 2.04 SE'nin kabul edilmiş bir anlamı var mı?
  2. Metin, planlı çift karşılaştırmalar, doğru tahmin edilebilir denemeler (t (30) = 2.51, p <.01) ve hata ile doğru öngörülemeyen denemeler (t (30) = 2.61, p) <.01) (omnibus F testi de p <.05'te anlamlıydı). Bununla birlikte, grafik büyük ölçüde çakışan üç durumun tümü için hata çubuklarını göstermektedir. ± 2.04 SE aralıkları çakışırsa, değerler p <.05'te nasıl önemli ölçüde farklı olabilir? Örtüşme, ± 1.96 SE aralıklarının da örtüştüğünü varsaydığım kadar büyük.

2.04 SE hata çubuklarını gösteren çubuk grafik


1
Harika cevaplar. % 95 güven aralığını karşılaştırmanın (daha önce belirtildiği gibi), 0.05 anlamlılık düzeyinde istatistiksel testler yapmakla aynı olmadığını vurgulamak isterim. Elbette bununla ilgili makaleler var. Eğer güven aralıkları sadece istatistik ise Payton ve ark . Gauss verileri için 0.05 anlamlılık düzeyi için% 85 aralıklar kullanmanızı önerir. Burada çalışmalarını takip ediyorlar .
Martin Berglund

1
Teşekkürler @Martin. Döngüyü kapatmak için: Payton et al kağıdına bakmamış olsam da ,% 85'in temeli açıktır: kare olduğunda% 84'e karşılık gelen z değeri eşittir2; bu iki tanesini eklemek4; onun karekökü2% 95 aralığına karşılık gelen z-değeri. Galiba Payton% 84 ila% 85 arasında yuvarladı. Başka bir deyişle, önerileri (ancak türetilmiş olsa da) sağladığım aynı analizle açıklanabilir.
whuber

@MartinBerglund ve whuber 0.05 düzeyinde istatistiksel testler yapmak için% 83.4 güven aralığı hesaplamamın orijinal olup olmadığını merak ederken cevaplarınızla karşılaştınız - açıkça değil! Kağıt referansı için teşekkürler, çok yararlı.
tristan

Yanıtlar:


11
  1. 2.0431 serbestlik derecesine sahip bir Student t dağılımı ile kullanılacak çarpandır. Alıntılar30 serbestlik derecesi uygundur, bu durumda doğru çarpan 2.0422722.04.

  2. Araçlar standart hatalar açısından karşılaştırılır . Standart hata genellikle1/n standart sapmanın katları n (muhtemelen etrafında 30+1=31burada) örnek boyutu. Başlık, bu çubuklara "standart hatalar" çağrısında doğruysa, standart sapmaların en azından315.5 Yaklaşık değerlerden kat daha büyük 6gosterildigi gibi. Veri kümesi31 standart sapması olan pozitif değerler 6×5.5=33 ve arasında bir ortalama 14 ve 18 değerlerin çoğuna yakın olması gerekir 0ve çok az sayıda büyük değer, ki bu pek olası görünmüyor. (Eğer öyleyse, o zaman Student t istatistiklerine dayalı tüm analiz geçersiz olacaktır.) Şeklin standart hataları değil , muhtemelen standart sapmaları gösterdiğine karar vermeliyiz .

  3. Ortalamaların karşılaştırılması güven aralıklarının örtüşmesine (veya eksikliğine) dayanmaz. İki% 95 CI üst üste gelebilir, ancak yine de oldukça önemli farklılıklar gösterebilir. Bunun nedeni, ( bağımsız ) ortalamalardaki farkın standart hatasının , en azından yaklaşık olarak, ortalama standart hataların karelerinin toplamının kare kökü olmasıdır. Örneğin, ortalamanın standart hatası14 eşittir 1 ve ortalamanın standart hatası 17 eşittir 1, ardından ilk ortalamanın CI'sı ( 2.04) 11.92 için 16.08 ve ikincisinin CI değeri 14.92 için 19.03, büyük bir örtüşme ile. Yine de farkın SE'si eşit olacaktır12+121.41. Ortalamaların farkı,1714=3, daha büyüktür 2.04 Bu değerin katları: önemlidir.

  4. Bunlar ikili karşılaştırmalardır. Bireysel değerler çok değişkenlik gösterebilirken, farklılıkları oldukça tutarlı olabilir. Örneğin,(14,14.01), (15,15.01), (16,16.01), (17,17.01), vb. her bileşende farklılık gösterir, ancak farklılıklar sürekli olarak 0.01. Bu fark her iki bileşene kıyasla küçük olsa da, tutarlılığı istatistiksel olarak anlamlı olduğunu gösterir.


Çok teşekkürler. Makale, hoc-sonrası testlerin her katılımcının iki deneme türüne verdiği yanıtlar arasında eşleştirilmiş karşılaştırmalar olduğunu belirtmemektedir ve bu yüzden denekler arasında bir karşılaştırma olarak davrandıkları sonucuna atladım ( daha az uygun ve daha az güçlü). Bence haklı olmalısın, ve onlar daha hassas (ve daha zor grafik) testi yapıyorlardı. 3. noktaya gelince, tek cevabım açıkça bazı istatistikleri yeniden
öğrenmem

Sorunuzda "planlı çift karşılaştırmalar" yazan bir cümle alıyordum. Ancak, alıntıladığınız sonuçların geri kalanı, ikili karşılaştırmalar olmadığını, ancak büyük olasılıkla cevabımın 3. maddesindekine benzer bir hesaplamadan geldiğini gösteriyor.
whuber

Demek istediğim, her üç koşulu karşılaştıran bir omnibus testi yapmak yerine, üç durumdan ikisini birbiriyle doğrudan karşılaştıran post-hoc testler yapıyorlardı. Karışıklık için üzgünüm. Ama şimdi ona baktığım için, sanırım yine de haklıydın. Omnibus test istatistiği ( F(2,60)=5.64, p<.05) rapor edilme şekli, bunun tekrarlanan ölçümler testi olduğunu ima eder ve bu nedenle post hoc testlerin de olması muhtemeldir.
öğleden sonra

Harika cevabınız için teşekkür ederim. "Bunun nedeni, (bağımsız) araçlardaki farkın standart hatasının, en azından yaklaşık olarak, araçların standart hatalarının karelerinin toplamının kare kökü olmasıdır." Bunu tartışan ancak bulamayan referanslar arıyorum. Bu konuda bazı rehberliklerden memnuniyet duyarım. Belki biri bana yardım edebilir?
Johannes

@Johannes SE karesi, numune ortalamasının varyansı ile orantılıdır. (Orantılılık sabiti kişinin tanımına bağlıdır ve örneklem büyüklüğüne göre biraz değişebilir.) Bağımsızlık, ortalama farkın örnekleme dağılımındaki varyansın, SE'lerin karelerinin toplamı olduğu anlamına gelir.
whuber

3

Buradaki karışıklığın bir kısmı, verilerin kafa karıştırıcı temsilidir. Tekrarlanan bir ölçüm tasarımı gibi görünüyor, ancak hata çubukları gerçek ortalama değerin ne kadar iyi tahmin edildiğine dair güven aralıklarıdır. Tekrarlanan ölçümlerin temel amacı, ham ortalama değerin kalite tahminini elde etmek için yeterli veri toplanmasını önlemektir. Bu nedenle, sunulanlar gibi hata çubukları, anlatılan hikaye ile neredeyse hiçbir ilişki göstermez. Kritik ilginin değeri etkidir. Grafiklerin, hikayenin ana noktasını vurgulamak amacıyla, etkilerini ve onların güven aralıklarını grafiklendirmek daha uygun olurdu.


Teşekkür ederim! Grafiğin neden analizi temsil etmediğini ifade etmek için biraz uğraşıyordum.
öğleden sonra
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.