Bir örneklem T-testindeki ortalamalar arasındaki farkın güven aralığı nasıl yorumlanır?


21

SPSS, "fark araçlarının güven aralığı" çıktısını sağlar. Bazı yerlerde "100 üzerinden 95 kez, örneklem ortalama farkımızın bu sınırlar arasında olacağı" anlamına geldiğini okudum. Kimse "araçların arasındaki farkın güven aralığını" açıklamak için daha açık bir ifade söyleyebilir mi? Bu çıktı, tek örnekli bir t testi bağlamında görünür.


1
Senin düşüncen nedir?
mpiktas

1
Bunun bir oran olduğu konusunda özel bir şey bulunmadığına dikkat edin: Herhangi bir şeyin tahmini için bir CI benzer şekilde yorumlanacaktır. (Bununla birlikte, tahmin edilenlere bağlı olarak CI'yi yapılandırmak için farklı prosedürler kullanılabilir.) Sonuç olarak, bu soru CI'lerin yorumlanmasını isteyen önceki sorularla tamamen aynıdır.
whuber

Yanıtlar:


13

Bu saygın istatistikçiler için bile kolay bir şey değil. Nate Silver'in yakın zamandaki bir girişimine bak :

... bana gidip sık sık ortalamadan 10 dakika daha uzun sürdüğünü söylememi istediysem - güven aralığının bir versiyonunu gerektiren bir şey - biraz düşünmelisin, ...

(dan FiveThirtyEight New York Times, 9/29/10. blogunuzun) Bu değil bir güven aralığı. Bunu nasıl yorumladığınıza bağlı olarak, bir tolerans aralığı veya bir tahmin aralığıdır. (Aksi takdirde, Bay Silver'ın tahmin etme olasılıkları hakkındaki mükemmel tartışmasında sorun yok; bu iyi bir okuma.) Diğer birçok web sitesi (özellikle yatırım odaklı olanlar), güven aralıklarını diğer aralıklarla benzer şekilde karıştırıyor.

New York Times, ürettiği ve raporladığı istatistiksel sonuçların anlamını netleştirmek için çaba gösterdi. Birçok anketin altındaki kaliteli baskı buna benzer bir şey içeriyor:

Teoride, 20 kişiden 19'unda, tüm yetişkinlerin bu tür örneklerine dayanan sonuçlar, tüm Amerikan yetişkinlerle röportaj yapmak suretiyle elde edilecek sonuçtan her iki yönde üç yüzde puandan fazla farklılık göstermeyecektir.

( örneğin , Anketin Nasıl Yürütüldüğü , 5/2/2011.)

Birazcık endişe verici, belki de açık ve net: bu açıklama anket sonuçlarının örnekleme dağılımının değişkenliğini karakterize ediyor . Bu güven aralığı fikrine yaklaşıyor, ancak tam olarak orada değil. Bununla birlikte, çoğu durumda, bu tür ifadeleri güven aralıklarının yerine kullanmayı düşünebilirsiniz.

İnternette çok fazla potansiyel karışıklık olduğunda, yetkili kaynaklara yönelmek faydalıdır. Benim favorilerimden biri Freedman, Pisani ve Purves'in zamanın onur metinleri İstatistik. Şimdi dördüncü baskısında, 30 yıldan uzun bir süredir üniversitelerde kullanılıyor ve açık, net açıklamaları ve klasik "sıkça" yöntemlerine odaklanmasıyla dikkat çekiyor. Güven aralıklarını yorumlama hakkında ne yazdığını görelim:

% 95'lik güven seviyesi, örnekleme prosedürü hakkında bir şeyler söylüyor ...

[s. 384; tüm alıntılar üçüncü baskıdan alınmıştır (1998)]. Devam eder,

Örnek farklı bir şekilde ortaya çıkmış olsaydı, güven aralığı farklı olurdu. ... Tüm örneklerin yaklaşık% 95'i için, aralık ... popülasyon yüzdesini kapsar ve diğer% 5 için bu yapmaz.

[s. 384]. Metin çok daha güven aralıkları hakkında diyor, ama bu yardım için yeterlidir: onun yaklaşımı üzerine tartışma odağı taşımaktır , numunenin ifadelerine titizlik ve netlik getirerek seferde. Dolayısıyla aynı şeyi kendi raporlarımızda da deneyebiliriz. Örneğin, bu yaklaşımı varsayımsal bir deneyde bildirilen bir yüzde farkın etrafına [% 34,% 40] güven aralığını açıklamaya uygulayalım:

"Bu deney rastgele seçilen bir denek örneği ve rastgele bir kontrol seçimi örneği kullandı. Fark için% 34 -% 40 arasında bir güven aralığı bildirdik. Bu, denemenin güvenilirliğini gösterir: eğer deneklerin ve kontrollerin seçimleri farklı olsaydı bu güven aralığı seçilen deneklerin ve kontrollerin sonuçlarını yansıtacak şekilde değişecektir.Bu tür vakaların% 95'inde, güven aralığı gerçek farkı ( tüm denekler ve tüm kontroller arasında) içerecektir ve vakaların diğer% 5'inde Bu nedenle, muhtemel - ancak kesin değil - bu güven aralığının gerçek farkı içerdiği görülüyor: yani gerçek farkın% 34 ile% 40 arasında olduğuna inanıyoruz. ”

(Bu, kesinlikle geliştirilebilecek olan metnim: Editörleri üzerinde çalışmaya davet ediyorum.)

Böyle uzun bir ifade biraz hantaldır. Gerçek raporlarda, bağlamın büyük bir kısmı - rastgele örnekleme, konular ve kontroller, değişkenlik olasılığı - önceden belirlenmiş olan ifadenin yarısını gereksiz kılacak şekilde oluşturulmuş olacak. Rapor örnekleme değişkenliği olduğunu tespit ettiğinde ve örnek sonuçları için bir olasılık modeli sergilediğinde, genellikle güven aralığını (veya diğer rastgele aralıkları) izleyicinin ihtiyaç duyduğu kadar net ve titiz bir şekilde açıklamak zor değildir.


Teşekkürler Whuber, Ben bir ara için güven aralıklarını oldukça iyi anlıyorum. Kafamın karıştığı araçlardaki (bir örnek ve pop arasında) bir fark olması CI.
Anne,

@Anne Ne demek istiyorsun? Ne sorunuz ne de yanıtlardan herhangi biri, söyleyebileceğim kadarıyla, bir örnek ortalama ile bir popülasyon ortalama arasındaki bir farkı ifade etmiyor. Sorunuz, iki örnek aracı arasındaki farkı (muhtemelen bir grup deneysel deneklerin ve bir grup kontrol grubunun ortalaması) arasındaki farkı gösteriyor gibi görünmektedir.
whuber

Düşündüğüm örnek, örnek ile popülasyon ortalaması arasında bir fark aradığınız yerdir. Bu durumda, örnekle pop arasındaki CI tam olarak ne anlama gelir? Örnek ortalamayı pop standart sapmasını tahmin etmek için kullandık ve dolayısıyla ortalama bir tahmin etrafında CI'yi tahmin ediyoruz. Ortalamaların farkı, sağladığımız pop ortalaması ile örnek ortalama arasındaki fark değildir. Peki bu nedir?
Anne,

1
@Anne "Popülasyon ortalaması", örneklenen popülasyonun varsayımsal, bilinmeyen ortalaması mı yoksa ayrıntılı olarak örneklenmiş olan başka bir popülasyonun ölçülen ortalaması mı? Ayrıca, popülasyon standart sapmasını tahmin etmek için hangi anlamda "örnek ortalamayı" kullandınız ? Bu bir yazım hatası olabilir mi?
whuber

2
@whuber teşekkürler. Çizginiz "Tüm örneklerin% 95'i için hesaplanan CI'ler (yani, tüm olası kopyaların% 95'i) bu gerçek farkı kapsayacak." Bana göre "100 üzerinden 95 kez, örnek ortalama farkımız bu sınırlar arasında olacak" dır ve açıklamanız mantıklı geliyor.
Anne

5

Bilgi niteliğinde bir teknik açıdan, kişisel olarak güven aralıklarının yorumlanmasının "net bir ifadesi" olduğunu sanmıyorum.

Bir güven aralığını şu şekilde yorumlarım: % 95 güven aralığının gerçek ortalama farkını kapsıma olasılığı% 95.

N-N-

N--1

Ama bunların hepsinin felsefede olduğuna dikkat edin. Sanırım açıklamada güven aralıkları en iyi şekilde belirsizdir. Doğru kullanıldığında iyi sonuçlar verir.


"N farklı güven aralığı" ndan sonra yeni bir cümle başlatmak. "Bunu daha sonra söyleyerek yorumlayabilirsiniz ..." lafı iyi gelmiyor. Üçüncü paragrafı değiştirmenizi öneririm.
Theta30

2
Üçüncü paragrafınız, ikinci paragraftan çok daha iyidir. Gözlenen verilere bağlı olarak, güven aralığı ya gerçek parametre değerini içerir ya da içermez.
kardinal

@probabilityislogic: Bu cevap kabul edildiğinden, lütfen ikinci paragrafınızı düzenlemeyi düşünün. Ayrıca, ikinci ve son paragrafınızda ne demek istediğinizi netleştirebilir misiniz? Görüldüğü gibi, hangi tartışmayı yaptığınızdan emin değilim.
kardinal

Eğer güven aralıklarını denemenin "tekrarı" olarak yorumlarsak, o zaman bu tekrarlardaki önceki deneyleri görmezden gelmeliyiz. Demek istediğim: neden önceki deneyimlerin cehaleti, güven aralıklarının bu “tekrarları” nda göz ardı etmediğimiz veri kümeleri için iyi, fakat gözlemlediğimiz veriler için verileri bir araya getirmeliyiz? Elinizdeki verilerle mümkün olduğunca çok sayıda CI üretmek, (CI yorumlamaları hakkında anladığım kadarıyla) pek mantıklı olmaz mı?
Olasılık

1
Düzgün bir şekilde en doğru güven setleri üzerine, optimal karar teorisine büyük ölçüde paralel bir bütün teori vardır. Belki bu, sizin için eksik olan yapbozun parçasıdır. (?)
kardinal

3

Sorunun kaba cevabı,% 95'lik bir güven aralığının,% 95'inin gerçek parametre değerinin aralık içinde kaldığından emin olmanıza izin vermesidir. Ancak, bu kaba cevap hem eksik hem de yanlış.

Eksiklik, "% 95 kendinden emin" bir şeyin somut bir şey ifade ettiği ya da eğer öyleyse, somut anlamın küçük bir istatistikçi örneği tarafından bile evrensel olarak kabul görmeyeceği açık olmasından kaynaklanmaktadır. Güvenin anlamı, aralığın elde edilmesinde hangi yöntemin kullanıldığına ve hangi çıkarım modelinin kullanıldığına (bunun daha açık olacağını umarım) bağlıdır.

Yanlışlık, birçok güven aralığının, güven aralığını veren belirli deneysel durum için gerçek parametre değerinin yeri hakkında bir şey söylemek üzere tasarlanmaması gerçeğinden kaynaklanır! Bu birçok kişiye şaşırtıcı gelecektir, ancak doğrudan bu alıntıda 1933 tarihli “İstatistiksel Hipotezlerin En Verimli Testleri Sorunu Üzerine” başlıklı makalesinde açıkça belirtilen Neyman-Pearson felsefesinden kaynaklanmaktadır:

Belirli bir hipotez söz konusu olduğunda, olasılık teorisine dayanan hiçbir testin kendi başına bu hipotezin gerçeği veya yanlışlığı ile ilgili değerli bir kanıt sağlayamayacağını düşünmeye meyilliyiz.

Ancak, testlerin amacına başka bir bakış açısıyla bakabiliriz. Her ayrı hipotezin doğru ya da yanlış olup olmadığını bilmek umuduyla, uzun deneyimler sırasında çok sık yanlış olmayacağımızdan emin olduktan sonra, davranışlarımızı yönetme kurallarını arayabiliriz.

NP hipotez testlerinin 'inversiyonuna' dayanan aralıklar, bu testten, uzun süreli hata özelliklerine sahip olmanın doğasını, bunları veren deneyin özellikleriyle ilgili çıkarım yapılmasına izin vermeyecek şekilde miras alacak! Anladığım kadarıyla, bunun Neyman’ın görünüşte bir uyuşukluk olduğunu düşündüğü endüktif çıkarımlara karşı koruduğu.

Neyman açıkça “güven aralığı” terimine ve 1941 Biyometrika belgesindeki “Güvene dair tartışma ve güven aralığı teorisi” adlı güven aralığı teorisinin kökenine dair iddiada bulunur. Bir anlamda, o zaman, uygun bir güven aralığı olan her şey kendi kurallarına göre oynar ve bu nedenle bireysel bir aralığın anlamı, yalnızca bu yöntemle hesaplanan aralıkların ilgili gerçeği içerdiği (kapsadığı) uzun çalışma hızı ile ifade edilebilir. parametre değeri.

Şimdi tartışmayı düzenlemeliyiz. Bir tel, 'kapsama alanı' nosyonunu takip ederken, diğeri güven aralıkları gibi olan Neymanian olmayan aralıkları izler. Eski olanı erteleyeceğim, böylece çok geçmeden bu görevi tamamlayabileyim.

Neymanyalı olmayan güven aralıkları olarak adlandırılabilecek aralıklar veren birçok farklı yaklaşım vardır. Bunlardan ilki, Fisher'ın güven aralıklarıdır. ('Fiducial' kelimesi birçok kişiyi korkutabilir ve diğerlerinden aldatıcı lekeler çıkartabilir, ancak bunu bir kenara bırakacağım ...) Bazı veri türleri için (örneğin bilinmeyen popülasyon varyansı ile normal) Fisher yöntemiyle hesaplanan aralıklar sayısal olarak aynıdır. Neyman metodu ile hesaplanacak aralıklar. Ancak, bunlar tamamen karşı çıkan yorumları davet ediyorlar. Neymanya aralıkları, yöntemin sadece uzun süreli kapsama özelliklerini yansıtırken, Fisher'ın aralıkları, gerçekleştirilen belirli bir deney için gerçek parametre değerleriyle ilgili endüktif çıkarımı desteklemeyi amaçlamaktadır.

Bir aralık sınırı setinin, iki felsefi açıdan farklı paradigmadan birine dayanan yöntemlerden gelmesi, kafa karıştırıcı bir duruma yol açar - sonuçlar iki çelişkili şekilde yorumlanabilir. Fiducial argümandan,% 95 belirli bir% 95 fiducial aralığın gerçek parametre değerini içerme olasılığı vardır. Neyman'ın yönteminden yalnızca bu şekilde hesaplanan aralıkların% 95'inin gerçek parametre değerini içereceğini biliyoruz ve gerçek parametre değerini içeren aralığın bilinmeyen fakat 1 veya 0 olması olasılığı ile ilgili kafa karıştırıcı şeyler söylemek zorundayız.

Neyman'ın yaklaşımı, büyük ölçüde Fisher'ın üzerine sundu. Bu en talihsiz bir durum, bence, çünkü aralıkları doğal olarak yorumlamaya yol açmaz. (Yukarıdaki teklifi Neyman ve Pearson'dan tekrar okuyun ve deneysel sonuçların doğal yorumunuza uyup uymadığına bakın. Büyük olasılıkla uymuyor.)

Bir aralık global hata oranları açısından doğru bir şekilde yorumlanabiliyorsa, ancak aynı zamanda yerel çıkarımsal terimlerle de doğru bir şekilde yorumlanabilirse, aralık kullanıcıları için, ikincisi tarafından sağlanan daha doğal yorumlamadan engel olmak için iyi bir neden göremiyorum. Bu yüzden benim önerim, bir güven aralığı için doğru yorumlamanın aşağıdakilerin HAYIR olduğu yönündedir:

  • Neymanian: Bu% 95 aralığı, uzun vadede (istatistik deneyimimizden ...) gerçek parametrelerin% 95'ini kapsayan gerçek parametre değerini kapsayan aralıkları veren bir yöntemle yapılmıştır.

  • Balıkçı: Bu% 95 aralığının, gerçek parametre değerini karşılama olasılığı% 95'tir.

(Bayes ve olabilirlik yöntemleri, aynı zamanda arzu edilen sıklık özelliklerine sahip aralıklar da üretecektir. Bu aralıklar, muhtemelen her ikisi de Neymaniyen'den daha doğal hissedecek biraz farklı yorumlara neden olacaktır.)


@Micheal - Farklı olacakları yer, bir maddi aralığın yeterli bir istatistiği temel alması ve tüm yardımcı miktarlardaki şartlara dayanması gerektiğidir. Neymans'ın güven aralığı bu özelliği gerektirmez ve bu nedenle belirli örnek alt sınıfları için değişken kapsama sahip "% 95 güven aralığı" na tabidir.
Olasılık 20

@probability - Bunu genişletebilir misin? % 95 Neymanya güven aralığının bir güven aralığı olduğu ancak% 95 aralığının olmadığı durumlar mı demek istiyorsun? Bu koşullar ne olurdu? Fisherian aralığı bu koşullarda aynı sınırlara sahip olur mu?
Michael Lew

Örnekten öğrenebileceğiniz durumlarda, "% 95" güven aralığının gerçek değeri içermediğini gösterebilirsiniz. Jaynes'in makalesinde örnek 5 ve örnek 6 , CI'lerde yeterli istatistik kullanılmamasının uzun vadede kapsamı sağlayacağı, ancak kapsamın belirli örnek sınıflarına göre değişeceği iki durum verir. Aynı ortalama (uzun dönem kapsama alanı) fakat farklı varyansa (özel durum kapsamı) sahip iki değişkene benzemektedir
olasılık olasılığı

2

Güven aralığının anlamı şudur: denemenizi aynı şekilde tekrarlarsanız (yani: aynı sayıda gözlem, aynı popülasyondan çizim vb.) Ve varsayımlarınızın doğru olması ve hesaplamanız durumunda Her tekrarda bu aralık, bu güven aralığı tekrarların% 95'inde (ortalama) gerçek prevalansı içerecektir.

Bu nedenle, gerçek prevalansı içeren bir aralık oluşturduğunuzu% 95 kesin (örneğin varsayımlarınız doğruysa vs.) olduğundan emin olabilirsiniz.

Bu genellikle şöyle ifade edilir:% 95 güven ile, hamilelik boyunca sigara içen annelerin çocuklarının% 4,5 ila 8,3'ü obez olur.

Bunun genellikle kendi içinde ilginç olmadığını unutmayın: Muhtemelen bunu sigara içmeyen annelerin çocuklarındaki prevalansla karşılaştırmak istersiniz (olasılık oranı, göreceli risk vb.)


(Bu, iki ipliğin birleştirilmesinden sonra gelen bu cevap, orantılı bir CI olarak çerçevelenmiş iki soruya cevap vermektedir.)
whuber

0

Eğer gerçek ortalama fark bu aralığın dışındaysa, o zaman deneyimizdeki ortalama farkın gerçek ortalama farktan çok uzakta olması ihtimali sadece% 5'tir.


"Bu kadar uzakta" derken ne demek istiyorsun? Bu çok uzak olan CI'nin üst sınırı mı yoksa gözlenen ortalama mı?
Olasılık

Gerçek ortalama ile gözlenen ortalama arasındaki mesafe, "bu kadar uzak" ile ne demek istediğimdir. Bunu "çok uzakta" olarak değiştireceğim; Bence bu biraz daha açık.
Thomas Levine

-2

Yorumum: Deneyi N kez yaparsanız (N'nin sonsuzluğa düşme eğiliminde olduğu), o zaman bu çok sayıdaki denemeden% 95'i bu% 95 sınırlarında kalan güven aralıklarına sahip olacaktır. Daha açık bir şekilde, bu sınırların "a" ve "b" olduğunu söyleyelim, o zaman örnek ortalamanızın ortalama farkının "a" ve "b" arasında olacağı 100'ün 95'i arasındadır. tüm nüfusun dışında.


@ Ayush. Teşekkürler. Bu yardımcı olur. Üzgünüm son cümlenizi tam olarak takip etmiyorum.
Anne,

@ anne - Tamam. Demek istediğim, iki örnek arasındaki ortalamayı test etmek istiyorsanız ve her örneğin 1000 kişi olduğunu varsayalım, sınırsız örnekleri tanımlayabiliyorsanız (her birinin 40 kişisini söyleyelim). farklı deneyler birbirinden farklıdır ... Güven aralığını gözlemlediğimiz deneyler.
ayush biyani

2
@ayush - Bu, son ikinci cümlenizdeki doğru yorumlama değil. Ya da en azından "a" ve "b" abonelikleri eklemelisiniz, ki bu 100 kat arasında değişen bu miktarların olduğu anlamına gelir. Mevcut gösteriminiz "a" gibi görünmesini sağlar ve "b" sabit miktarlardır.
probabilityislogic

@probabilityislogic - katılıyorum ... abonelikler gereklidir.
ayush biyani

1
[bir,b]

-2

"100 üzerinden 95 kez, değeriniz ortalamanın standart bir sapmasına düşecek"


4
Siteye Hoşgeldiniz @beginnerstat. " Ortalamanın iki standart sapması" mı demek istediniz acaba? Buna ek olarak, bu ifadenin OP'nin başka yerlerde okudukları bilgiyi nasıl geliştirdiğini anladığımdan emin değilim. Biraz detaylandırmak ister misiniz?
gung - Reinstate Monica

1
@ Gung'un yorumuna Evet: Burada "ortalama" ve "SD" nin kullanıldığı anlamını anlamakla özellikle ilgileniyorum. Bunlar altta yatan parametrelere mi yoksa örnek tahminlere mi işaret ediyor ? Altta yatan rasgele değişkenin dağılımına mı yoksa iid ortalamasının örnekleme dağılımına mı öyle bir dağılımdan başvuruyorlar?
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.