Anlamlılık testi için hipotez olarak etki büyüklüğü


37

Bugün, Çapraz Validated Journal Club'da (neden orada değildin?), @Mbq sordu:

Biz (modern veri bilimcileri) öneminin ne anlama geldiğini bildiğimizi düşünüyor musunuz? Ve sonuçlarımıza olan güvenimizle nasıl bir ilgisi var?

@Michelle bazılarının (ben dahil) genellikle cevap verdiği gibi:

Önemlilik kavramını (p-değerlerine dayanarak) kariyerime devam ettikçe daha az faydalı buluyorum. Örneğin, son derece büyük veri kümeleri kullanabildiğim için her şey istatistiksel olarak anlamlı ( )p<.01

Bu muhtemelen aptalca bir sorudur, ancak sorun hipotezin test edilmesinde değil midir? Eğer "A B'ye eşittir" boş hipotezini test ederseniz, cevabın "Hayır" olduğunu bilirsiniz. Daha büyük veri kümeleri sizi yalnızca bu kaçınılmaz olarak doğru sonuca yaklaştıracaktır. Bir keresinde “bir kuzunun sağ tarafındaki kıl sayısı sol taraftaki kıl sayısına eşittir” hipotezi ile bir örnek verenin Deming olduğuna inanıyorum. Tabii ki değil.

Daha iyi bir hipotez, “A, B'den çok fazla farklı değildir” olacaktır. Veya, kuzu örneğinde, "bir kuzu kenarlarındaki kılların sayısı% X'ten fazla değildir".

Bu mantıklı mı?


1) Ortalama denklik testi (istediğinizi varsayarsak), bazı durumlarda ortalama farklarının önemini test etmek için basitleştirilmiş olabilir. Bu fark tahmini için standart bir hata ile, "B'den daha fazla değil ..." türlerinin her türlü testini yapabilirsiniz. 2) Örneklem büyüklüğü için - evet, büyük ss için önemin önemi azalır, ancak sadece ek değerler üretemediğiniz daha küçük örnekler için çok önemlidir.
Ondrej

11
Re "Tabii ki değil." Tahminen, bir kuzu her iki tarafta tüy şeklindedir. Bu tür kılların eşit sayıda olması durumunda ve her iki tarafta eşit olasılıklarla rastgele dağıtılırlar ve yanlar net bir şekilde tanımlanırsa, her iki sayının da tam olarak eşit olma ihtimali % 0.178'dir. Birkaç yüz yıl süren büyük bir sürüde, en azından her on yılda bir kez doğmuş mükemmel dengelenmiş bir kuzu görmeyi beklemelisiniz (eşit miktarda kılın zamanın yaklaşık% 50'sini oluşturduğu varsayılmaktadır). Veya: hemen hemen her yaşlı koyun çiftçisinde böyle bir kuzu vardı! 105
whuber

1
@whuber Analizin amacı ile belirlenir. Daha iyi bir analoji, bir denemeden sonra bir ilaca yapılan yatırımları haklı çıkaran asgari etki büyüklüğüdür. Sadece istatistiksel olarak anlamlı bir etkinin varlığı yeterli değildir, çünkü bir ilaç geliştirmek pahalıya mal olur ve dikkate alınması gereken yan etkiler olabilir. Bu istatistiksel bir soru değil, pratik bir soru.
Dikran Marsupial

2
@whuber Asgari etki büyüklüğüne karar vermek için pratik bilgilerin bulunmadığı çoğu uygulamada, örneğin standart normallik testi gibi standart hipotez testinin iyi olduğundan şüpheleniyorum. Bir Bayesian olarak bir hipotez testi probleminden ziyade bir optimizasyon problemi olarak görüşe katılıyorum. Hipotez testleriyle ilgili problemin bir kısmı, testlerin alıştırmanın amacını veya sonucun gerçek anlamını (elbette tüm IMHO) doğru bir şekilde dikkate almadan bir gelenek olarak yapıldığı istatistik yemek kitabı yaklaşımından kaynaklanmaktadır.
Dikran Marsupial

1
@DikranMarsupial, orada iyi bir çalışma tasarımının öneminden ziyade, öğrencilere ezbere testler yapıp, aşağısı ile belirtildiği gibi anahtar değil mi? Çalışma tasarımına yapılan vurgu, problemin bir kısmının çözülmesine yardım eder mi - mutlaka büyük veri setleriyle değil mi?
Michelle,

Yanıtlar:


25

Önemlilik testi devam ettiğinde (veya önemlilik testi ile esasen aynı şeyi yapan herhangi bir şey ), çoğu durumda en iyi yaklaşımın, bunun için% 95'lik bir güven aralığı ile standartlaştırılmış bir etki büyüklüğü tahmin edebileceğini düşündüm. etki büyüklüğü. Orada gerçekten yeni bir şey yok - matematiksel olarak aralarında ileri geri çekebilirsiniz - eğer bir 'sıfır' boş değeri <.05 ise, o zaman 0% 95 CI'nin dışında kalır ve bunun tersi de geçerlidir. Bunun avantajı bence psikolojiktir.; yani, var olan bilgiyi verir, ancak insanların sadece p değerleri bildirildiğinde göremediklerini belirtir. Örneğin, bir etkinin çılgınca “anlamlı” olduğunu, ama gülünç derecede küçük olduğunu görmek kolaydır; veya 'anlamlı değil', ancak yalnızca hata çubukları çok büyük olduğu için, tahmin edilen etki beklenenden az veya çok olduğu için. Bunlar ham değerler ve CI'leri ile eşleştirilebilir.

Şimdi, birçok alanda ham değerler doğal olarak anlamlıdır ve bunun zaten araçlar ve eğimler gibi değerlere sahip olduğumuz göz önüne alındığında etki büyüklüğü ölçütlerini hesaplamanın hala değip değmeyeceği sorusunu gündeme getirdiğini biliyorum. Bir örnek bodur büyümeye bakıyor olabilir; 20 yaşında beyaz bir erkeğin 6 +/- 2 inç daha kısa (yani 15 +/- 5 cm) olmasının ne anlama geldiğini biliyoruz, öyleyse neden ? Her ikisinde de raporlamanın hala değerli olabileceğini düşünmeye meyilliyim ve bunları hesaplamak için fonksiyonlar yazılabilir, böylece çok az ekstra çalışma olur, ancak fikirlerin değişeceğini biliyorum. Her halükarda, güven tahminleriyle nokta tahminlerinin cevabımın ilk parçası olarak p-değerlerinin yerini aldığını iddia ediyorum. d=1.6±.5

Öte yandan, daha büyük bir sorunun 'önemlilik testinin gerçekten istediğimiz şeyi yaptığı şey mi' olduğunu düşünüyorum. Bence asıl sorun, verilerin analizini yapan çoğu insan için (yani, istatistikçi olmayan uygulayıcılar), anlamlılık testinin veri analizinin tamamı haline gelebileceğini düşünüyorum. Bana göre en önemli şey, verilerimizde neler olup bittiğini düşünmenin ilkeli bir yolunun olması ve boş hipotez anlamlılık testi, en azından bunun çok küçük bir kısmı. Hayali bir örnek vereyim (bunun bir karikatür olduğunu kabul ediyorum, ama ne yazık ki, bunun biraz makul olduğunu düşünüyorum):

Bob, başka bir şey hakkında veri toplayan bir çalışma yürütür. Verilerin normal olarak dağıtılmasını, bazı değerlerin etrafında sıkıca kümelenmesini ve verilerinin önceden belirlenmiş bir değerden “önemli ölçüde farklı olup olmadığını” görmek için tek örnekli bir t testi yapmayı planlıyor. Örneğini topladıktan sonra, verilerinin normal şekilde dağıtılıp dağıtılmadığını kontrol eder ve olmadığını tespit eder. Bunun yerine, merkezde belirgin bir yumru yoktur, ancak belirli bir aralıkta göreceli olarak yüksektir ve daha sonra uzun bir sol kuyruk ile izlerini sürün. Bob, testinin geçerli olmasını sağlamak için ne yapması gerektiğinden endişe ediyor. Bir şeyler yapmaktan vazgeçer (örneğin, bir dönüşüm, parametrik olmayan bir test vb.) Ve sonra bir test istatistiği ve bir p değeri rapor eder.

Umarım bu iğrenç bir şey değildir. Kimseyle alay etmek istemem ama bunun gibi bir şey olur sanırım. Bu senaryo gerçekleşirse, bunun kötü veri analizi olduğu konusunda hemfikir olabiliriz. Ancak, sorun test istatistiğinin veya p-değerinin yanlış olmaması değil; Verilerin bu bakımdan uygun bir şekilde kullanıldığını söyleyebiliriz.. Sorunun Bob’un Cleveland’ın “ezberli veri analizi” olarak adlandırdığı şeyle ilgili olduğunu savunuyorum. Tek noktanın doğru p-değerini elde etmek olduğuna inanıyor ve bu amacı gerçekleştirmenin dışındaki verileri hakkında çok az şey düşünüyor. Yukarıdaki önerime geçebilir ve% 95 güven aralığına sahip standart bir etki büyüklüğü bildirmiş olabilirdi ve daha büyük bir sorun olarak gördüğüm şeyi değiştirmezdi (esasen aynı şeyi yapmayı kastediyordum) "farklı bir yöntemle". Bu özel durumda, verilerin beklendiği gibi görünmediği (yani normal değildi) gerçeği gerçek bir bilgidir, ilginçtir.ve çok büyük olasılıkla önemli, ama bu bilgi aslında sadece atılıyor. Bob, anlam testine odaklandığından dolayı bunu tanımıyor. Aklıma göre, bu anlamlılık testi ile gerçek bir sorundur.

Bahsettiğim diğer birkaç perspektifi ele alalım ve kimseyi eleştirmediğim konusunda çok net olmak istiyorum.

  1. Pek çok insanın p-değerlerini gerçekten anlamadığından söz edilir (örneğin, boş olma olasılıkları olduğunu düşünerek), vb. çekip gitmek. İnsanların Bayesian veri analizine bu kadar içten ve mekanik bir şekilde yaklaşabileceğine inanıyorum. Ancak, p değerinin anlamını yanlış anlamanın, hiç kimse p değeri almayı düşünmüyorsa, bunun daha az zararlı olacağını düşünüyorum.
  2. “Büyük veri” nin varlığı genellikle bu konuyla ilgili değildir. Büyük veri yalnızca, veri analizini 'önem' etrafında organize etmenin faydalı bir yaklaşım olmadığını açıkça ortaya koymaktadır.
  3. Sorunun test edilen hipotezle olduğuna inanmıyorum. İnsanlar tahmin edilen değerin bir aralığın dışında olup olmadığını görmek istiyorsa, bir puan değerine eşit olmak yerine, aynı sorunların çoğunu ortaya çıkarabilir. (Yine, açık olmak istiyorum, senin 'Bob' olmadığını biliyorum .)
  4. Kayıt için, ilk paragraftan gelen kendi önerimin, işaret etmeye çalıştığım gibi sorunu ele almadığını belirtmek istiyorum .

Benim için asıl mesele bu: Gerçekten istediğimiz şey olanları düşünmenin ilkeli bir yolu . Bunun herhangi bir durumda ne anlama geldiği kesilmez ve kurutulmaz. Bunun bir metot sınıfındaki öğrencilere nasıl kazandırılacağı açık ve kolay değildir. Önemlilik testinin arkasında pek çok atalet ve gelenek vardır. İstatistik sınıfında neyin öğretilmesi gerektiği ve nasıl olduğu açıktır. Öğrenciler ve uygulayıcılar için, materyali anlamak için kavramsal bir şema ve analiz yapmak için bir kontrol listesi / akış şeması (bazılarını gördüm!) Geliştirmek mümkün hale gelir. Önemlilik testi, hiç kimse aptal, tembel ya da kötü olmadan doğal olarak eziyet veri analizine dönüşebilir. Yani sorundur.


Güven aralıklarını severim :) Tek bir soru: Etki büyüklüğü sonrası hesaplamasının tamam olduğunu ima etmek mi istediniz?
Michelle,

@ Michelle, "post hoc" ile ne demek istediğinizi tam olarak bilmiyorum ama muhtemelen. Örneğin, bazı verileri , , & , sonra hesaplayın . Şimdi, bu önyargılı ve en basit durum, ama siz anladınız. ˉ x 2=14SD=6d=.67x¯1=10x¯2=14SD=6d=.67
gung - Reinstate Monica

Evet, burada hemfikir olduğumuzu düşünüyorum.
Michelle,

+1 Bob'un hikayesi bana şunu hatırlatıyor: pss.sagepub.com/content/early/2011/10/17/0956797611417632
Carlos Accioly

+1 Güvenilir aralıkları kendim tercih ederim. 1. noktaya gelince, Bayesian alternatiflerinin, verilerin tanımlanmasına neden olma ihtimalinin daha düşük olduğunu, bir olasılık tanımının çok fazla sezgisel olmadığından, aslında sormak istediğiniz soruyu istatistiksel olarak formüle etmeyi çok daha kolay hale getirdiğini iddia ediyorum. . Asıl sorun, testin gerçekleştirilmesinde, bu tür yöntemlerin geniş çapta benimsemesi için çok zor olan iç kısımlar gerektirmesidir. Umarım yazılım, kullanıcının soruyu formüle etmeye konsantre olabileceği ve gerisini bilgisayara bırakabileceği bir noktaya gelecektir.
Dikran Marsupial

18

İstatistiklerde neden herhangi bir hipotez testi yapılmasında ısrar ediyoruz ?

İlkeli Argüman Olarak İstatistik kitabında Robert Abelson, istatistiksel analizin söz konusu konu hakkındaki ilkeli argümanın bir parçası olduğunu savunuyor. Reddedilecek veya reddedilmeyecek (veya hatta kabul edilmeyecek!

Büyüklük - ne kadar büyük? Artikülasyon - İstisnalarla dolu mu? Açık mı? Genel - Genel olarak nasıl uygulanır? İlginçlik - Sonucu önemsiyor muyuz? Güvenilirlik - Buna inanabilir miyiz?

Blogumdaki kitabı incelemem


4
Sorun bazı profesörler tarafından karşılanmaktadır. Doktora, psikoloji bölümündeki psikometride. Bölümün diğer bölümlerinden profesörlerin "sadece p değerini bildir, önemli olan şey" dediklerini duydum. Çalışmam, çoğunlukla sosyal, davranışsal, eğitimsel ve tıbbi alanlarda lisansüstü öğrenciler ve araştırmacılarla danışmanlık yapmak. Doktora kurulları tarafından verilen yanlış bilgi miktarı şaşırtıcı.
Peter Flom - Eski Monica

1
"Neden ..." için +1, cevabımda elde etmeye çalıştığım şeyin büyük bir parçası.
gung - Reinstate Monica

Cevabımda elde etmeye çalıştığım bir diğer şey de, bunun doğal olduğunu düşünüyorum. BTW, adil değil, iki artı alma ;-), bunları birleştirebilirsiniz.
gung - Reinstate Monica

13

Sizin son soru değil sadece mantıklı: günümüzde mantıklı endüstriyel istatistikçiler formu bir sıfır hipotezini test anlamlı farkın ama önemli denklik, test yok burada kullanıcı tarafından ayarlanır ve aslında "efekt büyüklüğü" kavramıyla ilgilidir. En yaygın denklik testi TOST olarak adlandırılır . Bununla birlikte, TOST stratejisi, iki aracın ve önemli ölçüde - olduğunu kanıtlamayı amaçlar; örneğin, , bazı ölçüm yöntemleri ve için ortalama değerdir.H0:{|μ1μ2|>ϵ}ϵμ1μ2ϵμ1μ2başka bir ölçüm yöntemi için ve birçok durumda, gözlemler arasındaki denkliği araçlardan ziyade değerlendirmek daha mantıklıdır. Bunu yapmak için, gibi miktarlar üzerinde hipotez testleri yapabiliriz ve bu hipotez testleri tolerans aralıkları ile ilgilidir.Pr(|X1X2|>ϵ)


(+1) Ve 1000 itibara hoş geldiniz. Şerefe.
kardinal

6

Geleneksel hipotez testleri, bir etkinin varlığı için istatistiksel olarak anlamlı kanıt olup olmadığını söylerken, sık sık bilmek istediğimiz, pratik olarak anlamlı bir etkinin kanıtının varlığıdır.

Bayesian "hipotez testleri" ni minimum etki büyüklüğünde yapmak kesinlikle mümkündür (IIRC buna David MacKay'ın "Bilgi Kuramı, Çıkarım ve Öğrenme Algoritmaları" kitabında bunun bir örneğidir. .

Normallik testi başka iyi bir örnektir, genellikle verilerin gerçekten normal dağılmadığını biliyoruz, bunun makul bir yaklaşım olmadığını kanıtlayan kanıtlar olup olmadığını görmek için test ediyoruz. Veya bir madalyonun önyargısını sınamak için asimetrik olduğu için tamamen önyargılı olmanın mümkün olmadığını biliyoruz.


6

Bunların çoğu aslında sorduğunuz soruya, çalışmanızı nasıl tasarladığınıza ve hatta ne demek istediğinizi ortaya koyuyor.

Bir zamanlar İngiliz Tıp Dergisi'nde, insanların ne demek istediklerini yorumladıklarını söyleyen ilginç küçük bir makaleye rastladım. “Her zaman” ın bir şeyin zamanın% 91'i kadar düşük olduğu anlamına gelebileceği ortaya çıktı (BMJ VOLUME 333 26 AĞUSTOS 2006 Sayfa 445). Bu yüzden belki eşit ve eşdeğeri (veya X'in bir değeri için% X dahilinde) aynı şeyi ifade edebilir. Ve bilgisayara R kullanarak basit bir eşitlik isteyelim:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

Şimdi, sonsuz hassasiyet kullanan saf bir matematikçi, bu 2 değerin eşit olmadığını söyleyebilir, ancak R, onların olduğunu ve çoğu pratik durumda, (bana vermeyi teklif edersen (1e + 5 + 1e-50) diyebilirler. Tutar (1e + 5 - 1e-50) olarak sona erdi . Söz verdiğimden farklı olduğu için parayı reddetmem.$$

Daha bizim alternatif hipotez ise sık sık olarak null adlı yazmak rağmen teknik olarak gerçek null ama boş olarak eşitlik ile çalışmak çünkü değerinden büyük olduğunu gösterebilirsek, o zaman bunun da değerinden küçük olan tüm değerlerden daha büyük olduğunu biliyoruz . Ve iki kuyruklu bir test gerçekten sadece 2 kuyruklu bir test değil mi? Sonuçta, gerçekten olduğunu söylersin ama nın hangi tarafında olduğunu söylemeyi reddeder misin? Bu kısmen, güven aralığım varsa, mümkünse p-değerleri yerine güven aralıklarını kullanma eğiliminde olmasının nedeni budur.Ha:μ>μ0H0:μ=μ0H0:μμ0μμ0μ0μμ0μ0 μμ içerir buna inanmak için istekli olmayabilir süre sonra e eşit tam olarak ki burada yan kesin demek değildir, onlar da pratik amaçlar için eşit olabilir aracı yalan üzerine, .μ0μμ0μ0 μ

Bunların çoğu doğru soruyu sormak ve bu soru için doğru çalışmayı tasarlamaktan ibarettir. Pratik olarak anlamsız bir farkın istatistiksel olarak anlamlı olduğunu gösterecek kadar veriyle sonuçlanırsanız, o kadar veriyi elde etmek için kaynakları boşa harcadınız. Anlamlı bir farkın ne olacağına karar vermek daha iyi olurdu ve çalışmayı bu farkı saptamak için size yeterli güç verecek, ancak daha küçük olmayacak şekilde tasarlayın.

Ve eğer tüyleri gerçekten ayırmak istiyorsak, kuzuların hangi kısımlarının sağda ve hangilerinin solda olduğunu nasıl belirleriz? Tanımı gereği her iki tarafta eşit sayıda kılların olduğu bir çizgiyle tanımlarsak, yukarıdaki sorunun cevabı "Tabii ki" olur.


R'den aldığınız cevabın basitçe kayan nokta aritmetik probleminin bir sonucudur, alakasız farklılıkları göz ardı etme konusundaki bilinçli bir karar değil. Klasik örneği ele alalım (.1 + .2) == .3 Bir “saf matematikçi”, size herhangi bir hassasiyet düzeyinde eşit olduklarını söyler, ancak R, YANLIŞ değerini verir.
Gala

@ GaëlLaurans, demek istediğim, yuvarlamadan dolayı (insan tarafından veya bilgisayar tarafından bilinçli olsun), yeterince küçük bir X için tam olarak eşit ve% X içindeki kavramların pratikte aynı olmasıdır.
Greg Snow

5

Örgütsel bir bakış açısına göre, politika seçenekleri olan bir hükümet veya yeni bir süreç / ürün ortaya çıkarmak isteyen bir şirket olsun, basit bir fayda-maliyet analizinin kullanılması da yardımcı olabilir. Geçmişte, yeni bir girişimin bilinen maliyeti göz önüne alındığında (siyasi nedenleri göz ardı ederek), bu inisiyatiften olumlu olarak etkilenmesi gereken insan sayısının kırılmasının ne kadar önemli olduğunu savundum. Örneğin, yeni inisiyatif daha fazla işsiz insanı işe almaksa ve inisiyatif maliyeti ise $100,000, en azından işsizlik transferinde bir düşüşe neden oluyor $100,000mu? Olmazsa, girişimin etkisi pratik olarak anlamlı değildir.

Sağlık sonuçları için, istatistiksel bir yaşamın değeri önemlidir. Bunun nedeni, sağlık yardımlarının ömür boyu tahakkuk ettirilmesidir (ve bu nedenle faydalar, iskonto oranına göre değerinde aşağı doğru ayarlanır ). Böylece, istatistiksel anlamlılık yerine, bir istatistiksel yaşamın değerini nasıl tahmin edeceğiniz ve hangi iskonto oranının uygulanması gerektiği üzerine tartışmalar ortaya çıkar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.