Etki büyüklüğü nedir… ve neden yararlıdır?


18

Giriş düzeyinde lisansüstü düzeyde bir istatistik geçmişim var (lisans düzeyinde matematik istatistiklerini ve olasılığını bildiğimi varsayalım (örneğin, Wackerly ve ark., Ross'un Olasılığı) ve bazı ölçü teorisi bilgisine sahibim).

Kısa süre önce eğitim istatistiklerinde deneysel tasarım ve istatistiksel raporlama yapan bir işe başladım ve temelde okullar için hesap verebilirlik metriklerini değerlendirdiğim ve verileri analiz etmem, değişiklikler önermem vb. Bir projeye yerleştirildim. bölümümde matematiksel istatistik geçmişi olan biri.

Benim durumumda insanlar, programların etkililiğini ölçmek için etki büyüklüğünü kullanmanızı şiddetle önerdiler. Etkinin büyüklüğünü duyduğum tek zaman psikoloji okuyan arkadaşımdan geldi. Benim izlenimim,

Effect Size=Difference of MeansStandard Deviation.

Bu metrikte geleneksel hipotez testleri üzerinde bu kadar yararlı olan şey nedir ve neden umursamalıyım? Bana göre, iki örnekli testi için bir test istatistiğinden başka bir şey gibi görünmüyor. Bunu belki de her şeyi aynı ölçekte koymaktan başka hiç de yararlı görmüyorum (bu yüzden herhangi bir şey gerçekten "normalleştiriyor"), ancak test istatistiklerinin (bu da etki boyutunun bana benzediği gibi) modası geçmediğini düşündüm ve -değerleri tercih edilir.ptp


"Giriş-yüksek lisans düzeyinde istatistik geçmişi" ile biraz kafam karıştı; ilk iki terim birbiriyle çelişiyor gibi görünüyor. Neleri içerdiğini açıklayabilir misiniz? Bu, lisansüstü düzeydeki istatistiklerin başlangıcı gibi bir şey mi?
Glen_b

2
@Glen_b Evet, lisansüstü düzeyde istatistiklere başlıyor. Matematiksel istatistikleri ve olasılığı lisans düzeyinde bildiğimi varsayalım (örneğin, Wackerly ve ark., Ross'un Olasılığı) ve bazı ölçü teorisi hakkında bilgi sahibi oldum.
Klarnetçi

3
Sempati gösterebilirim, OP. Bir matematik / stat geçmişinden geliyorlar, sosyoloji veya psikoloji doktora programlarında eğitim almış olanlarla istatistikleri tartışmak çoğu zaman şaşırtıcıydı, çünkü her şey için farklı terimleri var :) ve bazen her şeyin nasıl yapılacağına bakılmaksızın tam olarak nasıl yapılacağı hakkında katı fikirleri var en iyi istatistiksel uygulama, örneğin inatçı bir gözden geçireni / editörü yapısal eşitlik modellemesinin tüm sorunların çözümü olmadığı veya doğrusallığın her zaman iyi bir varsayım olmadığı konusunda ikna etmeye çalışmak! Ancak, birkaç yıl sonra bu toplulukla birleşmeyi çok iyi öğrendim!
CrockGill

Yanıtlar:


20

Yani bir etki boyutunun ölçüsüdür, ama orada birçok diğerleri. Bu kesinlikle değil test istatistiği. Etki büyüklüğü ölçünüze genellikle Cohen'in d denir (kesinlikle SD sadece MLE üzerinden tahmin edilirse doğrudur — yani, Bessel düzeltmesi olmadan ); daha genel olarak, buna 'standartlaştırılmış ortalama fark' denir. Belki bu, t d : d' nin daha net olmasını sağlayacaktır.tdtd
Yani, "/

d=x¯2-x¯1SDt=x¯2-x¯1SEt=x¯2-x¯1SDN-
Standart ortalama fark için formülde N "yoktur. /N-

0N-pN-


15

Daha alakalı bir alanda (psikoloji veya eğitim, diyelim) bir geçmişi olan birisinin daha iyi bir cevapla gelmesini bekliyorum, ama denemek istiyorum.

" Etki büyüklüğü ", birden fazla anlamı olan bir terimdir - yıllar önce bu gerçekleşmeye gelene kadar bazı karışık konuşmalara yol açtı. Burada, standart sapma için ölçeklendirilmiş versiyonla açıkça ilgileniyoruz ("bu kaç tane standart sapma değişti?")

Ortak oldukları konu alanlarında bu tür bir "etki büyüklüğüne" bakmanın nedenlerinden biri, belirli değerleri doğal olarak anlamlı olmayan, ancak elde edilmesi zor olan bazı temel şeyleri ölçmeye çalışmak üzere oluşturulmuş değişkenlere sahip olmalarıdır. en.

Örneğin, iş doyumunu ölçmeye çalıştığınızı düşünün (belki de onu, örneğin bazı ilgilenilen tedaviler de dahil olmak üzere bazı bağımsız değişkenlerle ilişkilendiren bir model için). Doğrudan ona ulaşmanın bir yolu yok, ancak (örneğin), belki de Likert ölçeği gibi bir şey kullanarak, farklı yönlerine ulaşmak için bazı anketler oluşturmayı deneyebilirsiniz.

Farklı bir araştırmacının iş memnuniyetini ölçmek için farklı bir yaklaşımı olabilir ve bu nedenle iki "Memnuniyet" ölçümünüz doğrudan karşılaştırılabilir değildir - ancak çeşitli geçerlilik biçimlerine sahiplerse ve bu tür şeyler kontrol edilirse (böylece makul olarak memnuniyeti ölçüyor olabilirler), o zaman çok benzer etki boyutlarına sahip olmaları umulmaktadır; en azından etki büyüklüğü daha neredeyse karşılaştırılabilir olacaktır.


3
teknik olmayan bir 'yapı' fikrini tanıtmak çok güzel bir iş çıkarıyor. Ama çalışmanızda, Klarnetçi, bu fikri biraz derinlemesine anlamanız gerekecek. Cronbach & Meehl'in Psikolojik Bülten'deki 1955 makalesi olan 'yapı geçerliliği' hakkındaki orijinal kaynağı şiddetle tavsiye ederim: psych.colorado.edu/~willcutt/pdfs/Cronbach_1955.pdf
David C. Norris

7

Yukarıdaki formül, ilgili örnekler için Cohen'in d' sini nasıl hesapladığınızdır (muhtemelen sahip olduğunuz nedir?), İlgisizse, bunun yerine havuzlanmış varyansı kullanabilirsiniz. Etki büyüklüğü hakkında size söyleyecek farklı istatistikler var, ancak Cohen'in d'si 0 ile 3 arasında değişebilen standart bir ölçüdür. Çok sayıda farklı değişkeniniz varsa, düşündüğünüzde standartlaştırılmış bir ölçüme sahip olmak güzel olabilir hepsini bir arada. Öte yandan, birçok kişi ölçülen birimler açısından etki büyüklüğünü anlamayı tercih etmektedir. Zaten p değerleriniz varsa neden d'yi hesaplıyorsunuz? Şu anda üzerinde çalıştığım bir veri kümesinden bir örnek. Onaylanmış psikolojik anketler (Likert verileri üreterek) kullanılarak ölçülen okullarda yürütülen davranışsal bir müdahaleye bakıyorum. Değişkenlerimin neredeyse tamamı istatistiksel olarak önemli bir değişiklik gösteriyor, belki de büyük bir örneğim olduğu için şaşırtıcı değil (n = ~ 250). Ancak, bazı değişkenler için, Cohen'in d0.12 diyelim ki 0.12 diyelim ki bu kesinlikle değişmekle birlikte klinik olarak önemli bir değişiklik olmayabilir ve bu nedenle verilerde neler olup bittiğinin tartışılması ve yorumlanması önemlidir. Bu kavram, pratisyenlerin (veya sizin durumunuzdaki okulların) tedavilerin gerçek klinik faydasını (veya deney ettikleri her şeyi) dikkate alması gereken psikoloji ve sağlık bilimlerinde yaygın olarak kullanılmaktadır. Cohen'in d'si , gerçekten bir müdahale yapmaya değer olup olmadığı hakkındaki soruları yanıtlamamıza yardımcı olur (p değerlerinden bağımsız olarak). Tıp bilimlerinde de NNT'yi düşünmeyi ve bunu söz konusu durumun ciddiyeti açısından değerlendirmeyi severler . @Krstoffr http://rpsychologist.com/d3/cohend/ adresinden bu harika kaynağa bir göz atın.



2

Aslında, p-değerleri nihayet 'modası geçmiştir': http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Boş hipotez anlamlılık testi (NHST) örnek büyüklüğünüzün açıklamasından biraz daha fazlasını üretir. (*) Herhangi bir deneysel müdahalenin bir etkisi olacaktır , yani ' etkisiz'in basit sıfır hipotezinin katı anlamda her zaman yanlış olduğu söylenebilir . Bu nedenle, 'anlamlı olmayan' test basitçe örnek büyüklüğünüzün yeterince büyük olmadığı anlamına gelir; 'anlamlı' test, bir şeyi 'bulmak' için yeterli veri topladığınız anlamına gelir.

'Etki büyüklüğü', sorunun doğal ölçeğine bir ölçü getirerek bunu düzeltmeye yönelik bir girişimi temsil eder. Tedavilerin her zaman bir etkisi olduğu tıpta (plasebo etkisi olsa bile), bir 'tedavinin' bulunma olasılığından% 50 daha fazla korunma olasılığına karşı korunmak için 'klinik olarak anlamlı bir etki' kavramı ortaya çıkar. istatistiksel olarak anlamlı derecede önemli bir etki '(ancak küçük).

Çalışmanızın doğasını anlarsam, Klarnetçi, o zaman günün sonunda, meşru amacı, sizin görüşünüz altındaki okullarda eğitimi geliştiren eylemleri / müdahaleleri bilgilendirmektir . Bu nedenle, ortamınız bir karar teorik olanıdır ve Bayesci yöntemler en uygun (ve benzersiz olarak tutarlı [1] ) yaklaşımdır.

Gerçekten de, sık kullanılan yöntemleri anlamanın en iyi yolu Bayesci yöntemlere yaklaşmaktır . Tahmini etki büyüklüğü Bayesci posterior dağılım için bir merkeziyet ölçüsüne yönelik olarak anlaşılabilirken , p-değeri bu posteriorun bir kuyruğunu ölçmeye yönelik olarak anlaşılabilir. Bu nedenle, bu iki miktar birlikte , probleminizle ilgili karar-teorik bir bakış açısının doğal girdisini oluşturan Bayes posteriorunun kaba bir özünü içerir. (Alternatif olarak, etki büyüklüğü üzerinde sıkça bir güven aralığı da aynı şekilde güvenilir bir aralık olarak anlaşılabilir .)

Psikoloji ve eğitim alanlarında, Bayesci yöntemler aslında oldukça popülerdir. Bunun bir nedeni, Bayes modellerine gizli değişkenler olarak 'konstrüksiyonlar' kurmanın kolay olmasıdır. Bir psikolog olan John K.Kruschke'nin 'köpek yavrusu kitabını' kontrol etmek isteyebilirsiniz . Eğitimde (öğrencilerin sınıflara yerleştirildiği, okullara yerleştirildiği, ilçelere yerleştirildiği, ...), hiyerarşik modelleme kaçınılmazdır. Bayes modelleri de hiyerarşik modelleme için mükemmeldir. Bu hesapta Gelman & Hill [2] 'e göz atmak isteyebilirsiniz.

[1]: Robert, Christian P. Bayesci Seçim: Karar Kuramsal Temellerden Hesaplamalı Uygulamaya. 2. baskı. İstatistiklerde Springer Metinleri. New York: Springer, 2007.

[2]: Gelman, Andrew ve Jennifer Hill. Regresyon ve Çok Düzeyli / Hiyerarşik Modeller Kullanarak Veri Analizi. Sosyal Araştırmalarda Analitik Yöntemler. Cambridge; New York: Cambridge University Press, 2007.


Bayes-tuğla-ile-baş-baş-at gerek-olmayan bir şekilde ' dayak ' bir bakış açısından 'tutarlılık' hakkında daha fazla bilgi için , bkz [3].

[3]: Robins, James ve Larry Wasserman. “Koşullama, Olasılık ve Tutarlılık: Bazı Temel Kavramların İncelenmesi.” Amerikan İstatistik Derneği Dergisi 95, no. 452 (1 Aralık 2000): 1340-46. DOI: / 01621459.2000.10474344 10.1080.

(*) [4] 'te Meehl, NHST'yi benden çok daha zarif, ancak daha az aşındırıcı bir şekilde yok ediyor:

Sıfır hipotezi her zaman yarı yanlış olduğundan, “önemli farklılıklar” örüntüleri açısından araştırmayı özetleyen tablolar, istatistiksel güç fonksiyonlarının karmaşık, nedensel olarak yorumlanamayan sonuçlarından biraz daha fazladır.

[4]: Meehl, Paul E. “Teorik Riskler ve Tablo Yıldızları: Sir Karl, Sir Ronald ve Yumuşak Psikolojinin Yavaş Gelişimi.” Danışmanlık ve Klinik Psikiyatri Dergisi 46 (1978): 806-34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


İşte Tukey'den ilgili bir alıntı: /stats//a/728/41404


1
" Herhangi bir deneysel müdahalenin bir etkisi olacaktır" (benim vurgularım) sonraki "her zaman" olduğu gibi oldukça güçlü bir ifadedir. Bazı çalışma alanlarında büyük olasılıkla mükemmel bir kural, ancak bence çok süpürücü olmanın tehlikeleri var. Ben de "[NHST] sizin örnek büyüklüğü bir açıklama biraz daha üretir" öneririm tartışılabilir: p-değeri arasındaki ilişkiler sonrasında ortaya hem numunenin büyüklüğü ve etkisi boyutuna.
Silverfish

@Silverfish, cevabınız için teşekkür ederim. Sizi p-değerleri konusundaki bakış açımın 'tehlikeli' olacağı bir örnek vermeye davet ediyorum . (BTW, bazılarını italik yazmıştım ve sizinki gibi bir şikayet beklentisiyle "katı anlamda" ifadesini kullandım. İddiam hala geçerli.) Üstelik, p değeri gerçekten de "bir etkileşimden ortaya çıkıyor" diğer iki faktör, bunlardan biri (örnek büyüklüğü), keyfi olarak seçilen büyük ölçüde serbest bir tasarım parametresidir. Bu keyfi seçim, p değerinin yansıttığı şeydir. İki sayıya açıkça ihtiyaç vardır; neden bir güven aralığının uç noktaları olmasın?
David C. Norris

2
Örnek olarak: sıfır hipotezinin doğru olmasını makul bir şekilde bekleyebileceğimiz herhangi bir örnek veya en azından bir deney yapmaya veya verilere bakmaya bile gerek olmadan yanlış olduğundan emin olduğumuzu açıkça belirleyemediğimiz herhangi bir örnek. Değil tüm boş değerlere yanlış şunlardır: Böyle telepati ve precognition deneylerinde olarak parapsikoloji araştırma, düşünün, ancak birçok nulls böyle genomik gibi daha "bilimsel olarak geçerli" düşünebileceğinin alanlarda doğrudur.
Silverfish

5
-1, burada çok fazla sorun var, IMO. 1 küçük psikoloji dergisinin p-değerlerini yasaklaması "p-değerlerinin artık" modası geçmiş "olduğu anlamına gelmez. Yasak geniş bir şekilde eleştirildi ( ASA tarafından yapılan kibar bir açıklama da dahil olmak üzere ve o zamandan beri başka dergiler tarafından alınmadı. Derginin Bayesian yöntemlerine geçiş gerektirmediğine dikkat çekiyorum (ki bu benim tercihinizdir) , ancak yalnızca duruma göre değerlendirir
gung - Reinstate Monica

3
Bununla birlikte, gerçek bir deneyde, birimleri rasgeleleştirme süreci, X'ten Y'ye doğrudan bir nedensel yol testi sağlayan endojen yolları keser. bunu tutmayın, “etkisiz 'sıfır hipotezinin her zaman yanlış olduğunu” iddia etmek tutarsızdır.
gung - Monica'yı eski
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.