Bir çalışmanın aşırı güç alması ne anlama geliyor?


11

Bir çalışmanın aşırı güç alması ne anlama geliyor?

Benim izlenimim, örnek boyutlarınızın o kadar büyük olduğu anlamına gelir ki minik etki boyutlarını tespit etme gücüne sahipsiniz. Bu etki büyüklükleri belki de o kadar küçüktür ki, örnekleme işlemindeki hafif yanlılıklardan kaynaklanma olasılıkları değişkenler arasındaki (mutlaka doğrudan değil) nedensel bağlantıdan daha olasıdır.

Bu doğru sezgi mi? Eğer öyleyse, sonuçlar o ışıkta yorumlandığı sürece, önemli olanın ne olduğunu görmüyorum ve tahmin edilen etki büyüklüğünün "anlamlı" olacak kadar büyük olup olmadığını elle kontrol edip görüyorsunuz.

Bir şey mi kaçırıyorum? Bu senaryoda ne yapılması gerektiği konusunda daha iyi bir öneri var mı?


Bu terime ilişkin sezgisel anlayışım gibi görünüyor.
Henrik

Yanıtlar:


11

Bence yorumunuz yanlış.

"Bu etki boyutları belki de örnekleme sürecindeki hafif yanlılıklardan, değişkenler arasındaki (mutlaka doğrudan değil) nedensel bir bağlantıdan daha büyük olasılıkla daha küçüktür" diyorsunuz ki bu, "aşırı güçlü" çalışma 'düzgün' destekli bir çalışmanın P değeriyle aynı türden bir şey değildir. Bu yanlış. Her iki durumda da P değeri, gözlenenler kadar aşırı veya sıfır hipotezi doğruysa daha fazla veri elde etme olasılığıdır.

Neyman-Pearson yaklaşımını tercih ederseniz, 'aşırı güç' çalışmasından elde edilen yanlış pozitif hataların oranı, her ikisi için de aynı alfa değeri kullanılırsa, 'düzgün' güçle çalışan bir çalışma ile aynıdır.

İhtiyaç duyulan yorumlamadaki fark, aşırı güçlü çalışmalar için istatistiksel anlamlılık ile bilimsel anlamlılık arasında farklı bir ilişkinin olmasıdır. Aslında, aşırı güçlü çalışma, etki, sizin gibi, minik ve bu nedenle tartışmalı bir önem olsa da, önem kazanma konusunda büyük bir olasılık verecektir.

'Aşırı güçlü' bir çalışmanın sonuçları uygun şekilde yorumlandığı sürece (ve etki büyüklüğü için güven aralıkları böyle bir yoruma yardımcı olur) 'aşırı güçlü' bir çalışmada istatistiksel bir sorun yoktur. Bu bağlamda, bir çalışmanın aslında aşırı güçlenebileceği tek kriter, diğer cevaplarda ortaya çıkan etik ve kaynak tahsisi sorunudur.


Teşekkürler, bu çok bilgilendirici. P-değeri tanımının değişmediğini anlıyorum. Kesinlikle istatistiksel açıdan I tipi hataların oranı artmaz.
Frank Barry

1
Tanımı gereği, p-değeri eşiğini ayarlamada tip I hata oranını düzeltiyoruz. Ancak, buradaki "istatistiksel" ve "pratik" önem arasındaki fark burada görülmektedir. Örneklem büyüklüğü, beklenen etki büyüklüğünden çok daha ince farklılıkları saptayabildiğinde, istatistiksel olarak doğru olan bir fark pratikte anlamlı değildir (ve "son kullanıcı" perspektifinden bakıldığında, bu bir "yanlış pozitiftir") istatistiksel değil). Ancak, dediğiniz gibi, bu, istatistik alanının dışına çıkmaya başlar.
Frank Barry

1
yani ben katılıyorum düşünüyorum - "gerekli yorum farkı istatistiksel anlamlılık ve bilimsel anlamlılık arasında farklı bir ilişki olmasıdır"
Frank Barry

4

Tıbbi araştırmalarda, çok fazla hasta alıyorlarsa araştırmalar etik dışı olabilir. Örneğin, hangi tedavinin daha iyi olduğuna karar vermekse, daha kötü olduğu tespit edilen hastaları daha düşük olduğu tespit edildikten sonra tedavi etmek artık etik değildir. Örneklem büyüklüğünün arttırılması elbette size etki büyüklüğünün daha doğru bir tahminini verir, ancak "örnekleme işlemindeki hafif yanlılıklar" gibi faktörlerin etkileri ortaya çıkmadan önce durmanız gerekebilir.

Kamu parasının yeterince doğrulanmış bir araştırma için harcanması da etik dışı olabilir.


1

Söylediğin her şey mantıklı (ne demek istediğini "büyük anlaşmadan" bilmiyorum) ve ben esp. istatistiksel anlamlılığın aksine etki boyutları hakkındaki görüşünüz gibi. Diğer bir husus, bazı çalışmaların her davanın katılımını elde etmek için kıt kaynakların tahsisini gerektirmesidir ve bu nedenle aşırıya kaçmak istemez.


Maalesef, "büyük fırsat" çok fazla editoryal yorum. Bunun benim yaptığımdan daha büyük bir anlaşma olup olmadığı sorusu temelde cahil olabileceğim ek hususlar olup olmadığı sorusudur.
Frank Barry

0

Deneyimlerim, sorunun genellikle yetersiz çalışan veya yanlış şeyleri ölçtüğü A / B deneylerinden geliyor. Ama bana öyle geliyor ki, aşırı güçlü bir çalışma, karşılaştırılabilir çalışmalardan daha düşük güven aralıkları, daha düşük p değerleri ve muhtemelen farklı varyans üretiyor. Bunun benzer çalışmaları karşılaştırmayı zorlaştırabileceğini düşünüyorum. Örneğin, uygun gücü kullanarak aşırı güçlü bir çalışmayı tekrarlarsam, etkiyi tam olarak kopyalasam bile p-değerim daha yüksek olurdu. Daha büyük bir örnekte ortaya çıkma şansı daha yüksek olan aykırı değerler varsa, artan örnek boyutu değişkenliği bile artırabilir veya değişkenlik sağlayabilir.

Ayrıca, simülasyonlarım ilgilendikleriniz dışındaki etkilerin daha büyük bir örnekle önemli hale gelebileceğini gösteriyor. Bu nedenle, p değeri size sonuçlarınızın gerçek olma olasılığını doğru olarak söylese de, düşündüğünüzden başka nedenlerle, örneğin bir şans kombinasyonu, kontrol etmediğiniz geçici bir etki ve belki de başka bir şey için gerçek olabilirler. farkında olmadan daha küçük bir etki yarattı. Çalışma biraz fazla güçlüyse, bunun riski düşüktür. Sorun genellikle yeterli gücü bilmek zordur, örneğin, temel metrikler ve minimum hedef etki tahmin edildiğinde veya beklenenden farklıysa.

Ayrıca , bir numunenin çok büyük bir kısmının uyum iyiliği testini, önemsiz sapmalara karşı çok hassas hale getirebileceğini ve potansiyel olarak sezgisel sonuçlara yol açabileceğini iddia eden bir makaleye rastladım .

Bununla birlikte, düşük güç yerine yüksek tarafta hata yapmanın en iyisi olduğuna inanıyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.