Güçsüz çalışmalar yanlış pozitif olma olasılığını arttırdı mı?


23

Bu soru daha önce burada ve burada sorulmuştu ancak cevapların doğrudan soruyu cevapladığını sanmıyorum.

Güçsüz çalışmalar yanlış pozitif olma olasılığını arttırdı mı? Bazı haberler bu iddiayı ortaya koyuyor. For Örneğin :

Düşük istatistiksel güç kötü haber. Yetersiz çalışmalar, gerçek etkileri kaçırmak için daha muhtemeldir ve bir grup olarak, yanlış pozitiflerin daha yüksek bir oranını içerme olasılıkları daha yüksektir - yani, gerçek olmasalar da istatistiksel olarak önemli olan etkilere sahiptirler.

Anladığım kadarıyla, bir testin gücü arttırılabilir:

  • örneklem büyüklüğünü arttırmak
  • daha büyük bir efekt boyutuna sahip
  • önem seviyesini arttırmak

Önemlilik düzeyini değiştirmek istemediğimizi varsayarsak, yukarıdaki fiyat teklifinin örneklem büyüklüğünün değiştirilmesiyle ilgili olduğuna inanıyorum. Ancak, numunenin azaltılmasının yanlış pozitif sayısını arttırması gerektiğini anlamıyorum. Basitçe söylemek gerekirse, bir araştırmanın gücünü azaltmak, soruya cevap veren yanlış negatiflerin ortaya çıkma ihtimalini arttırır:

P(failure to reject H0|H0 is false)

Aksine, yanlış pozitifler soruya cevap verir:

P(reject H0|H0 is true)

İkisi de farklı sorular çünkü şartlılar farklı. İktidar (ters) yanlış negatiflerle ilgilidir, ancak yanlış pozitiflerle ilişkili değildir. Bir şey mi eksik?


4
İstatistiksel güce bağlı olan yanlış pozitif oran değil, "yanlış keşif oranı": P(H0is true|rejectH0)
Jake Westfall

2
Evet, bu Wired makalesindeki ifadenin doğru yorumu gibi görünüyor.
Robert Smith,

Yanıtlar:


30

Numune büyüklüğünün gücü etkilediği için haklısınız (örneğin 1 - tip II hatası), ancak tip I hatası değil. Bir p değerinin (doğru bir şekilde yorumlanmış) örnek büyüklüğü küçük olduğunda daha az güvenilir veya geçerli olduğu yaygın bir yanlış anlaşılmadır - Friston 2012'nin çok eğlenceli makalesinde [1] komik bir deneyime sahip.

Olduğu söyleniyor, yetersiz çalışmalarla ilgili konular gerçektir ve alıntı büyük ölçüde doğruydu, söyleyeceğim, ifadesinde sadece biraz kesin.

Yetersiz çalışmalarla ilgili temel problem, hipotez testlerinde yanlış pozitiflerin (tip I hata) sabit olmasına rağmen, gerçek pozitiflerin (güç) oranının azalmasıdır. Bu nedenle, pozitif (= anlamlı) bir sonucun, güçlü bir çalışmada gerçek bir pozitif olma ihtimalinin daha düşük olması muhtemeldir. Bu fikir sahte keşif hızında [2] ifade edilir, ayrıca bakınız [3]. Bu alıntı ne ifade ettiği görünüyor.

Yetersiz çalışmalarla ilgili olarak sıkça adlandırılan ek bir konu, fazla tahmin edilen etki büyüklüklerine yol açmalarıdır. Bunun nedenleri, a) düşük güçle, gerçek etkilere ilişkin tahminlerinizin, gerçek değerleri etrafında daha değişken (stokastik) hale gelmesi ve b) yalnızca bu etkilerin en güçlüünün, güç düşük olduğunda önem süzgecini geçmesidir. Bununla birlikte, bunun sadece önemli etkileri tartışmak ve raporlamakla kolayca çözülebilecek bir raporlama sorunu olmasına rağmen eklemeliyiz.

Son olarak, yetersiz çalışmalarla ilgili önemli bir pratik mesele, düşük gücün istatistiksel sorunları (örneğin tahmin edicilerin önyargısı) yanı sıra değişkenlerle ve benzer kesmek taktikleriyle uğraşmanın cazibesini arttırmasıdır. Bu "araştırmacı serbestlik dereceleri" nin kullanılması, güç düşük olduğunda en etkilidir ve BU, sonuçta, tip I hatasını artırabilir, bakınız, örneğin, [4].

Tüm bu nedenlerden dolayı, bu nedenle gerçekten de yetersiz bir çalışma hakkında şüpheci olurdum.

[1] Friston, K. (2012) İstatistiki olmayan hakemler için on ironik kural. NeuroImage, 61, 1300-1310.

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] Düğme, KS; Ioannidis, JPA; Mokrysz, C.; Nosek, BA; Flint, J .; Robinson, ESJ ve Munafo, MR (2013) Elektrik kesintisi: Neden küçük örneklem boyutları sinirbilimin güvenilirliğini zayıflatıyor? Nat. Rev. Neurosci., 14, 365-376

[4] Simmons, JP; Nelson, LD & Simonsohn, U. (2011) Yanlış Pozitif Psikoloji: Veri Toplama ve Analizde Açıklanamayan Esneklik, Her Şeyin Önemli Olarak Sunulmasına İzin Verir. Psychol Sci., 22, 1359-1366.


Teşekkür ederim. Mükemmel referanslar. Bütünlüğü için [1] burada bulunabilir ve [3] burada mevcuttur . Yanlış keşif oranı hakkında konuştuğunuzda, bunun doğru kavram olduğundan emin misiniz? [3] 'e dayanarak, belki de düşük güçlü çalışmaların düşük PPV'ye sahip olduğu pozitif öngörücü değeri (PPV) kastettiniz (yani, gerçek pozitifler, yüksek güçlü bir çalışmada olması gerektiği kadar sık ​​değildir) Yanlış keşif hızı gibi görünüyor PPV'nin tamamlayıcısı.
Robert Smith,

Anladığım kadarıyla bu kavramlar aynı, PPV = 1-FDR. FDR kullanımını tercih ediyorum çünkü kelimeyi sezgisel olarak daha iyi anlaşılabilir buluyorum.
Florian Hartig


2
Tal Yarkoni Friston makale hakkında her şeyi yanlış işaret buraya .
jona

1
@jona - Bence Tal Yarkoni'nin blog yazısında iyi puanlar aldığını düşünüyorum. 1 cümle özetinin "düşük güç bir problemdir" olacağını tahmin ediyorum, tam olarak yukarıda söylediğim gibi. Hala Friston'un inceleme uzmanı yorumlarının karikatürünü komik buluyorum, çünkü hakemlerin hesaplanan güce sahip olduğu iddiası olmadan “örneklem büyüklüğünü çok düşük buluyorum”.
Florian Hartig

6

Eğer ona nasıl baktığınıza bağlı olarak, düşük güç olabilir verilen senaryolarda yalancı pozitif oranlarını artırmak.

Aşağıdakileri göz önünde bulundurun: bir araştırmacı tedaviyi test eder. Test önemsiz olarak geri gelirse, onu terk eder ve bir sonraki tedaviye geçer. Test önemli bir şekilde geri gelirse, yayınlarlar. Ayrıca, araştırmacının işe yarayan bazı tedavileri test eden bazı tedavileri test edeceğini de düşünelim. Araştırmacı yüksek güce sahipse (elbette işe yarayan bir tedaviyi test ederken duruma atıfta bulunur), o zaman etkili bir tedaviyi test ettiklerinde durmaları çok muhtemeldir. Öte yandan, düşük güçle, gerçek tedavi etkisini kaçırmaları ve diğer tedavilere geçmeleri muhtemeldir. Ne kadar boş test yaparlarsa, Tip I hatası yapma olasılıkları o kadar yüksek olur (bu araştırmacı çoklu karşılaştırmalar yapmaz). Düşük güç durumunda, daha birçok boş tedaviyi test etmeleri beklenir,

“Pekala, bu sadece çoklu karşılaştırmaları kötüye kullanan bir araştırmacı!” Diyebilirsiniz. Bu doğru olabilir, ancak bu günlerde çok fazla araştırma yapıldığı da budur. Tam olarak bu nedenlerden dolayı, araştırmacının aynı deneyi çok sayıda tekrar etmeyi göze alamayacağı kadar büyük bir örneklem büyüklüğüne sahip olmadığı sürece, yayınlanmış işe kişisel olarak çok az inancım var.


1
Teşekkür ederim. Birden fazla karşılaştırma olması durumunda (doğru düzeltmeler olmadan) görmezden gelinse bile, burada açıklanan başka bir PPV örneğini tanımladığınızı düşünüyorum . Paragrafı yapıştıramıyorum ama ( For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null)
Robert Smith ile

1
Ah evet, bu neyi kastettiğimi çok yakından açıklıyor. En küçük fark, “Belirli bir deneysel prosedürde , gerçek bir etkinin her testinde bireysel düşük güce sahip olmak, tüm deneysel işlemimizde bir tip I hata yapma olasılığını arttırıyor” diyorum . Bu, elbette, her istatistiksel testte I tipi hata oranını arttırmaktan farklıdır. Ayrıca, sadece PPV'den farklı en duyusal tekniktedir. Ancak, "düşük güç, tip I hatalarını arttırıyor" ifadesinin tek anlam ifade etmesinin tek yoludur (ve çok anlamlı olduğunu düşünüyorum).
Cliff AB

4

Düşük güç, Tip-1 hata oranını etkileyemez, ancak Tip-1 hata olan yayınlanmış sonuçların oranını etkileyebilir.

Bunun nedeni, düşük gücün H0'nın doğru bir şekilde reddedilme şansını (Tip-2 hatası) azaltmasıdır, ancak H0'ın yanlış bir şekilde reddedilme şansını (Tip-1 hatası) azaltmasıdır.

Bir saniye için, biri çok düşük güçle - sıfıra yakın - diğeri de yeterli güçle yürütülen iki literatür olduğunu varsayalım. Her iki literatürde, H0 yanlış olduğunda, zamanın bazılarında hala yanlış pozitifler alacağınızı varsayabilirsiniz (örneğin, alfa =% 05 için% 5). Araştırmacıların hipotezlerinde her zaman doğru olmadıklarını varsayarak, her iki literatürde de benzer bir NUMBER Tip-1 hata olması gerektiğini, iyi güce sahip olup olmadıklarını varsayabiliriz. Bunun nedeni, Tip-1 hata oranının, diğerlerinin dediği gibi, güçten etkilenmemesidir.

Bununla birlikte, DÜŞÜK güce sahip literatürde, aynı zamanda birçok Tip-2 hatalarınız olacaktır. Başka bir deyişle, düşük-güç literatürü H0 'nin doğru reddedilmesini YAKALAMALIDIR; Yüksek güçlü literatürde, H0'ın doğru ve yanlış reddedilme karışımı olmalıdır.

Peki düşük güç Tip-1 hatalarını arttırıyor mu? Hayır. Ancak, gerçek etkilerin bulunmasını zorlaştırır, Tip-1 hatalarını yayınlanmış bulguların daha büyük bir oranı yapar.


1
Teşekkür ederim. PPV'den ne haber? Olarak kağıt Florian Hartig tarafından başvurulan, bir tip I hata, daha düşük güç, PPV alt verilen hasar bulunmaktadır. Eğer PPV daha düşükse, bu iddia edilen gerçek keşiflerin sayısının daha düşük olması anlamına gelirse, hatalı iddia edilen keşiflerin sayısı (yanlış pozitif) artmalıdır.
Robert Smith,

0

Diğerlerinin cevabına ek olarak, örneklem büyüklüğü küçük olduğunda bir çalışma genellikle güçlenmez. Sadece asimptotik olarak geçerli olan ve küçük n için çok iyimser veya muhafazakar olan birçok test vardır.

Diğer testler, yalnızca belirli koşullar yerine getirildiğinde küçük örneklem büyüklükleri için geçerlidir, fakat büyük örneklem büyüklüğü ile daha sağlam hale gelir (örneğin t testi).

Her iki durumda da küçük örneklem büyüklüğü ve karşılanmayan varsayım, artan bir tip I hata oranına neden olabilir. Bu iki durum da, sorunuza asıl cevabı şu şekilde düşündüğüm kadar sık ​​görülür: teoride değil, pratikte.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.