Klinik bir deneme erken aşamada sonlandırıldığında önyargı neden etkilenir?


24

Bir ara analiz muhtemelen erken çalışmayı sonlandırma öncesinde bir ya da daha fazla zaman noktasında verilerin analizi niyetiyle çalışmanın resmi yakın, örneğin olduğunu.

Piantadosi'ye göre, S. ( Klinik araştırmalar - metodolojik bir bakış açısı ): " Bir deneme, erken bir aşamada sonlandırıldığında tedavi etkisinin tahmini önyargılı olacaktır. Karar ne kadar erken olursa, önyargı da o kadar büyük olur. "

Bana bu iddiayı açıklar mısın? Doğruluğun etkileneceğini kolayca anlayabiliyorum, ancak önyargı hakkındaki iddia benim için belli değil.


Ben bunun Bayesian ve Frequentist metodoloji arasındaki farkları "ortadan kaldırmak" için mükemmel bir soru olduğunu düşünüyorum
olasılık

Yanıtlar:


13

Öncelikle, bağlamı not etmelisiniz: bu sadece, rastgele bir dış nedenden dolayı değil, etkinlik / etkinlik gösteren geçici izleme nedeniyle deneme erken durdurulduğunda uygulanır. Bu durumda, etki büyüklüğünün tahmini tamamen istatistiksel bir anlamda önyargılı olacaktır. Etkinlik için durursanız, tahmin edilen etki çok yüksek olacaktır (pozitif olduğu varsayılırsa), kısırlık için durursanız, çok düşük olacaktır.

Piantodosi de sezgisel bir açıklama yapar (benim baskımda 10.5.4 saniye). İki yolla gerçek farkın 1 birim olduğunu varsayalım. Çok fazla deneme çalıştırdığınızda ve onlara ara analiz sürenizde baktığınızda, bazıları 1'in üzerinde, bazıları 1'in üzerinde ve 1'in üzerinde etki büyüklükleri göreceklerdir - dağılım geniş, fakat simetrik olacaktır. Bu noktada tahmin edilen etki büyüklüğü çok doğru olmayacak, fakat tarafsız olacaktır. Bununla birlikte, bir etki büyüklüğünü yalnızca, fark önemliyse (çoklu test için ayarlandıysa) durdurursunuz ve rapor edersiniz, yani tahmin yüksek taraftır. Diğer tüm durumlarda, devam edersiniz ve bir tahminde bulunmazsınız. Bu, erken durma şartına bağlı olduğu anlamına gelirEtki büyüklüğünün dağılımı simetrik değildir ve beklenen değeri tahminin gerçek değerinin üzerindedir.

Bu etkinin daha erken yaşta ortaya çıkması, denemeyi durdurmak için daha büyük bir engelden kaynaklanır, bu nedenle dağılımın daha büyük bir kısmı şartlandırma sırasında atılır.


1
İlk başta bunu da düşündüm, ama kanıtlamak için oturduğumda yapamadım: Sadece ortaya çıkan tahminin aslında tarafsız olduğunu gösterebildim . (Yeni sezgi: Koşullu bir duruştan gelen olumlu önyargı , deneyi taşımaktan tamamlamaya kadar negatif önyargıyı dengeler .) Öyleyse: Daha sıkı bir gösteri sunabilir misiniz?
whuber

@whuber ben onu yazmaya çalışacağım, ama mesele Piantodosi ifadesi yalnızca ne olacağı hakkında olmasıdır yapmak durak erken. Dengelemek için tamamlanmadı.
Aniko

2
@whuber Evet, orijinal ifadenin de iddia ettiği gibi. Çalışmanın tamamlanması konusunda şartlı bir önyargı olacağına dair düşünceniz de geçerlidir. Mesajın tamamı, ara izleme yapmaya başladığınızda, etki büyüklüğünü tahmin etme yeteneğinizle ilgili komik şeyler olmaya başladığı şeklinde olmalıdır.
Aniko

3
@Aniko Erken sonlandırma gerçekleştiğinde önyargıyı ayarlamak mümkün olmalıdır. Bu nedenle, bu tür tahmin edicilerin istenen özelliklerinin bulunmadığı koşullu olarak sonlandırılan deneylerde, sabit boyutlu rasgele örnekler için tasarlanan standart bir tahmin edicinin naif kullanımını tartışıyoruz. (Bu arada, +1.)
whuber

2
@whuber Elbette, bu önyargı için ayarlamalar yapabilirsiniz, ancak önce bunun var olduğunu tanımalısınız. Ve sonra araştırmacıya satış yapmanız gerekir, ancak her 10 hastadan 5'i net cevap vermesine rağmen, erken durma nedeniyle önyargı için ayarlama yapıldıktan sonra tahmin edilen yanıt oranının% 40 (sayılar) olduğunu gösterir.
Aniko

3

İşte sonuçlarda yanlılığın nasıl ortaya çıkabileceği ve bunun neden tam hikaye olamayacağına dair bir örnek. Olumlu (+1) etkiye sahip olması beklenen, ancak olumsuz bir etkiye sahip olabileceği tahmin edilen bir ilacın ardışık bir denemeniz olduğunu varsayalım (-1). Beş kobay birbiri ardına test edilir. Tek bir durumda olumlu bir sonuç bilinmeyen olasılığı aslında ve olumsuz sonuç134 .14

Yani beş denemeden sonra farklı sonuçların olasılıkları

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

Bu nedenle, genel olarak olumlu bir sonuç olasılığı 918/1024 = 0.896 ve ortalama sonuç +2.5'tir. 5 deneye bölünerek, bu, deneme başına ortalama +0.5 sonucun ortalamasıdır.

Aynı zamanda + 1 × 3 olduğu gibi tarafsız bir rakamdır .+1×341×14

Gine domuzlarını korumak için, herhangi bir aşamada kümülatif sonucun negatif olması durumunda çalışmanın sona ereceğini varsayalım. O zaman olasılıklar olur

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

Bu nedenle, genel olarak olumlu bir sonuç olasılığı 702/1024 = 0.6855 ve ortalama sonuç +1.953'tür. Önceki hesaplamada deneme başına sonucun ortalama değerine bakarsak, yani + 5 kullanarak ,+3+55 ,+1+35 ,-1+15 ,-115 ve-113 sonra +0.184 alacağız.11

Bunlar, ikinci şemada erken durmak suretiyle önyargının olduğu duyulardır ve önyargı öngörülen yöndedir. Ancak bu tam hikaye değil.

Neden whuber ve olasılıksal düşüncenin erken durması tarafsız sonuçlar üretmeli? İkinci programdaki çalışmaların beklenen sonucunun +1.953 olduğunu biliyoruz. Beklenen çalışma sayısı 3,906 olarak gerçekleşti. Böylece, birini diğeriyle bölerek +0.5 elde edilir, aynen eskisi gibi ve neyin tarafsız olarak tanımlandığı.


“Ön veri” dünyasının bakış açısını ele alıyorsunuz. Söylediğiniz doğrudur, durdurma kuralı önemlidir, ancak yalnızca verileri göz önünde bulundurmadan önce . Bunun nedeni, durma kuralının verilerle ilgili bilgi sağlaması, ancak gerçek olasılıklarla ilgili bilgi sağlamamasıdır. Veriler bir kez girdiğinde, durma kuralı artık önemli değil. Gerçek deneyde gerçek olasılıkların bilinmediğine dikkat edin. Olasılıkları olduğunda da durumları dikkate almak gerekir Yani, demek veP(-)=3P(+)=14 , yanı sıra başka bir olası kombinasyon. P()=34
olasılık

Bu yüzden, örneğini olduğunu belirtiyorum . Bu kesinlikle doğru! Cevabım da olsa D'yi şartlandırıyor . Bunun nedeni, eğer bana durma kuralını söylerseniz, ama gerçekten durup durmadığınızı söylemezseniz, bunu gerçekten sahip olduğum veri setinden çözebilirim. Aslında, herhangi bir durdurma kuralının , verileri öğrendikten sonra gerçekten durup durmayacağını anlayabilirim. P(H|S,I)P(H|I)D
olasılık

1

Eh, bu konuda benim bilgim 2008’deki Harve’in konuşmasından geliyor http://bookshop.rcplondon.ac.uk/details.aspx?e=262 Esasen, hatırladığım kadarıyla , sonuçlar 1) erken durma genellikle, tedavinin umduğundan daha az ya da çok etkili olduğu anlamına gelir ve eğer bu olumlu ise, o zaman şanstan yararlanabilirsiniz. P değerlerinin planlanan örneklem büyüklüğüne göre hesaplandığına inanıyorum (ancak bu konuda yanlış olabilirim) ve ayrıca sonuçların etki gösterilip gösterilmediğini görmek için sonuçlarınızı sürekli kontrol ediyorsanız, çoklu karşılaştırmalar için düzeltmeniz gerekir. Sadece bir şans etkisi bulmadığınızdan emin olmak için. Örneğin .05'in altındaki p değerleri için 20 kez kontrol ederseniz, ardından istatistiksel olarak konuşursanız, önemli bir sonuç bulmanız neredeyse kesindir.


BÖLÜM 1 Her şeyden önce, cevabınız için teşekkür ederim. Gerçekten de, sık test yöntemleri çoklu testler için doğru. Dolayısıyla, önyargılı tedavi etkisi tahmini sorunu oradan gelemez. Ara analizde, test genel planlanmış örneklem büyüklüğünü değil mevcut örnek büyüklüğünü kullanarak mevcut bilgilere dayanmaktadır. Yani sorun oradan da gelmiyor.
ocram

BÖLÜM 2 Erken kesilmenin , tedavinin "birinciden daha etkili" olduğu anlamına gelebileceğini kabul ediyorum. Bu anlamda, tahmini tedavi etkisi beklenenden daha büyük olacaktır. Ancak, bana göre, bu önyargılı yapmaz ... Bunun yerine, bana göre, bir anlamda, "umudumuz önyargılıydı".
ocram

1

"Önyargı" Piantadosi, genel olarak önyargı olarak adlandırılan doğruluğun bir parçası olduğu anlamına gelmediği sürece bu iddiaya katılmıyorum. Çıkarım "önyargılı" olmayacak çünkü kendi başınıza durmayı seçtiniz: daha az veriye sahip olduğunuz için "önyargılı" olacak. "Olabilirlik ilkesi" olarak adlandırılan, çıkarımın yalnızca gözlemlenen verilere dayanması gerektiğini, gözlemlenebilecek, ancak gözlemlenmemiş verilere dayanması gerektiğini belirtir. LP diyor

P(H|D,S,I)=P(H|D,I)

Burada (örneğin, "tedavi etkili" olarak, bir önerme formunda), test edilmiştir hipotez açılımı, D gerçekten gözlenen verilerin anlamına gelir ve S , "deneme erken durduruldu" önerme açılımı ve ı (örneğin, bir model olarak) önceden bilgi anlamına gelir. Şimdi durma kuralınızın D verilerine ve I önceki bilgilere bağlı olduğunu varsayalım , böylece S = g ( D , I ) yazabilirsiniz . Şimdi mantık temel bir kural olduğunu bir A = AHDSIDIS=g(D,I)AA=A- A'nın iki kez doğru olduğunu söylemek, bir kez söylemekle aynı şeydir. Bunun anlamı, D ve ben de doğru olduğunda değerinin doğru olacağıdır . Yani "boolean cebir" içinde elimizdeki D , S , ben = D , g ( D , I ) , ben = D , ben . Bu yukarıdaki olabilirlik ilkesinin denklemini kanıtlar. Senin durdurma kuralı veri başka bir şeye bağlıdır eğer sadece D veya ön bilgi IS=g(D,I)DID,S,I=D,g(D,I),I=D,IDI önemli olduğu.


@probabilityislogic: Teşekkürler! İyi anlarsam, "önyargı" istatistiksel anlamda alınmamalıdır. Sanırım bu mantıklı geliyor çünkü Piantadosi bir tahminin "önyargısı" hakkında konuşuyor, bir tahminde bulunmuyor ...
ocram

E(μμ^)2=var(μ^)+Bias(μ^)μμ^"tahmincisi" dir. İkinci terim (önyargı) örneklem büyüklüğüne bağlıysa, o zaman erken durmanın önyargıyı artırmasını beklersiniz, çünkü denemenin devam etmesine bağlı olarak örneklem boyutunu düşürmüştür. Ama söylediklerinize göre, "önyargı", Piantadosi'nin bakış açısından "hata" olarak yorumlanmalı gibi geliyor.
Olasılıksal

1
Bu argüman önyargı hakkında hiçbir şey söylemez, sadece kimsenin sormadığı, sorunun sadece hipotez sınama yönüdür.
Aniko

@Prob @Aniko ile aynı fikirdeyim: boş değer doğruysa, erken fesih olasılığı pozitif olduğu açıktır, bu durumda etkinin tahmini sıfır olacaktır. Böylece tahmin etkisi beklentisi koşullu koşulsuz beklenti sıfırdır oysa erken sona ermesi üzerine, pozitiftir. (OP'nin hipotez testine değil, tahminde bulunduğuna dikkat edin .)
whuber

Hμ(a,a+da)SDISSSDIμ
olasılık

0

Orada olacak çalışmaların sonlandırılması rastgele değilse ( "istatistiksel anlamda" olarak) önyargı olabilir.

Sonuca ulaşmak için yapılan bir dizi deneyde, (a) nihayetinde "etkisiz" bulunan bazı deneylerin "erken" sonuçlarının bir sonucu (şansın bir sonucu olarak) ve (b) nihayetinde bulan bazı deneyler gösterilecektir. etkisi "etkisiz" olarak gösterilecektir (güç yetersizliğinin bir sonucu olarak). Denemeleri sonlandırdığınız bir dünyada, (a) (b) den daha sık durursanız, bir etki bulma lehine önyargılı çalışmalarla karşılaşırsınız. (Aynı mantık, efekt boyutları için de geçerlidir ; "beklenenden düşük veya düşük" olarak belirtilenlerden daha erken dönemlerde "beklenenden daha büyük" etki gösteren çalışmaların sona ermesi "büyük etki" nin bulgu sayısını şişirir.)

Aslında, tıbbi sonuçlar, erken sonuçlar olumlu bir etki gösterdiğinde sonlandırılırsa - tedaviyi plasebo veya diğer bireylere tedavi yapmak için - ancak erken sonuçlar yetersiz olduğunda, o zaman bu tür testlerde daha fazla tip 1 hata olacaktır. Bütün deneyler sonuca varılsaydı olurdu. Ancak bu, uygulamanın yanlış olduğu anlamına gelmez; Ahlaki açıdan konuşursak, tip 1 hatasının maliyeti, tam deneme sonunda işe yaradığı gösterilen tedavilerde olduğu gibi, tedaviyi reddetmekten daha düşük olabilir.


Lütfen Aniko'nun cevabı hakkındaki yorumuma bakın, çünkü aynı soruyu size soracağım: daha sıkı bir gösteri sunabilir misiniz?
whuber

Aniko'ya ertelerim - benden daha iyi bir iş çıkarır. Ancak “masa çekmecesi etkisinin” önyargıya yol açtığını kabul ederseniz, buradaki mantık aynıdır. Hipotezi destekleyen verilerin lehine önyargı vardır - önceki durumda b / c destekleyici olmayan veriler bildirilmemiştir, ikinci b / c'de desteklenmeyen verilerin bir kısmı mutlaka toplanmamıştır: Denemenin sona ermesi Sonuçlar iyi göründüğü zaman, geç kötü sonuçlarını üretecek denemeler tarafından doldurulan "kötü sonuçlar" dağılımının bir kısmını hariç tutar . Belki bu önyargı ayarlanabilir - ancak ayarlanması gereken önyargı vardır.
dmk38

@dmk Sadece ikinizi de kesinlikle katılmıyorum gibi göründüğü @ Probability ile tartışmak için teşvik etmeye çalışıyorum ;-).
whuber

1
@whuber, @dmk - Sanırım ikimizin de yanlış olduğu için değil, her biri farklı bir soruya cevap verdiği için aynı fikirde değiliz. Sık görüşmeciP(D|'H,S,ben)"Cevap" olarak, ve eğer nesne buysa, durma kuralı önemlidir. Ama hangi soruya cevap? Bana göre bu, şu soruyu yanıtlıyor: "hipotez doğruysa (veya parametrenin değeri belirtilmişse), erken durduğumuz ve önceki bilgilerimizden hangi verileri gözlemlememiz muhtemeldir?" Ama bu aslında sorulan soru değil bence (daha sonra)
olasılık

1
@probability Bu ona bakmanın bir yoludur. Bir diğeri, hipotezi bir bütün olarak ele almak ve sorulan soruyu ele almak; zekâ, tedavi etkisinin boyutu nedir? Bu açıdan, fesih, karar vermeyi desteklemek için yeterli doğrulukla tahmin edildikten sonra gerçekleşebilir. Örneğin, sağlıkta tedaviyi reçetelemekten elde edilen kazancın tedavinin maliyetini (ve yan etkilerini) aşabileceği konusunda yüksek güvende olmak isteyebiliriz.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.