Bonferroni ayarlarında yanlış olan ne?


23

Aşağıdaki makaleyi okudum: Perneger (1998) Bonferroni ayarlarında yanlış olan ne ?

Yazar Bonferroni düzeltmesinin en iyi ihtimalle biyomedikal araştırmalarda sınırlı uygulamalara sahip olduğunu ve belirli hipotezlerle ilgili kanıtların değerlendirilmesinde kullanılmaması gerektiğini söyleyerek özetledi:

Özet noktaları:

  • Çalışma verilerinde yapılan testlerin sayısının istatistiksel olarak anlamlı hale getirilmesi - Bonferroni yöntemi - çözdüğünden daha fazla sorun yaratıyor
  • Bonferroni yöntemi, genel boş hipotezi ile ilgilidir (tüm boş hipotezlerin aynı anda doğrudur);
  • Temel zayıflık, bir bulgunun yorumunun, yapılan diğer test sayısına bağlı olmasıdır.
  • II. Tür hataların olasılığı da artar, böylece gerçekten önemli farklılıklar önemsiz sayılır.
  • Hangi anlamlılık testlerinin yapıldığını ve nedeninin genellikle çoklu karşılaştırmalarla uğraşmanın en iyi yolu olduğunu açıklamak

Aşağıdaki veri setine sahibim ve birden fazla test düzeltmesi yapmak istiyorum, ancak bu durumda en iyi yönteme karar veremiyorum.

görüntü tanımını buraya girin

Araçların listesini içeren tüm veri kümeleri için bu tür bir düzeltmenin yapılması zorunlu olup olmadığını bilmek istiyorum ve bu durumda düzeltme için en iyi yöntem hangisidir?


tam olarak 'ortalama A', 'meanB' ... nedir?

3
By değil çoklu karşılaştırmalar için düzeltme Eğer üretilemeyen sonuçlarla karşılaşabilirsiniz. Tıp ve psikoloji de dahil olmak üzere birçok alan son zamanlarda tam olarak ne olduğunu keşfetti: düzeltilmemiş p-değerlerine dayanarak "bildikleri" şeylerin çoğu öyle olmadı. Sinik görünmek anlamsız, seçim açık görünüyor: yayınlamak için bir p-değeri kriterini karşılaması gereken araştırmacı doğru olmaz; bilgi isteyen şüpheci olacaktır.
whuber

@whuber ama p-değerleri düzeltmek için pek çok farklı yöntem mevcut olduğunda yine de tekrarlanabilir olarak kabul edilebilir mi? Cevabında martino daha az muhafazakar veya daha güçlü yöntemler arasında seçim yapmak için kılavuzlar bile veriyor.
Nakx

@Nakx Yeniden Üretilebilirlik sadece istatistiksel prosedürle gevşek bir şekilde ilişkilendirilir: araştırma başkaları tarafından bağımsız olarak yapıldığında karşılaştırılabilir sonuçların elde edilip edilmeyeceği anlamına gelir (ve muhtemelen çoğaltmak için bu tür girişimlerde tek bir açık hipotez önceden açıklanacak ve bu hipoteze uygun bir istatistiksel prosedür kullanılacaktır). Orijinal prosedür doğru bir p değeri üretmezse, o zaman birçok bağımsız çalışma için birçok kez kullanıldığında, ortalama olarak kullanıcılarının amaçladığı veya beklediğinden daha fazla tekrarlanamayan tespitler yapacaktır.
whuber

Yanıtlar:


23

Bonferroni düzeltmesinde yanlış olan, başkaları tarafından belirtilen muhafazakârlığın yanı sıra, bütün çokluk düzeltmelerinde yanlış olan şeydir. Temel istatistiksel ilkelerden gelmezler ve keyfidirler; frekans dünyasında çokluk sorununa benzersiz bir çözüm yoktur. İkincisi, çokluk düzeltmeleri, bir ifadenin doğruluğunun diğer hipotezlerin hangi eğriye dayandığına bağlı olduğu felsefesine dayanır. Bu, ilgili parametre için önceki dağılımın diğer parametreler dikkate alındığında daha tutucu olmaya devam ettiği bir Bayesian kurulumuna eşdeğerdir. Bu tutarlı görünmüyor. Bir kişi bu yaklaşımın yanlış pozitif deneyler tarihi tarafından "yakılmış" araştırmacılardan geldiğini ve şimdi onların yanlışlarını telafi etmek istediklerini söyleyebilir.

Biraz genişletmek için aşağıdaki durumu göz önünde bulundurun. Bir onkoloji araştırmacısı, belirli bir sınıfın kemoterapilerinin etkinliğini çalışma konusunda kariyer yapmıştır. Onun randomize çalışmalarının önceki 20 tanesi istatistiksel olarak anlamsız etkinlikle sonuçlanmıştır. Şimdi aynı sınıfta yeni bir kemoterapi test ediyor. Hayatta kalma yardımı P=0.04. Bir meslektaş, çalışılan ikinci bir son nokta olduğunu (tümörün küçülmesi) ve önemsiz bir sağkalım yararı sağlayarak, çokluk ayarının sağkalım sonucuna uygulanması gerektiğini belirtir. Meslektaşım ikinci son noktayı vurguladı, ancak etkili bir ilaç bulmak için önceki 20 başarısız girişimin ayarlanması konusunda daha az umursayamaz mıydı? Ve eğer Bayesian olmasaydınız, önceki 20 çalışma hakkında önceki bilgileri nasıl hesaba katardınız? Ya ikinci bir bitiş noktası olmasaydı. Meslektaşım, önceki tüm bilgileri göz ardı ederek hayatta kalma parasının gösterildiğine inanır mıydı?


2
'Tekrarlanabilir' referansında net değil. Tek bir test varsa, çoklu ayar gerektirmez, olan bir sonucun tekrarlanma şansı yüksek değildir. P=0.04
Frank Harrell

2
@MJA'ya cevap vermek için iki tercih edilen yaklaşım olduğunu düşünüyorum: (1) Bayes dili veya (2) hipotezleri öncelik sırasına koyup sonuçları bağlamda öncelik sırasına göre rapor edin.
Frank Harrell

3
Bunun hakkında ilkeli olan hiçbir şey yoktur ve hiçbir şekilde kesin değildir. Bonferroni'nin eşitsizliği sadece hata olasılığı için bir üst sınırdır . Neden geçirmek 5 parametrelere eşit? Neden kabul bölgesi için dikdörtgen bir alan yerine elipsoidal bölge yapmıyorsunuz? Neden Scheffe veya Tukey metodunu kullanmıyorsunuz? Neden basit bir kompozit ANOVA tipi test kullanmıyorsunuz? Sen yok istenen ulaşmak a bir kullanarak içinde eşitlik. αα
Frank Harrell,

2
İki hata oranına denk geliyorsunuz. Boş altında, Bonferroni EXACTLY, aile başına beklenen hata sayısını korur. Aile başına "en az bir" hata olasılığına dair bir ÜST SINIR VERİR (korelasyona bağlıdır). Alfaları 5 teste eşit olarak harcamak, testleri farklı bir şekilde öncelik sırasına koymak için herhangi bir sebep belirtilmediğinde mükemmel bir şekilde mantıklıdır. Başka bir bağlam göz önüne alındığında, aksi yapmanın ilkeli nedenleri vardır. Matematiksel olarak sağlam bir yöntem kullanmanın “ilkesiz, amaç ve varsayımlar verilen alternatif yöntemlerin mevcut olması nedeniyle” ilkesiz olduğunu ima ediyor gibisiniz.
Bonferroni

2
@ FrankHarrell Diğer sorularınız yalnızca amacımı açıklamak içindir. Çokluk olmasa bile, çoğu zaman çok sayıda test istatistiği, test prosedürü vb. Seçenekler vardır. Bu, ima ettiğin anlamda metodolojiyi "keyfi" yapmaz. Bir omnibus testi ile ilgilenen varsa, elbette bir tane yapın. Biri sadece tek değişkenli testlerle ilgileniyorsa, o zaman kesinlikle tek değişkenli testleri yapın. İlgilendiğiniz soruyu ele alan testi seçmenin başka bir sorudan ziyade "keyfi" olduğunu mu düşünüyorsunuz?
Bonferroni

12

Bonferroni düzenlemesinin en iyi ihtimalle biyomedikal araştırmalarda sınırlı uygulamaları olduğunu ve belirli hipotezlerle ilgili kanıtları değerlendirirken kullanılmaması gerektiğini söyledi.

Bonferroni düzeltmesi en basit ve en konservatif çoklu karşılaştırma tekniğinden biridir. Aynı zamanda en eskilerinden biridir ve zamanla büyük ölçüde iyileştirilmiştir. Bonferroni düzeltmelerinin hemen hemen her durumda sınırlı bir uygulamaya sahip olduğunu söylemek doğru olur. Neredeyse kesinlikle daha iyi bir yaklaşım var. Başka bir deyişle, çoklu karşılaştırmalar için düzeltmeniz gerekecek, ancak daha az muhafazakar ve daha güçlü bir yöntem seçebilirsiniz.

Az muhafazakar

Birden fazla karşılaştırma yöntemi, test ailesinde en az bir yanlış pozitif almaya karşı koruma sağlar. seviyesinde bir test yaparsanız,% 5 oranında yanlış pozitif alma şansınız olur. Başka bir deyişle, boş hipotezinizi yanlış reddedersiniz. Α = 0.05 seviyesinde 10 test yaparsanız, bu 1 - ( 1 - 0.05 ) 'e yükselir. 10 = ~% 40 yanlış pozitif alma şansıαα=0.051(10.05)10

Bonferroni yöntemiyle , n testi ailesini α düzeyinde korumak için ölçeğin en altındaki bir kullanın (yani α b = α / n ) . Başka bir deyişle, en muhafazakar. Artık, Bonferroni tarafından ayarlanan alt sınırın üzerinde α b'yi artırabilir (ör. Testinizi daha az muhafazakar hale getirebilir) ve testlerinizi a seviyesinde koruyabilirsiniz . Bunu yapmanın birçok yolu vardır, örneğin Holm-Bonferroni yöntemi ya da daha iyisiαbαb=α/nnααbα

Daha güçlü

Başvurulan makalede ortaya çıkan iyi bir nokta, II tipi hataların olasılığının, gerçekten önemli farkların önemsiz sayılması için de arttırılmasıdır.

Bu çok önemli. Güçlü bir test, varsa önemli sonuçları bulan testtir. Bonferroni düzeltmesini kullanarak daha az güçlü bir test yapmış olursunuz. Bonferroni'nin muhafazakar olması nedeniyle, gücün önemli ölçüde azaltılması muhtemel. Yine, örneğin Alternatif Bulma Oranı gibi alternatif yöntemlerden biri testin gücünü artıracaktır. Başka bir deyişle, yalnızca yanlış pozitiflere karşı koruma sağlamakla kalmaz, aynı zamanda gerçekten önemli sonuçlar bulma yeteneğinizi de geliştirirsiniz.

Bu nedenle, evet, çoklu karşılaştırmalarınız olduğunda bazı düzeltme tekniklerini uygulamanız gerekir. Ve evet, Bonferroni'den daha az muhafazakar ve daha güçlü bir yöntem lehine kaçınılmalıdır.


Birkaç alternatif var - örneğin Holm Bonferroni basit ve anlaşılması kolaydır. Neden bir denemiyim. Diyelim ki, bir deneyde muhtemelen binlerce değişkeni test ettiğiniz gen ifadesinde veya protein ifadesinde bulunduğunuzu ve ardından FDR'yi kullandığınızı varsayalım.
martino

On testte% 40'lık yanlış pozitif şansı hesaplama yönteminiz, bağımsız olaylar olarak testlerinize dayanmaktadır, ancak gerçek verilerle durum böyle değildir. Bunun en azından yorumlamaya layık olduğunu düşünüyorum.
Silverfish

Ayrıca, bu cevabın yanlış keşif oranı ile aile yanlısı hata oranını koruma yöntemlerini birleştirdiği görülüyor. Her ikisini de tartışmak kötü bir fikir değil, ancak farklı işler yaptıkları için eşdeğer olarak sunulmaları gerektiğini sanmıyorum
Silverfish

Fakat iyi anlarsam, FDR (yanlış keşif oranları) önceden belirlenmiş bir seviyede tip I hata kontrolünü garanti etmiyor mu? (ayrıca bu soruya cevabım bakın)

Ancak bir makaledeki tüm ham p-değerlerini bildirmek daha şeffaf ve kullanışlı değil mi?
Nakx

5

Thomas Perneger istatistikçi değil ve makalesi hatalarla dolu. O yüzden ciddiye almazdım. Aslında başkaları tarafından ağır eleştirildi. Örneğin, Aickin, Perneger'in makalesinin “neredeyse tamamen hatalardan oluştuğunu” söyledi: Aickin, “Birden fazla testin ayarlanması için başka bir yöntem var”, BMJ. 1999 9 Ocak; 318 (7176): 127.

Ayrıca, orijinal sorudaki p değerlerinin hiçbiri, çokluk ayarlaması olmasa bile, <<0,05'tir. Bu yüzden muhtemelen (eğer varsa) hangi ayarın kullanıldığı önemli değildir.


4
Bağlantı için teşekkürler! Daha dolu bir referans ekledim. Bu, hala bir cevaptan çok bir yorumdur. Eklemek istediğiniz bir şey olduğuna ya da en azından Aicken'ın söylediklerinin kısa bir özetine sahip olduğunuza eminim. Bununla ilgisi yok: Perneger'in istatistiklerde uzmanlığı olmadığını söylemek için (makul bir standartla) doğru görünmüyor, uygun veya yararlı - ifadeyi kaldırmayı düşünür müsünüz?
Scortchi

@Scortchi Ben değişti "istatistik" hiçbir uzmanlık yoktur "için" bir istatistikçi değil. " Bu arada, uzman görüşlerini uzman olmayan görüşlerden ayırmanın faydası olmadığına katılıyorum.
Bonferroni

2
Söyleyebileceğim kadarıyla, Perneger'in istatistikte bir derecesi yok ve hiçbir istatistik dergisinde bir makale yayınlamadı. Soruda belirtilen yazı BMJ'de tamamen yanlış olduğu söylenen bir görüş makalesidir. Öyleyse, Perneger’in “makul bir standardın ötesinde” tartışılmaz sözde uzmanlığı nedir? "Sevimli" olmak gerçeğin önüne geçmemelidir.
Bonferroni

3
Bildiğim kadarıyla ben anlarım diye Biyoistatistik alanında yüksek lisans ve Tıp İstatistik dersler ve klinik çalışmalarda ve tıp dergilerinde gözlemsel çalışmaların analizlerini yayınlar Epidemiyoloji alanında doktora derecesi bulunan bir üniversite hastanesinde bir profesör. Bu "istatistiksel uzmanlık yok" ifadesinden çıkarırsanız, standartlarınızın okurlarınızın kabul etmesini makul bir şekilde beklediğinizden daha yüksek olduğunu düşünüyorum. (Standartın mantıksız olması yerine söylemem gereken şey buydu.) Yine de, düzenlediğiniz için teşekkürler!
Scortchi - Monica’yı yeniden kurun

5

Belki de Bonferroni’ninki gibi çeşitli test düzeltmelerini “behind ardındaki gerekçeyi” açıklamak iyidir. Eğer bu açıksa, uygulamanız gerekip gerekmediğini kendiniz yargılayabileceksiniz.

μH0:μ=0

Öyleyse göstermek H1:μ0H0:μ=0α

H0H0

Örnek bir dağılımdan rastgele bir çizim olduğundan, sadece '' örnekle kötü şans '' ile düşük bir olasılık elde etmiş olabiliriz ve sonra H 0'ı reddederiz.H0H0H1

Yanlış kanıt bilimde kötü bir şey çünkü dünya hakkında gerçek bilgiler edindiğimize inanıyoruz, ancak aslında örneklemde kötü şanslar yaşadık. Dolayısıyla bu tür hatalar kontrol edilmelidir. Bu nedenle, kişi bu tür bir kanıtın olasılığı üzerine bir üst sınır koymalı veya biri de tip I hatasını kontrol etmelidir. Bu, önceden kabul edilebilir bir önem seviyesini sabitleyerek yapılır.

Biz bizim anlamlılık düzeyini saptamak Yani eğer daha sonra biz reddetmeye hazır olduklarını söylediğini H 0 o ihtimali (çünkü örnek ile kötü şans) doğru olduğunda 5 % . Gibi (yukarıda bakın) H 0 reddetme5%H05%H0H1H1

H0:μ1=0&μ2=0H1:μ10|μ20α=0.05

H0(1):μ1=0H0(1):μ10H1(2):μ2=0H1(2):μ20α=0.05

H0(1)H0(1)

1(10.05)2=0.0975α

Buradaki önemli gerçek, iki testin bir ve sampe örneğine dayanmasıdır!

Bağımsızlığı kabul ettiğimize dikkat edin. Bağımsızlığı üstlenemezseniz, Bonferroni eşitsizliğini $ kullanarak $ I türünün 0,1'e kadar şişebileceğini gösterebilirsiniz.

Bonferroni'nin muhafazakar olduğuna ve Holm'un adım adım prosedürünün Bonferroni ile aynı varsayımlara uyduğunu unutmayın, ancak Holm'un prosedürünün daha fazla güce sahip olduğunu unutmayın.

Değişkenler ayrık olduğunda, minimum p-değerini temel alan test istatistiklerini kullanmak daha iyidir ve çok sayıda test yaparken tip I hata kontrolünden vazgeçmeye hazırsanız, False Discovery işlemi daha güçlü olabilir.

DÜZENLE :

Eğer öyleyse (@Frank Harrell tarafından yazılan cevaba bakınız.)

H0(1):μ1=0H1(1):μ10

H0(2):μ1=0H1(2):μ20

H0(12):μ1=0&μ2=0'H1(12):μ10|μ20

'H0(1) e karşı 'H1(1) % 2.5 seviyesinde ve ayrıca 'H0(2) e karşı 'H1(2) % 2.5 seviyesinde.


2
Bence bu soru bunun gibi bir cevaptan yararlanıyor ama "Yani, eğer önem seviyemizi% 5'e sabitlersek, yanlış kanıtlar bulmayı kabul etmeye hazır olduğumuzu söylüyoruz (örneğin şanssızlık yüzünden )% 5 şansı ile "... Eğer boş ise gerçekte doğruysa , bu sadece hata olasılığıdır ve söylemeye değer. ("Sahte deliller" ortak bir terim midir? "Sahte pozitif" görmeye daha çok alıştım.)
Silverfish

@Silverfish; Biraz tekrar yazdım, böyle daha iyi olduğunu düşünüyor musunuz?

1
Bunun daha iyi olduğunu düşünüyorum - "istatistiksel olarak kanıtlanmış", muhtemelen yeniden yapılanmadan da fayda sağlayacaktır, bunun kaç kişinin p <0,05 yorumladığını ya da her neyse, elbette bunun gerçek bir kanıt olmadığını biliyorum.
Silverfish

@Silverfish: Bunun '' kanıt '' olmadığına tamamen katılıyorum ancak didaktik sebeplerden dolayı terimi kullandım, çünkü benzetmeyle çelişki ile kanıtlamaya başladım. Başlangıçta böyle bir açıklama ekleyeceğim

Düzenlemeniz kafa karıştırıcı. Frank'in örneğindeki "kemoterapinin etkisi" iki ölçümle ölçülür: hayatta kalma oranı ve tümörün küçülmesi. Her ikisi de kemodan etkilenebilir. Hipotez açıktır ki kemo işe yarıyor. Ancak “işler” iki farklı şekilde ölçülebilir. Yeni konu hakkında konuştuğum belirsizlik yönü.
amip diyor Reinstate Monica

4

Bonferroni düzeltmesi ve etki büyüklüğünün güzel bir tartışması http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html Ayrıca, Dunn-Sidak düzeltmesi ve Fisher'in birleşik olasılıklar yaklaşımı alternatif olarak düşünülmeye değer. Bu yaklaşımdan bağımsız olarak, hem düzeltilmiş hem de ham p-değerleri artı efekt büyüklüğünü bildirmeye değer, böylece okuyucu bunları yorumlama özgürlüğüne sahip olabilir.


Hem ham hem de düzeltilmiş p-değerlerini sunma tavsiyesi bana her zaman mantıklı geldi, ancak genel olarak normal kabul edilir mi, hatta kabul edilebilir mi?
Silverfish

3

Birincisi, son derece muhafazakar. Holm-Bonferroni metodu, Bonferonni metodunun başardığı (Family Wise Error Rate'i kontrol eder) ve aynı şekilde daha kuvvetli bir şekilde başarır.


Bu, sonuçlarımı düzeltmek için bu yöntemi kullanmam gerektiği veya hipotezime bağlı olarak sonuçları kabul etmem gerektiği anlamına mı geliyor?
goro

"Hipotezime bağlı olarak sonuçları kabul etmeliyim" derken ne demek istediğinizi bilmiyorum ama evet, bir tür çoklu test düzeltmesi uygulamanız gerekir, aksi takdirde tip 1 hatasını şişiriyorsunuzdur.
TrynnaDoStat

What I meant by "I should accept the results depending on my hypothesis" is that I ran my analysis in three different ways including GLM and permutation methods. all the methods gave me significant results and those results support my hypothesis that I should have significant difference between the groups. When I used Bonferroni for multiple correction All my results was not significant. Thats why I am confused.Is this method not optimal for my analysis so I can use different one or can I trust my results depending on the results from the other methods without to use Bonferroni?
goro

1
Okay, I understand what you are saying. If you tested the same hypothesis 3 different ways I would not apply a multiple testing correction. The reason being that these three test results are presumably highly dependent on each other.
TrynnaDoStat

3

One should look at the "False Discovery Rate" methods as a less conservative alternative to Bonferroni. See

John D. Storey, "THE POSITIVE FALSE DISCOVERY RATE: A BAYESIAN INTERPRETATION AND THE q-VALUE," The Annals of Statistics 2003, Vol. 31, No. 6, 2013–2035.


3
These control different things though. FDR ensures that up no more 5% (or whatever your alpha is) of your calls are false positives, which is different from preserving the familywise error rate (which is what Bonferroni does).
Matt Krause

@Matt Krause: And if I understand well, the FDR (false discovery rates) do not guarantee type I error control at a predetermined level ? (see also my answer to this question)
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.