Benjamini & Hochberg (1995) ile Benjamini & Yekutieli (2001) yanlış keşif oranı prosedürleri arasındaki pratik farklar nelerdir?


34

İstatistik programım, hem Benjamini & Hochberg (1995) hem de Benjamini & Yekutieli (2001) yanlış keşif oranı (FDR) prosedürlerini uygular. Daha sonraki makaleyi okumak için elimden geleni yaptım, ancak oldukça matematiksel olarak yoğun ve prosedürler arasındaki farkı anladığımdan emin değilim. İstatistik programımda altta yatan koddan gerçekten farklı olduklarını ve sonuncusunun FDR ile ilgili olarak bahsettiğim q miktarını içerdiğini ancak aynı zamanda tam olarak anlamadığını görebiliyorum.

Benjamini ve Yekutieli (2001) prosedürüne karşı Benjamini ve Hochberg (1995) prosedürünü tercih etmek için herhangi bir sebep var mı? Farklı varsayımları var mı? Bu yaklaşımlar arasındaki pratik farklar nelerdir?

Benjamini, Y. ve Hochberg, Y. (1995). Yanlış keşif oranını kontrol etme: çoklu testlere pratik ve güçlü bir yaklaşım. Kraliyet İstatistik Derneği Seri B, 57, 289–300.

Benjamini, Y. ve Yekutieli, D. (2001). Bağımlılık altında çoklu testlerde yanlış keşif oranının kontrolü. İstatistiklerin Yıllıkları 29, 1165–1188.

1999 tarihli makale, aşağıdaki yorumlarda referans alınmıştır: Yekutieli, D., & Benjamini, Y. (1999). İlişkili test istatistikleri için çoklu test prosedürlerini kontrol eden yeniden örneklemeye dayalı yanlış keşif hızı. İstatistiksel Planlama ve Çıkarım Dergisi, 82 (1), 171-196.


2001 yazısının FDR'nin (1995) bağımlılık altında olduğunu tespit ettiğini düşünüyorum. Yekutieli ve Benjamini (İstatistiksel Planlama ve Çıkarım Dergisi, 1999) farklı bir FDR prosedürü oluşturur. Aradığın herhangi bir şansın var mı?
julieth

julieth: Yalnız özeti okuduktan sonra 2001 makalesini anladım, ancak kâğıttaki formüller (örneğin 27 - 30) q olarak adlandırılan bir miktar içeriyor gibi görünüyor. Öyleyse yine, bu 1999 kağıdını alıntı yapıyorsun. Benim düşünceme göre, 1999 makalesinde açıkça (kodlara bakmaktan) istatistik programımın yaptığı şey değil (R; p.adjust) olan bir yeniden örnekleme yaklaşımı uygulanmaktadır ... ama yanlış olabilir.
russellpierce

1
2001 yazısının sonunda, 1999 makalesine atıfta bulunulur ve "Sonunda, yukarıdaki sorunla başa çıkmaya çalışan ve aynı zamanda bağımlılık hakkındaki bilgileri kullanan, örnekleme temelli Yekutieli ve Benjamini (1999) prosedürünü hatırlayın. Örnekten türetilen yapı. Yeniden örneklemeye dayalı prosedür, daha fazla karmaşıklık ve sadece yaklaşık FDR kontrolü pahasına, daha güçlüdür. " ... bu yüzden 2001 makalesinin kapalı bir formlu hesaplama çözümü sağladığını ve istatistik programımın uyguladığı şey olduğunu düşünüyorum.
russellpierce

1
Tamam, p.adjust kullanıyorsunuz. 99 kağıt, belirttiğiniz gibi tamamen farklı. Her zaman p.adjust BY seçeneği gördüm ve dikkat etmedi. Bu 2001 makalesi genellikle FDR'nin kanıtı ve 'pozitif regresyon bağımlılığı' ile ilişkilendirilir. Bunu asla farklı bir tahminciden alıntı olarak görmedim, ama belki de oradadır. Yeniden okumam gerek gibi görünüyor.
julieth

Yanıtlar:


21

Benjamini ve Hochberg (1995) yanlış keşif oranını tanıttı. Benjamini ve Yekutieli (2001), tahmin edicinin bazı bağımlılık biçimleri altında geçerli olduğunu kanıtlamıştır. Bağımlılık aşağıdaki gibi ortaya çıkabilir. Bir t-testinde kullanılan sürekli değişkeni ve onunla ilişkili başka bir değişkeni düşünün; örneğin, BMI'nin iki grupta farklılık gösterip göstermediğini ve bel çevresi bu iki grupta farklılık gösterip göstermediğini test etmek. Bu değişkenler ilişkilendirildiğinden, ortaya çıkan p değerleri de ilişkilendirilecektir. Yekutieli ve Benjamini (1999), boş dağılımın yeniden örneklenmesiyle genel bağımlılık altında kullanılabilecek bir başka FDR kontrol prosedürü geliştirmiştir. Karşılaştırma, boş permütasyon dağılımına göre olduğundan, toplam gerçek pozitiflerin sayısı arttıkça, yöntem daha tutucu hale gelir. BH 1995'in aynı zamanda gerçek pozitiflerin sayısı arttıkça muhafazakar olduğu ortaya çıktı. Bunu geliştirmek için, Benjamini ve Hochberg (2000) uyarlamalı FDR prosedürünü uygulamaya koydu. Bu, Storey's pFDR tahmin edicisinde de kullanılan null oranının bir parametresinin gerekli tahminini yaptı. Storey karşılaştırmalar yapıyor ve yönteminin daha güçlü olduğunu ve 1995 prosedürünün muhafazakar yapısını vurguladığını savunuyor. Storey ayrıca bağımlılık altında sonuçlara ve simülasyonlara sahiptir.

Yukarıdaki testlerin tümü bağımsız olarak geçerlidir. Soru, bu tahminlerin bağımsızlıktan ne tür bir ayrılma ile ilgilenebileceğidir.

Şu anki düşüncem, BY (1999) prosedürünün çok fazla gerçek pozitif beklememesi durumunda, dağıtım özelliklerini ve bağımlılığını içerdiği için güzel olmasıdır. Ancak, bir uygulamanın farkında değilim. Storey'in metodu, bağımlılığı olan birçok gerçek pozitif için tasarlanmıştır. BH 1995, aile düzeyinde hata oranına bir alternatif sunar ve hala muhafazakardır.

Benjamini, Y ve Y Hochberg. Bağımsız İstatistiklerle Çoklu Testlerde Yanlış Bulma Hızının Uyarlanabilir Kontrolü Üzerine. Eğitim ve Davranış İstatistikleri Dergisi, 2000.


Çok teşekkürler! 1999'daki makale, aşağıdaki noktaları / sorunları açıklığa kavuşturmak için sorunuzu gözden geçirebilir misiniz? 2000 ödevinin alıntılarını lütfen verir misiniz? P.adjust'e aşina göründünüz, aslında BY prosedürünü uyguluyor mu? Hipotez testleri bağımlı olmadığında BH kullanılmalı mıdır? Hipotez testlerinin bağımlı olarak kabul edilmesine neden olan nedir? - Lütfen bu sorulardan herhangi birinin mevcut kapsamın dışına çıkıp çıkmadığını ve yeni bir soru sorulmasını gerektirdiğini bana bildirin.
russellpierce

p.adjust, her ikisi için de seçeneklere sahiptir (BH ve BY). Ancak, bunların aynı olduğunu düşündüm, bu yüzden bir şey özledim.
julieth

Ve alttaki kod da farklıdır (kontrol ettim), böylece farklı sayılar üretecekler.
russellpierce

Öyleyse, p.adjust dosyasının BY argümanı ile performans gösterdiğini düşünüyorsunuz? 1999 prosedürü olduğunu sanmıyorum. Temel kod pmin (1, cummin (q * n / i * p [o])) [ro]. BH, pmin (1, cummin (n / i * p [0])) [ro] 'dur. Dolayısıyla sadece q cinsinden farklılık gösterirler ki bu, n = değer sayısıdır (n / p sayısı). o ve ro, sadece p değerlerini fonksiyon için sayısal sırayı azaltmaya
koyuyor

1
Bu nedenle, yeni bir cevap gelmediğinden, bu cevabı kabul edeceğim ve anlayışımı özetleyeceğim. p.adjust BY için yanlış olabilir. Gerçekleştirilen örnekleme değildir. BH, 2000, uyarlanabilir FDR prosedürünü başlattı ve bu, BY kodunda görünen q olabilen sıfır oranının tahminini içerir. Arada, "BY" seçeneğini kullandığınızda kullanılan gerçek prosedürü yansıttığı gibi p.adjust'a doğrudan değinmek ve "BY" nin aslında Benjamini & Hochberg’i uygulayabileceğinin farkında olmak gibi görünüyor. 2000.
russellpierce 28:13

5

p.adjust BY için yanlış değil. Referans, makaledeki Teorem 1.3'e (s.1182, Bölüm 5'deki kanıt) ilişkindir:

Benjamini, Y. ve Yekutieli, D. (2001). Bağımlılık altında çoklu testlerde yanlış keşif oranının kontrolü. İstatistiklerin Yıllıkları 29, 1165–1188.

Bu yazıda birkaç farklı düzenleme tartışıldığı için, p.adjust () için yardım sayfasındaki (yazı yazarken) yapılan referans biraz belirsizdir. Yöntemin, FDR'yi belirtilen oranda en genel bağımlılık yapısı altında kontrol etmesi garanti edilir. Christopher Genovese'in slaytlarında bilgilendirici yorumlar bulunmaktadır: www.stat.cmu.edu/~genovese/talks/hannover1-04.pdf BY 2001 makalesinde Teorem 1.3 yöntemine atıfta bulunan 37. slayttaki yorumu not ediniz [yöntem = 'BY' p.adjust ()] ile: "Maalesef, bu genellikle çok muhafazakar, bazen Bonferroni'den bile daha muhafazakâr."

Sayısal örnek: method='BY' vsmethod='BH'

Aşağıdakiler, Benjamini ve Hochberg (2000) belgesindeki Tablo 2'deki 2. sütundan p değerleri için, R = p.adjust () işlevini kullanarak, yöntem = 'BY' yöntemini = 'BH' ile karşılaştırır:

> p <-    c(0.85628,0.60282,0.44008,0.41998,0.3864,0.3689,0.31162,0.23522,0.20964,
0.19388,0.15872,0.14374,0.10026,0.08226,0.07912,0.0659,0.05802,0.05572,
0.0549,0.04678,0.0465,0.04104,0.02036,0.00964,0.00904,0.00748,0.00404,
0.00282,0.002,0.0018,2e-05,2e-05,2e-05,0)
> pmat <- rbind(p,p.adjust(p, method='BH'),p.adjust(p, method='BY'))
> rownames(pmat)<-c("pval","adj='BH","adj='BY'")
> round(pmat,4)

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] pval 0.8563 0.6028 0.4401 0.4200 0.3864 0.3689 0.3116 0.2352 0.2096 adj='BH 0.8563 0.6211 0.4676 0.4606 0.4379 0.4325 0.3784 0.2962 0.2741 adj='BY' 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] pval 0.1939 0.1587 0.1437 0.1003 0.0823 0.0791 0.0659 0.0580 0.0557 adj='BH 0.2637 0.2249 0.2125 0.1549 0.1332 0.1332 0.1179 0.1096 0.1096 adj='BY' 1.0000 0.9260 0.8751 0.6381 0.5485 0.5485 0.4856 0.4513 0.4513 [,19] [,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] pval 0.0549 0.0468 0.0465 0.0410 0.0204 0.0096 0.0090 0.0075 0.0040 adj='BH 0.1096 0.1060 0.1060 0.1060 0.0577 0.0298 0.0298 0.0283 0.0172 adj='BY' 0.4513 0.4367 0.4367 0.4367 0.2376 0.1227 0.1227 0.1164 0.0707 [,28] [,29] [,30] [,31] [,32] [,33] [,34] pval 0.0028 0.0020 0.0018 0e+00 0e+00 0e+00 0 adj='BH 0.0137 0.0113 0.0113 2e-04 2e-04 2e-04 0 adj='BY' 0.0564 0.0467 0.0467 7e-04 7e-04 7e-04 0

Σben=1m(1/ben)m

> mult <- sapply(c(11, 30, 34, 226, 1674, 12365), function(i)sum(1/(1:i)))

setNames (mult, yapıştır (c ('m =', rep ('', 5)), c (11, 30, 34, 226, 1674, 12365))) m = 11 30 34 226 1674 12365 3.020 3.995 4.118 6.000 8.000 10.000

m

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.