FDR prosedürleri, bir taban ücret modeli olmadan Yanlış Keşif Oranını nasıl tahmin eder?

9

Birisi FDR prosedürlerinin gerçek pozitiflerin taban oranının bir modeli / varsayımı olmadan bir FDR'yi nasıl tahmin edebildiğini açıklayabilir mi?

false-discovery-rate

— user4733
kaynak

5

Bence bu gerçekten iyi bir soru; çok fazla insan kara kutu olarak Benjamini-Hochberg prosedürünü (BH kısaltılmış; muhtemelen FDR'yi kontrol etmek için en popüler prosedür) kullanır. Gerçekten de istatistiklerde temelde yatan bir varsayım var ve p-değerlerinin tanımında güzel bir şekilde gizlenmiş!

İyi tanımlanmış bir p değeri için sıfır hipotezi altında eşit olarak dağıtıldığını ( ) tutar. Bazen , yani stokastik olarak üniformdan daha küçük olabilir, ancak bu sadece prosedürleri daha muhafazakar (ve dolayısıyla hala geçerlidir). Böylece, p değerlerinizi hesaplayarak, bir t testi veya gerçekten seçtiğiniz herhangi bir testi kullanarak, sıfır hipotezi altındaki dağılım hakkında bilgi sağlarsınız. $P$ $P$ $P\sim U[0,1]$ $\Pr[P\leq t] \leq t$ $P$

Ama burada sıfır hipotezi hakkında konuşmaya devam ettiğime dikkat edin; bu yüzden gerçek pozitiflerin baz oranı bilgisi hakkında bahsettiğiniz şey gerekli değildir , sadece yanlış pozitiflerin baz oranı hakkında bilgiye ihtiyacınız vardır! Bu neden?

, reddedilen (pozitif) tüm hipotezlerin sayısını ve yanlış pozitifleri göstermesine izin verin , sonra: $R$ $V$

FDR = E [\frac{V}{max (R, 1)}] \approx \frac{E [V]}{E [R]}

$\text{FDR} = \mathbb E\left[\frac{V}{\max(R,1)}\right] \approx \frac{\mathbb E[V]}{\mathbb E[R]}$

Bu nedenle tahmin etmek için , tahmin etmenin bir yoluna ihtiyacınız vardır . Şimdi tüm p değerlerini reddeden karar kurallarına bakacağız . Bunu gösterimde açıklığa kavuşturmak için ayrıca böyle bir prosedürün karşılık gelen miktarları / rastgele değişkenleri için yazacağım . $\mathbb E[R]$ $\mathbb E[V]$ $\leq t$ $FDR(t),R(t),V(t)$

Yana ret toplam sayısının sadece beklenti, sen tarafsız bir şekilde gözlemlemek ret, yani sayısı ile yeniden tahmin edilebilir , yani sadece p-değerlerinizin kaçının olduğunu sayarak . $\mathbb E[R(t)]$ $\mathbb E[R(t)] \approx R(t)$ $\leq t$

Peki ya ? toplam hipotezinizin null hipotezleri olduğunu varsayalım , o zaman aldığınız altındaki p-değerlerinin bütünlüğü (veya alt-bütünlüğü) ile: $\mathbb E[V]$ $m_0$ $m$

E [V (t)] = \sum_{i null} Pr [P_{i} \leq t] \leq m_{0} t

$\mathbb E[V(t)] = \sum_{i \text{ null}} \Pr[P_i \leq t] \leq m_0 t$

Ama hala bilmiyoruz , ancak olduğunu biliyoruz , bu yüzden muhafazakar bir üst sınır sadece . Bu nedenle, yanlış pozitiflerin sayısının üst sınırına ihtiyacımız olduğundan, dağılımlarını bilmemiz yeterlidir! BH prosedürü de aynen bunu yapıyor. $m_0$ $m_0 \leq m$ $\mathbb E[V(t)] \leq m t$

Aarong Zeng'in yaptığı açıklamada, "BH prosedürü FDR'yi verilen q düzeyinde kontrol etmenin bir yolu olsa da. BH prosedürü aslında yapar her belirli bir eşik için FDR tahmin . Ve sonra en büyük eşiği seçer, böylece tahmini FDR altında olur . Aslında, hipotez "düzeltilmiş p-değeri" esasen sadece FDR'nin ( kadar) bir . Standart BH algoritmasının bu gerçeği biraz gizlediğini düşünüyorum, ancak bu iki yaklaşımın denkliğini göstermek çok kolaydır (Çoklu test literatüründe "denklik teoremi" olarak da adlandırılır). $t$ $\alpha$ $i$ $t=p_i$

Son bir açıklama olarak, Storey'in prosedürü gibi verilerden bile tahmin eden yöntemler vardır ; bu gücü biraz artırabilir. Ayrıca prensipte haklısınız, daha güçlü prosedürler elde etmek için dağılımı alternatif (gerçek pozitif taban oranınız) altında modelleyebilir; ancak şimdiye kadar çoklu test araştırması, gücü en üst düzeye çıkarmak yerine tip I hata kontrolünü sürdürmeye odaklanmıştır. Zorluklardan biri, birçok durumda, gerçek alternatiflerinizin her birinin farklı bir alternatif dağılımına (örneğin, farklı hipotezler için farklı güç) sahip olması, null altında ise tüm p-değerlerinin aynı dağılıma sahip olması olacaktır. Bu, gerçek pozitif oranın modellenmesini daha da zorlaştırmaktadır. $m_0$

— hava
kaynak

3

+1 Muhtemelen "BH", Benjamini-Hochberg'i ifade eder . (İnsanları yanlış anlayabilmeleri için kısaltmaları hecelemek her zaman iyi bir fikirdir.) Sitemize hoş geldiniz!

— whuber

1

Teşekkürler! Ayrıca evet haklısın, yazımı bunu yansıtacak şekilde düzenledim.

— hava

4

@Air tarafından önerildiği gibi, Benjamini-Hochberg (BH) prosedürü FDR kontrolünü garanti eder. Bunu tahmin etmeyi amaçlamaz. Bu nedenle, test istatistikleri arasında sadece zayıf bir bağımlılık varsayımı gerektirir. [1,2]

FDR'yi tahmin etmeyi amaçlayan yöntemler [örneğin 3,4,5], tahmin edilmesi için üretken süreç üzerinde bazı varsayımlar gerektirir. Genellikle test istatistiklerinin bağımsız olduğunu varsayarlar. Ayrıca test istatistiklerinin sıfır dağılımı hakkında bir şey varsayarlar. Bağımsızlık varsayımı ile birlikte bu sıfır dağılımından sapmalar, etkilere bağlanabilir ve FDR tahmin edilebilir.

Bu fikirlerin yarı denetimli yenilik tespit literatüründe yeniden ortaya çıktığını unutmayın. [6].

[1] Benjamini, Y. ve Y. Hochberg. “Yanlış Keşif Oranını Kontrol Etme: Çoklu Testlere Pratik ve Güçlü Bir Yaklaşım.” DERGİ-ROYAL İSTATİSTİK TOPLUM SERİSİ B 57 (1995): 289-289.

[2] Benjamini, Y. ve D. Yekutieli. “Bağımlılık Altındaki Çoklu Testlerde Yanlış Keşif Hızının Kontrolü.” İSTATİSTİK YILLARI 29, no. 4 (2001): 1165-88.

[3] Katlı, JD “Yanlış Keşif Oranlarına Doğrudan Bir Yaklaşım.” Kraliyet İstatistik Kurumu Serisi B 64, no. 3 (2002): 479-98. DOI: / 1467-9868,00346 10.1111.

[4] Efron, B. “Mikrodiziler, Ampirik Bayes ve İki Grup Modeli.” İstatistik Bilimi 23, no. 1 (2008): 1-22.

[5] Jin, Jiashun ve T. Tony Cai. “Büyük Ölçekli Çoklu Karşılaştırmalarda Null ve Null Olmayan Etkilerin Oranının Tahmini.” Amerikan İstatistik Kurumu Dergisi 102, no. 478 (1 Haziran 2007): 495-506. DOI: / 016214507000000167 10.1198.

[6] Claesen, Marc, Jesse Davis, Frank De Smet ve Bart De Moor. “İkili Sınıflandırıcıları Yalnızca Pozitif ve Etiketsiz Veriler Kullanarak Değerlendirme.” arXiv: 1504.06837 [cs, Stat], 26 Nisan 2015. http://arxiv.org/abs/1504.06837 .

— JohnRos
kaynak

1

1 o paragraftan benim ana nokta BH prosedürü aslında olsa yapar (konservatif biraz da olsa) FDR tahmin çare önermeye ve aslında yaptığı son ret eşiğe varmak için tahmin ediyoruz. Referans [1] 'de bir adım adım prosedür olarak algoritmik tanımı bunu gizlemektedir, ancak günün sonunda FDR tahmini tam olarak BH prosedürünün yaptığıdır !! (Efron genellikle bu noktaya yapar, ama aynı zamanda Bölüm 4. bakınız referans [3] de "ikisi arasında bir bağlantı yaklaşır".)

— havayı

2

[3, Denk. 2.5] 'ün ardından BH prosedürünü ile FDR'nin muhafazakar bir tahminini kullandığını görebilirsiniz .

p_{0} = 1

$p_0=1$

— JohnRos

0

Gerçek yatan model bilinmiyorsa, FDR'yi hesaplayamayız, ancak permütasyon testi ile FDR değerini tahmin edebiliriz . Temel olarak permütasyon testi prosedürü, sonuç değişken vektörünü permütasyonları ile değiştirerek hipotez testini birkaç kez yapmaktır. Ayrıca numunelerin permütasyonlarına dayanarak yapılabilir, ancak birincisi kadar yaygın değildir.

Kağıt burada FDR tahmini için standart permütasyon prosedürünü inceler ve ayrıca yeni FDR tahmincisi önerdi. Sorunuza cevap verebilmelidir.

— Aaron Zeng
kaynak

3

BH gibi en yaygın prosedür permütasyon testi kullanmaz. Ne kullanıyor? Ayrıca, permütasyon testleri genellikle null altında bir dağılım sağlar, bir FDR tahmini hem null hem de alternatif modellerin yanı sıra her birinin temel göreli oranını gerektirmez mi?

— user4733 17:14

İlk olarak BH prosedürü, FDR'yi verilen seviyesinde kontrol etmenin bir yoludur . Bu, FDR'yi tahmin etmekle ilgili değil. İkincisi, permütasyon testleri tüm hipotezlerin sıfırında yapılır. Ne demek istediğini emin değilim "hem null hem de alternatif modellerin yanı sıra her birinin altında yatan göreli oranını gerektirir". Ancak hipotezlerinizi oluştururken, zaten null ve alternatif çiftleriniz vardır. Bu mantıklı mı?

q

$q$

— Aaron Zeng