Yanıtlar:
Bence bu gerçekten iyi bir soru; çok fazla insan kara kutu olarak Benjamini-Hochberg prosedürünü (BH kısaltılmış; muhtemelen FDR'yi kontrol etmek için en popüler prosedür) kullanır. Gerçekten de istatistiklerde temelde yatan bir varsayım var ve p-değerlerinin tanımında güzel bir şekilde gizlenmiş!
İyi tanımlanmış bir p değeri için sıfır hipotezi altında eşit olarak dağıtıldığını ( ) tutar. Bazen , yani stokastik olarak üniformdan daha küçük olabilir, ancak bu sadece prosedürleri daha muhafazakar (ve dolayısıyla hala geçerlidir). Böylece, p değerlerinizi hesaplayarak, bir t testi veya gerçekten seçtiğiniz herhangi bir testi kullanarak, sıfır hipotezi altındaki dağılım hakkında bilgi sağlarsınız.
Ama burada sıfır hipotezi hakkında konuşmaya devam ettiğime dikkat edin; bu yüzden gerçek pozitiflerin baz oranı bilgisi hakkında bahsettiğiniz şey gerekli değildir , sadece yanlış pozitiflerin baz oranı hakkında bilgiye ihtiyacınız vardır! Bu neden?
, reddedilen (pozitif) tüm hipotezlerin sayısını ve yanlış pozitifleri göstermesine izin verin , sonra:
Bu nedenle tahmin etmek için , tahmin etmenin bir yoluna ihtiyacınız vardır . Şimdi tüm p değerlerini reddeden karar kurallarına bakacağız . Bunu gösterimde açıklığa kavuşturmak için ayrıca böyle bir prosedürün karşılık gelen miktarları / rastgele değişkenleri için yazacağım .
Yana ret toplam sayısının sadece beklenti, sen tarafsız bir şekilde gözlemlemek ret, yani sayısı ile yeniden tahmin edilebilir , yani sadece p-değerlerinizin kaçının olduğunu sayarak .
Peki ya ? toplam hipotezinizin null hipotezleri olduğunu varsayalım , o zaman aldığınız altındaki p-değerlerinin bütünlüğü (veya alt-bütünlüğü) ile:
Ama hala bilmiyoruz , ancak olduğunu biliyoruz , bu yüzden muhafazakar bir üst sınır sadece . Bu nedenle, yanlış pozitiflerin sayısının üst sınırına ihtiyacımız olduğundan, dağılımlarını bilmemiz yeterlidir! BH prosedürü de aynen bunu yapıyor.
Aarong Zeng'in yaptığı açıklamada, "BH prosedürü FDR'yi verilen q düzeyinde kontrol etmenin bir yolu olsa da. BH prosedürü aslında yapar her belirli bir eşik için FDR tahmin . Ve sonra en büyük eşiği seçer, böylece tahmini FDR altında olur . Aslında, hipotez "düzeltilmiş p-değeri" esasen sadece FDR'nin ( kadar) bir . Standart BH algoritmasının bu gerçeği biraz gizlediğini düşünüyorum, ancak bu iki yaklaşımın denkliğini göstermek çok kolaydır (Çoklu test literatüründe "denklik teoremi" olarak da adlandırılır).
Son bir açıklama olarak, Storey'in prosedürü gibi verilerden bile tahmin eden yöntemler vardır ; bu gücü biraz artırabilir. Ayrıca prensipte haklısınız, daha güçlü prosedürler elde etmek için dağılımı alternatif (gerçek pozitif taban oranınız) altında modelleyebilir; ancak şimdiye kadar çoklu test araştırması, gücü en üst düzeye çıkarmak yerine tip I hata kontrolünü sürdürmeye odaklanmıştır. Zorluklardan biri, birçok durumda, gerçek alternatiflerinizin her birinin farklı bir alternatif dağılımına (örneğin, farklı hipotezler için farklı güç) sahip olması, null altında ise tüm p-değerlerinin aynı dağılıma sahip olması olacaktır. Bu, gerçek pozitif oranın modellenmesini daha da zorlaştırmaktadır.
@Air tarafından önerildiği gibi, Benjamini-Hochberg (BH) prosedürü FDR kontrolünü garanti eder. Bunu tahmin etmeyi amaçlamaz. Bu nedenle, test istatistikleri arasında sadece zayıf bir bağımlılık varsayımı gerektirir. [1,2]
FDR'yi tahmin etmeyi amaçlayan yöntemler [örneğin 3,4,5], tahmin edilmesi için üretken süreç üzerinde bazı varsayımlar gerektirir. Genellikle test istatistiklerinin bağımsız olduğunu varsayarlar. Ayrıca test istatistiklerinin sıfır dağılımı hakkında bir şey varsayarlar. Bağımsızlık varsayımı ile birlikte bu sıfır dağılımından sapmalar, etkilere bağlanabilir ve FDR tahmin edilebilir.
Bu fikirlerin yarı denetimli yenilik tespit literatüründe yeniden ortaya çıktığını unutmayın. [6].
[1] Benjamini, Y. ve Y. Hochberg. “Yanlış Keşif Oranını Kontrol Etme: Çoklu Testlere Pratik ve Güçlü Bir Yaklaşım.” DERGİ-ROYAL İSTATİSTİK TOPLUM SERİSİ B 57 (1995): 289-289.
[2] Benjamini, Y. ve D. Yekutieli. “Bağımlılık Altındaki Çoklu Testlerde Yanlış Keşif Hızının Kontrolü.” İSTATİSTİK YILLARI 29, no. 4 (2001): 1165-88.
[3] Katlı, JD “Yanlış Keşif Oranlarına Doğrudan Bir Yaklaşım.” Kraliyet İstatistik Kurumu Serisi B 64, no. 3 (2002): 479-98. DOI: / 1467-9868,00346 10.1111.
[4] Efron, B. “Mikrodiziler, Ampirik Bayes ve İki Grup Modeli.” İstatistik Bilimi 23, no. 1 (2008): 1-22.
[5] Jin, Jiashun ve T. Tony Cai. “Büyük Ölçekli Çoklu Karşılaştırmalarda Null ve Null Olmayan Etkilerin Oranının Tahmini.” Amerikan İstatistik Kurumu Dergisi 102, no. 478 (1 Haziran 2007): 495-506. DOI: / 016214507000000167 10.1198.
[6] Claesen, Marc, Jesse Davis, Frank De Smet ve Bart De Moor. “İkili Sınıflandırıcıları Yalnızca Pozitif ve Etiketsiz Veriler Kullanarak Değerlendirme.” arXiv: 1504.06837 [cs, Stat], 26 Nisan 2015. http://arxiv.org/abs/1504.06837 .
Gerçek yatan model bilinmiyorsa, FDR'yi hesaplayamayız, ancak permütasyon testi ile FDR değerini tahmin edebiliriz . Temel olarak permütasyon testi prosedürü, sonuç değişken vektörünü permütasyonları ile değiştirerek hipotez testini birkaç kez yapmaktır. Ayrıca numunelerin permütasyonlarına dayanarak yapılabilir, ancak birincisi kadar yaygın değildir.
Kağıt burada FDR tahmini için standart permütasyon prosedürünü inceler ve ayrıca yeni FDR tahmincisi önerdi. Sorunuza cevap verebilmelidir.