Testlerin bağıntılı olduğu çoklu testler için p değerlerinin düzeltilmesi (genetik)


24

Pek çok testten p değerlerine sahibim ve çoklu test için düzeltmelerden sonra gerçekten önemli bir şeyin olup olmadığını bilmek istiyorum. Komplikasyon: Testlerim bağımsız değil. Düşündüğüm yöntem (Fisher'in Ürün Metodunun bir çeşidi, Zaykin ve diğerleri, Genet Epidemiol , 2002), p değerleri arasındaki korelasyona ihtiyaç duyuyor.

Bu korelasyonu tahmin etmek için şu anda önyükleme vakalarını incelemeyi, analizleri yürütmeyi ve p değerlerinin sonuç vektörlerini ilişkilendirmeyi düşünüyorum. Daha iyi bir fikri olan var mı? Veya asıl sorunum için daha iyi bir fikir (ilgili testlerde çoklu test için düzeltme yapmak)?

Amaç: Deneklerimin genotipleri (AA, Aa veya aa) ile bir ortak değişken arasındaki etkileşimle ilgili belirli bir hastalıktan muzdarip olup olmadıklarını lojistik olarak geriliyorum. Bununla birlikte, genotip aslında kesinlikle bağımsız olmayan fakat Linkage Disequilibrium'da bağımsız olan bir sürü (30-250) Tek Nükleotid Polimorfizmidir (SNP).

Yanıtlar:


29

Bu aslında Genomewide analiz çalışmalarında (GWAS) sıcak bir konudur! Düşündüğünüz yöntemin bu bağlamda en uygun olduğundan emin değilim. P değerlerinin havuzlanması bazı yazarlar tarafından tanımlanmıştır, ancak farklı bir bağlamda (replikasyon çalışmaları veya meta-analizler, bakınız örneğin son bir inceleme için (1)). SNP p değerlerini Fisher yöntemiyle birleştirmek genellikle belirli bir gen için benzersiz bir p değeri elde etmek istediğinde kullanılır; bu, gen seviyesinde çalışmayı sağlar ve sonraki testin boyutsallığının miktarını azaltır, ancak belirttiğiniz gibi, belirteçler arasındaki bağımsızlık (mekansal renklenme veya bağlantı disiquilibrium, LD kaynaklı) arasındaki bağımsızlığı bir yanlılığa neden olur. Daha güçlü alternatifler yeniden örnekleme prosedürlerine dayanıyor,

Önyükleme ile ilgili temel kaygım (değiştirme ile) yapay bir ilişki biçimi tanıtıyor olmanız veya başka bir deyişle sanal ikizler yarattığınızdan, yani Hardy-Weinberg dengesini değiştirdiğinizden (ama ayrıca minimum allel frekansı ve çağrı oranından) olacaktır. Tek tek etiketlere izin verdiğiniz ve genotipleme verilerini olduğu gibi tuttuğunuz bir permütasyon yaklaşımı söz konusu olmaz. Genellikle, plink yazılımı size ham ve izin verilen p-değerleri verebilir, buna rağmen (varsayılan olarak) SNP’nin altında göründüğü takdirde tüm izinlerin (SNP başına 1000 sayılır) çalışmasını durdurabilen sürgülü pencereli adaptif bir test stratejisi kullanır. dikkate "ilginç" değildir; Ayrıca maxT hesaplama için seçeneğe sahiptir, çevrimiçi yardıma bakınız .

Ama, ben uygulandığı şekliyle FDR tabanlı veya maxT testlerinde güvenerek önermek istiyorum düşünen SNP sayısının düşük verilen multtest R paketi (bkz mt.maxT), ancak genomik uygulama için stratejiler yeniden örnekleme için kesin bir kılavuzdur Örnekleri Üzerinden Çoklu Test İşlemleri Genomics , Dudoit & van der Laan'dan (Springer, 2008). Ayrıca bkz. Andrea Foulkes'in , JSS'de gözden geçirilen R ile genetik kitabı . Çoklu test prosedürleri konusunda harika bir materyali var.

Ek Notlar

Birçok yazar, Bonferroni veya Sidak gibi basit çoklu test düzeltme yöntemlerinin, bireysel SNP'lerin sonuçlarını ayarlamak için çok katı olduğuna dikkat çekti. Ayrıca, bu yöntemlerin hiçbiri gen bölgeleri arasındaki genetik çeşitliliği etiketleyen LD nedeniyle SNP'ler arasındaki mevcut korelasyonu dikkate almaz. Diğer alternatif, Holm'un çoklu karşılaştırma (3) yönteminin bir türevi, Saklı Markov Modeli (4), koşullu veya pozitif FDR (5) veya bunun türevini (6) türetmesi gibi bir kaçını önerdi. Boşluk istatistikleri veya sürgülü pencerenin bazı durumlarda başarılı olduğu kanıtlanmıştır, ancak (7) ve (8) 'te iyi bir inceleme bulacaksınız.

Ayrıca haplotip yapısını veya LD'yi etkili bir şekilde kullanan yöntemleri de duydum, örneğin (9), ama onları hiç kullanmadım. Ancak, belirttiğiniz gibi p-değeri değil, markerler arasındaki korelasyonu tahmin etmeyle daha ilişkili görünüyorlar. Fakat aslında, ardışık test istatistikleri arasındaki bağımlılık yapısı açısından, korelasyonlu p-değerleri arasındakiden daha iyi düşünebilirsiniz.

Referanslar

  1. Cantor, RM, Lange, K ve Sinsheimer, JS. GWAS Sonuçlarının Önceliklendirilmesi: Uygulamalarına İlişkin İstatistiksel Yöntem ve Önerilerin Gözden Geçirilmesi . Ben J Hum Genet. 2010 86 (1): 6-22.
  2. Corley, RP, Zeiger, JS, Crowley, T ve ark. Ergenlerde aday genlerin antisosyal ilaç bağımlılığı ile ilişkisi . Uyuşturucu ve Alkol Bağımlılığı 2008 96: 90–98.
  3. Dalmasso, C, Génin, E ve Trégouet DA. Genomewide Association Çalışmalarında Alel Frekanslarında Ağırlıklı-Hal Prosedürü Muhasebesi . Genetik 2008 180 (1): 697-702.
  4. Wei, Z, Sun, W, Wang, K ve Hakonarson, H. Genom Çapında Ortak Çalışmalarda Gizli Markov Modelleriyle Çoklu Test . Biyoinformatik 2009 25 (21): 2802-2808.
  5. Broberg, P. Değişmeyen genlerin oranının ve yanlış keşif oranının tahminlerinin karşılaştırmalı bir incelemesi . BMC Biyoinformatik 2005 6: 199.
  6. Need, AC, Ge, D, Weale, ME, ve diğ. Şizofrenide SNP ve CNV'lerin Genom Geneli Olarak Araştırılması . PLoS Genet. 2009 5 (2): e1000373.
  7. Han, B, Kang, HM ve Eskin, E. Milyonlarca İlişkili Markör için Hızlı ve Doğru Çoklu Test Düzeltme ve Güç Tahmini . PLoS Genetik 2009
  8. Liang, Y ve Kelemen, A. Karmaşık hastalıklar için genomik çalışmada korelasyonlu yüksek boyutlu snp verilerini analiz etmede istatistiksel gelişmeler ve zorluklar . İstatistik Anketleri 2008 2: 43-60. - şimdiye kadarki en iyi inceleme
  9. Nyholt, DR. Tekli Nükleotid Polimorfizmleri İçin Birbirleri ile Bağlantı Dengesizliğinde Çoklu Test İçin Basit Bir Düzeltme . Ben J Hum Genet. 2004 74 (4): 765-769.
  10. Nicodemus, KK, Liu, K, Chase, GA, Tsai, YY ve Fallin, MD. Büyük tek nükleotid polimorfizm çalışmalarında çoklu bileşen düzeltmelerinde tip I hatasının karşılaştırılması, haplotip blokaj algoritmalarına karşı ana bileşenler kullanılarak yapılmıştır . BMC Genetik 2005; 6 (Ek 1): S78.
  11. Peng, Q, Zhao, J ve Xue, F. PCA bazlı, çoklu SNP'leri içeren gen-hastalık ilişkisi için bootstrap güven aralığı testleri . BMC Genetik 2010, 11: 6
  12. Li, M, Romero, R, Fu, WJ ve Cui, Y (2010). Uyarlamalı LASSO ile Haplotype Haplotype Etkileşimlerinin Haritalanması . BMC Genetics 2010, 11:79 - doğrudan soru ile ilgili olmasa da, haplotip bazlı analiz / epistatik etkiyi kapsar

1
Vay be, tüm bu belaya girdiğin için teşekkürler! Önyükleme konusundaki niteliklerinizi anlıyorum ve neredeyse ikna oldum. Asıl komplikasyonumun, kesinlikle gerekli olacak (kendiliğinden veya genotip ile etkileşime girecek) sahip olduğum sayısal eş değişkenler olduğunu düşünüyorum ve bu da tekrar kontrol etmem gerekmesine rağmen, mt.maxT ve plink'i dışlıyor gibi görünüyor. Ama verdiğiniz referansları kesinlikle inceleyeceğim!
S. Kolassa - Monica'yı

Değişkenlerinizden kurtulmak için GLM'nizin kalıntıları ile her zaman çalışabilirsiniz, ancak sonradan hesaba katılması veya yeniden kazandırılması zor olabilecek bazı Df'leri kaybettiniz (örneğin, p değerini hesaplamak için).
chl

Lojistik regresyonumdan kalanlar? Bu meşru olur mu?
S. Kolassa - Monica'yı

Evet neden olmasın? Diğer değişkenler tarafından hesaplanan varyansı kaldırmak ve daha sonra artık verilerinizle 2. seviye analizlere geçmek nadir değildir. Genellikle daha hızlıdır (örneğin, kategorik değişkenler için plink oldukça yavaştır, sürekli olanlar için sorun olmazsa da, snpMatrixya da glm()bu noktada daha iyi bir performans sergiliyor ancak içeride çok fazla SNP yerleştiremezsiniz glm()...); Buradaki sorun, düzeltilmiş p-değerinin 2. analizinizin sonunda elde edilmesinin oldukça zor olmasıdır (çünkü önceden tahmin edilen parametreleri hesaba katmanız gerekir).
27'de chl

İnsanların artıklarla nasıl çalıştığını gösteren bir örnek için, bkz. Heck vd. Kişilik adayları için 17 aday genin araştırılması, HTR2A geninin yenilik arayışı üzerindeki etkilerini doğrulamaktadır. Genler, beyin ve davranış (2009) vol. 8 (4) sayfa 464-72
chl

2

Bonferroni gibi bir yöntem kullanmak sorun değil, eğer birçok testiniz varsa birçok "keşif" bulamayacaksınızdır.

Bağımlı testler için FDR yaklaşımı ile devam edebilirsiniz ( ayrıntılar için buraya bakınız ) sorun, korelasyonlarınızın tümünün olumlu olup olmadığına dair önceden söyleyebilecek olup olmadığından emin olamam.

R'de basit FDR'yi p.adjust ile yapabilirsiniz. Daha karmaşık şeyler için, çoklu bilgisayara bakacağım , ancak bağımlılık durumlarında çözümleri görmek için incelemedim.

İyi şanslar.


1
Merhaba Tal, teşekkürler! Bonferroni bana uygun görünmüyor - eğer SNP'lerimden biri nedensel ve diğerleri bununla ilişkiliyse, bir sinyal olmalı ve Bonferroni her zaman bana karşı çok tutucu görünüyordu (genellikle Holm'un adım adım düzeltmesini tercih ederim). Bağladığınız FDR ve p.adjust, birleşik kanıtları dikkate almaz (ve FDR, testlerimin korelasyonunu anlamamı gerektirir, asıl soru). multcompcomp yardımcı olabilir, ilk bakışta tek bir modeldeki çoklu testler ile daha fazla ilgileniyor gibi gözükse de , çoklu modellere sahibim . Ben ... kurcalamak edeceğiz
S. Kolassa - Eski Monica

Merhaba Stephan. Anladım, daha fazla yardım etmediğim için üzgünüm. İyi şanslar! Tal
Tal Galili 18:10

Merhaba Stephan, hâlâ Tal in işaret ettiği gibi, R = 'deki (BY'de (Benjamini Hochberg Yekuteli Prosedürü için)) yöntemini kullanabileceğinizi düşünüyorum. Kesinlikle, Bonferroni kullanarak muhafazakar olabilir.
suncoolsu

suncoolsu, bu yöntemin sadece değişkenler arasındaki korelasyonun pozitif (negatif değil) olması durumunda işe yaradığını düşünüyorum. Şerefe.
Tal Galili

2

Bence, çok değişkenli Normal Modellerin, korelasyonlu p değerlerini modellemek ve doğru tipte çoklu test düzeltmelerini elde etmek için kullanıldığını düşünüyorum. Milyonlarca İlişkili Marker için Hızlı ve Doğru Çoklu Test Düzeltme ve Güç Tahmini. PLoS Genet 2009 onlar hakkında konuşuyor ve başka referanslar da veriyor. Konuştuğunuz şeye benziyor ama bence daha doğru bir küresel p değeri düzeltmesi elde etmekten başka, LD yapı bilgisi de nedensel işaretleyicilerle ilişkilendirilen işaretçilerden kaynaklanan sahte pozitifleri kaldırmak için kullanılmalıdır.


2

Aynı problem için çalışan bir çözüm arıyorum. Bulduğum en iyi , Foulkes Andrea tarafından R (2009) ile Uygulamalı İstatistik Genetik adlı kitabında tanıtılan Boş Sınırsız Önyükleme . Bütün diğer makale ve kitapların aksine, özellikle gerilemeyi göz önünde bulundurur. Diğer yöntemlerin yanı sıra, artıkları kolayca hesaplayamadığı durumlarda uygun olmayan Null Kısıtsız Önyükleme tavsiyesinde bulunur (benim durumumda olduğu gibi , her biri aynı cevap değişkenine ve farklı kopmaya sahip birçok bağımsız regresyon ( model olarak basit korelasyonlar)). Bu yöntemin maxT yöntemi olarak da adlandırıldığını buldum .

> attach(fms)
> Actn3Bin <- > data.frame(actn3_r577x!="TT",actn3_rs540874!="AA",actn3_rs1815739!="TT",actn3_1671064!="GG")
> Mod <- summary(lm(NDRM.CH~.,data=Actn3Bin))
> CoefObs <- as.vector(Mod$coefficients[-1,1]) 
> B <-1000
> TestStatBoot <- matrix(nrow=B,ncol=NSnps)
> for (i in 1:B){
+    SampID <- sample(1:Nobs,size=Nobs, replace=T)
+    Ynew <- NDRM.CH[!MissDat][SampID]
+    Xnew <- Actn3BinC[SampID,]
+    CoefBoot <- summary(lm(Ynew~.,data=Xnew))$coefficients[-1,1]
+    SEBoot <- summary(lm(Ynew~.,data=Xnew))$coefficients[-1,2]
+    if (length(CoefBoot)==length(CoefObs)){
+       TestStatBoot[i,] <- (CoefBoot-CoefObs)/SEBoot
+    }
+ }

TestStatBootT*^Tcrit.α=0.05T*^Tcrit.

benTben^>Tcrit.

Son adım bu kodla gerçekleştirilebilir

p.value<-0.05 # The target alpha threshold
digits<-1000000
library(gtools) # for binsearch

pValueFun<-function(cj)
{
   mean(apply(abs(TestStatBoot)>cj/digits,1,sum)>=1,na.rm=T)
}
ans<-binsearch(pValueFun,c(0.5*digits,100*digits),target=p.value)
p.level<-(1-pnorm(q=ans$where[[1]]/digits))*2 #two-sided.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.