P-değerlerinin QQ grafiğini yorumlama


17

Plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml ) adlı bir yazılım kullanarak hastalıklar üzerine GWAS SNP ilişkilendirme çalışmaları yapıyorum .

İlişkilendirme sonuçları ile analiz edilen tüm SNP'ler için p-değerleri elde ederim. Şimdi, çok düşük bir p değerinin p değerlerinin beklenen dağılımından (muntazam bir dağılım) farklı olup olmadığını göstermek için bu p değerlerinin bir QQ grafiğini kullanıyorum. Eğer bir p-değeri beklenen dağılımdan saparsa, o p-değerini istatistik için "çağırabilir".

QQ grafiğinde görebileceğiniz gibi, üst kuyruk ucunda, son 4 noktayı yorumlamak biraz zor. Gri renkteki son noktalardan ikisi, bu p-değerlerinin, p-değerlerinin beklenen dağılımında olduğunu, diğer ikisinin ise olmadığını göstermektedir.

Şimdi, bu nasıl yorumlanırsa, son iki noktanın daha düşük p değerleri vardır, ancak QQ grafiğine göre "anlamlı" değilken, daha yüksek p değerlerine sahip diğer iki nokta "anlamlı" dır? Bu nasıl doğru olabilir?

resim açıklamasını buraya girin


6
GWAS'ı yorumlamak için QQ grafiklerini kullanmanın bir problemi, p-değerlerinin birbirinden bağımsız olmaması ve aslında en uç p-değerlerinin büyük olasılıkla ilişkili olmasıdır. En iyi dört isabetinizin muhtemelen aynı kromozomda olduğunu ve LD'nin aralarında korelasyona neden olduğu birbirine yeterince yakın olduğunu tahmin ediyorum. En düşük p değeri olan SNP'ye koşullu ikinci en düşük p değerini veren testi çalıştırırsanız, p değerinin olağandışı aralığa düşeceğini tahmin ediyorum. Aynı şey diğer görünür isabetlerin çoğunda da olur.
Sam Dickson

3
Bunu zaten yaptım, sadece bağımsız SNP'leri almak için SNP veri setini budatım (kesme olarak 0,8'lik bir r kare kullanarak). Bu QQ grafiği, LD <0.8'deki bağımsız SNP'lerin veya SNP'lerin sonuçlarını gösterir.
eXpander

1
En düşük SNP, kromozom 2'ye, ikinci kromozom 2'ye, üçüncü kromozom 5'e, dördüncü kromozom 9'a karşılık gelir, bu yüzden LD'nin burada bir sorun olduğundan emin değilim.
eXpander

1
Sana bu planı nasıl yaptığını sorabilir miyim? Benzer bir şey alabilirim ama ki-kare değerleriyle veya p-değerleriyle ama gri gölge olmadan ve p-değerleri ve gri gölgeli bir tane istiyorum. Eğer kullandığınız kodu paylaşabiliyorsanız çok iyi olurdu. Teşekkürler.
Aleix Arnau

Yanıtlar:


5

P-değeri grafiklerinin analizine iyi bir referans [1] 'dir.

Gördüğünüz sonuç, sinyalin / etkilerin sadece bazı test alt kümelerinde mevcut olmasından kaynaklanabilir. Bunlar kabul bantlarının üzerinde sürülür. Sadece bantların dışındaki p-değerini reddetmek gerçekten haklı olabilir, ancak belki de daha önemlisi, seçim prosedürünüzü (FWER, FDR) seçerken kontrol etmek istediğiniz hata ölçütünün ne olduğuna karar vermelisiniz. Bu seçim için [2] 'ye başvurabilir ve uygun çoklu test prosedürünü seçmek için referanslara başvurabilirsiniz.

[1] Schweder, T. ve E. Spjotvoll. “Birçok Testi Eşzamanlı Olarak Değerlendirmek için P-Değerlerinin Grafikleri.” Biometrika 69, no. 3 (Aralık 1982): 493-502. DOI: / 2335984 10.2307.

[2] Rosenblatt, Jonathan. “Bir Uygulayıcının Çoklu Test Hata Oranları Rehberi” ArXiv e-baskı. Tel Aviv Üniversitesi, 17 Nisan 2013. http://arxiv.org/abs/1304.4920 .


1

Bu daha eski bir soru, ama QQPlots'u ilk kez yorumlamaya çalışırken yararlı buldum. Gelecekte daha fazla insanın bu sorunla karşılaşması durumunda bu cevapları ekleyeceğimi düşündüm.

Anlamak için biraz zor bulduğum şey, bu noktaların tam olarak ne olduğudur? Ben koda gitmeyi kolay anladım bulundu.

İşte GWASTools::qqPlot3 satır QQPlot uygulayan adapte bazı R kodu :

simpleQQPlot = function (observedPValues) {
  plot(-log10(1:length(observedPValues)/length(observedPValues)), 
       -log10(sort(observedPValues)))
  abline(0, 1, col = "red")
}

İşte bir örnek. 5 p değeriniz var. simpleQQPlot, 0 ile 1 arasında tekdüze bir dağılımdan 5 karşılık gelen değer üretir. Bunlar: .2 .4 .6 .8 ve 1 olacaktır. Bu nedenle, simpleQQPlot, en düşük p değerinin .2 civarında ve en yüksek değerinizin etrafında olmasını bekler 1. simpleQQPlot değerlerinizi sıralar ve her birini karşılık gelen üretilen değerle eşleştirir. Böylece .2 en düşük değerinizle, 1 en yüksek değerinizle eşleştirilecektir. Daha sonra bu eşlenmiş değerler (negatif günlükler alındıktan sonra) çizilir; X, üretilen değerdir ve Y, eşleştirilmiş gözlenen değerdir. Gözlenen değerleriniz normal bir dağılımdan da çekildiyse, noktalar kabaca düz çizgi üzerinde olmalıdır. Sıralama nedeniyle, noktalar her zaman monoton olarak artacaktır. Bu yüzden sonraki her nokta daha büyük bir X'e ve daha büyük veya eşit Y'ye sahip olacaktır.

Yukarıdaki orijinal örnekte, 9,997'nci sıralı p değeri 5,2 civarındaydı, ancak normal bir dağılımın ardından 4,1 civarında olması bekleniyordu. (Not: Yukarıda kaç p değerinin çizildiğinden emin değilim - sadece 10k tahmin ettim).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.