Bir RNA sekansı ve bir ChIP çip veri seti arasındaki gen listesi çakışmasının olasılığının hesaplanması

13

Umarım bu forumlardaki biri gen ekspresyon çalışmalarındaki bu temel problemde bana yardımcı olabilir.

Deneysel ve kontrol dokusunun derin dizilimini yaptım. Daha sonra kontrol üzerindeki deney numunesinde genlerin kat zenginleştirme değerlerini elde ettim. Referans genomun ~ 15.000 geni vardır. İlgilenen numunemde 15.000 genin 3.000'i kontrole kıyasla belirli bir kesimin üzerinde zenginleştirildi.

Yani: A = toplam gen popülasyonu = 15,000 B = RNA-Seq ile zenginleştirilmiş alt popülasyon = 3.000.

Önceki bir ChIP-çip deneyinde, ChIP-çip tarafından zenginleştirilmiş 400 gen buldum. 400 ChIP çip geninden 100 gen, 3.000 zenginleştirilmiş RNA-Seq transkripti grubundadır.

Yani: C = ChIP çipiyle zenginleştirilmiş genlerin toplam sayısı = 400.

100 ChIP-çip genimin RNA-Seq tarafından sadece şans eseri zenginleştirilme olasılığı nedir? Başka bir deyişle, B ve C (100 gen) arasındaki gözlenen örtüşmemin sadece şans eseri elde ettiğinden daha iyi olup olmadığını hesaplamanın en ihtiyatlı yolu nedir? Şimdiye kadar okuduğum kadarıyla, bunu test etmenin en iyi yolu hipergeometrik dağılım kullanmaktır.

Aşağıdaki parametrelerle hipergeometrik bir dağıtım testi ayarlamak için bir çevrimiçi hesap makinesi (stattrek.com) kullandım: - pop boyutu = 15.000 - popülasyondaki başarı sayısı = 3.000 - örnek boyutu = 400, - örnek = 100'deki başarı sayısı. Hipergeometrik Olasılık P (x = 100) = 0.00224050636447747 için aşağıdakileri alıyorum

B ve C = 100 arasında örtüşen gerçek gen sayısı = Bu sadece tesadüfen daha mı iyidir? Herhangi bir genin zenginleşme şansı 1: 5 ise (15.000'den 3.000) gibi görünmüyor. Bu yüzden yukarıda hesapladığım P (x = 100) 'ün 0.0022 olduğunu nasıl anlamıyorum. Bu, tesadüfen meydana gelen çakışma olasılığının% 0,2'sine eşittir. Bu daha yüksek olmamalı mı?

400 rasgele gen örneklemiş olsaydım 15.000'lik büyük listeye sahip olsaydım, bu genlerin 80'inin tek başına şansla zenginleştirilmesi beklenirdi (1: 5). Üst üste binen genlerin sayısı 100'dür, bu yüzden şans eseri biraz daha iyidir.

Ayrıca R'deki dhyper veya phyper işlevlerini kullanarak bir çözüm bulmaya çalıştım (başka bir yazıda gördüklerimi kullanarak): A = genomdaki tüm genler (15.000) B = RNA-Seq ile zenginleştirilmiş genler (3.000) C = ChIP -çip zenginleştirilmiş genler (400) İşte R girişi / çıkışı (önceki yığın değiş tokuş direğinden uyarlanmıştır):

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36

Bu sayıları nasıl yorumlayacağından emin değilim. 2.36e-36'nın tek başına şans eseri B ve C arasında tam bir örtüşme olasılığı olduğuna inanıyorum. Ancak bu bir anlam ifade etmiyor, çünkü bu olasılık 1: 5'e çok daha yakın. 15.000 genle başlarsam, 3.000 zenginleştirilir. Benzer şekilde, 400 ChIP-çip geni ile başlarsam, bu veri setindeki 1: 5 zenginleşme şansı nedeniyle bunların 80'i sadece RNA-Seq ile zenginleştirilmelidir.

B ve C örtüşmesi için hipergeometrik dağılıma göre p değerini hesaplamanın doğru yolu nedir?

— stlandroidfan
kaynak

15

Sen kullanımınızla, yakın dhyperve phyper, ama nereye anlamıyorum 0:2ve -1:2geliyor.

İstediğiniz p değeri , 3000 beyaz top ve 12000 siyah top içeren bir urndan 400 büyüklüğünde bir numunede 100 veya daha fazla beyaz top elde etme olasılığıdır . İşte hesaplamanın dört yolu.

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

Bunlar 0.0078 verir.

dhyper(x, m, n, k)çizme olasılığını tam olarak verir x. İlk satırda 100 - 400 olasılıklarını özetliyoruz; ikinci satırda, 0 - 99 olasılıklarının toplamını 1 eksi alıyoruz.

phyper(x, m, n, k)alma xveya daha az olma olasılığını verir, phyper(x, m, n, k)aynı şekilde sum(dhyper(0:x, m, n, k)).

lower.tail=FALSEBiraz kafa karıştırıcı olduğunu. phyper(x, m, n, k, lower.tail=FALSE)aynı veya daha fazla 1-phyper(x, m, n, k)olasılık x+1. [Bunu asla hatırlamıyorum ve bu yüzden her zaman iki kez kontrol etmek zorundayım.]

$\ge$

max(dhyper(0:400, 3000, 12000, 400)) $\sim$

İşte bu durumda hipergeometrik dağılımın bir resmi. 80 (400'ün% 20'si) merkezli olduğunu ve 100'ün sağ kuyrukta oldukça uzak olduğunu görebilirsiniz. resim açıklamasını buraya girin

— Karl
kaynak

Yardımınız için çok teşekkürler. Cevabınızın arkasındaki mantığı anlıyorum. Ancak bir grup biyoloğa, bunun sadece şans nedeniyle gözlenen çakışmadan daha büyük olduğunu nasıl açıklayabilirim? 1: 5 çakışma şansım olduğunu söyleyecekler. 400 topun (toplam 15.000 toptan) örnek büyüklüğünde, beyaz bir top alma şansım aslında 1: 5'ten düşük olduğu için (15.000'in tamamını değil), çünkü örtüşmem önemli mi? Bu mantıklı değil çünkü 400 <15,000 olmasına rağmen hala 1: 5 beyaz: siyah oranı var. Bu mantıklı mı?

— stlandroidfan

@stlandroidfan - Kafa karıştırıcı ne bulduğunu anlamıyorum. Bir figür ekledim; Bu yardımcı olur mu?

— Karl

0

Bu şekilde bakın .. Eğer bir binom olarak kabul ettiyseniz, bu doğru olmayabilir, ancak oldukça yaklaşık olmalıdır .. sigma ^ 2'niz .8 * .2 * 400 = 64, o zaman sigma = 8. 80'den 100'e 2.5 standart sapma yaptınız. Bu çok önemli .. P değeri küçük olmalı.

— Adem
kaynak

Cevabınız için teşekkürler. Hipergeometrik dağılımlar, literatürde gördüğüm gen listesi çakışmaları için daha sık kullanılma eğilimindedir. Soru, 3000 beyaz top ve 12000 siyah top içeren bir urndan 400 büyüklüğünde bir numunede 100 veya daha fazla beyaz top elde etme olasılığı nedir? Sanırım hala bunu bir grup biyologa nasıl açıklayacağım? Görme biçimleri 3000: 12000, 1: 5 beyaz: siyah. 400 örneklemede 80 beyaz olmalıdır. Peki, 100 veya daha fazla elde etme olasılığı% 20'den çok daha düşüktür (5'te 1)?

— stlandroidfan