Umarım bu forumlardaki biri gen ekspresyon çalışmalarındaki bu temel problemde bana yardımcı olabilir.
Deneysel ve kontrol dokusunun derin dizilimini yaptım. Daha sonra kontrol üzerindeki deney numunesinde genlerin kat zenginleştirme değerlerini elde ettim. Referans genomun ~ 15.000 geni vardır. İlgilenen numunemde 15.000 genin 3.000'i kontrole kıyasla belirli bir kesimin üzerinde zenginleştirildi.
Yani: A = toplam gen popülasyonu = 15,000 B = RNA-Seq ile zenginleştirilmiş alt popülasyon = 3.000.
Önceki bir ChIP-çip deneyinde, ChIP-çip tarafından zenginleştirilmiş 400 gen buldum. 400 ChIP çip geninden 100 gen, 3.000 zenginleştirilmiş RNA-Seq transkripti grubundadır.
Yani: C = ChIP çipiyle zenginleştirilmiş genlerin toplam sayısı = 400.
100 ChIP-çip genimin RNA-Seq tarafından sadece şans eseri zenginleştirilme olasılığı nedir? Başka bir deyişle, B ve C (100 gen) arasındaki gözlenen örtüşmemin sadece şans eseri elde ettiğinden daha iyi olup olmadığını hesaplamanın en ihtiyatlı yolu nedir? Şimdiye kadar okuduğum kadarıyla, bunu test etmenin en iyi yolu hipergeometrik dağılım kullanmaktır.
Aşağıdaki parametrelerle hipergeometrik bir dağıtım testi ayarlamak için bir çevrimiçi hesap makinesi (stattrek.com) kullandım: - pop boyutu = 15.000 - popülasyondaki başarı sayısı = 3.000 - örnek boyutu = 400, - örnek = 100'deki başarı sayısı. Hipergeometrik Olasılık P (x = 100) = 0.00224050636447747 için aşağıdakileri alıyorum
B ve C = 100 arasında örtüşen gerçek gen sayısı = Bu sadece tesadüfen daha mı iyidir? Herhangi bir genin zenginleşme şansı 1: 5 ise (15.000'den 3.000) gibi görünmüyor. Bu yüzden yukarıda hesapladığım P (x = 100) 'ün 0.0022 olduğunu nasıl anlamıyorum. Bu, tesadüfen meydana gelen çakışma olasılığının% 0,2'sine eşittir. Bu daha yüksek olmamalı mı?
400 rasgele gen örneklemiş olsaydım 15.000'lik büyük listeye sahip olsaydım, bu genlerin 80'inin tek başına şansla zenginleştirilmesi beklenirdi (1: 5). Üst üste binen genlerin sayısı 100'dür, bu yüzden şans eseri biraz daha iyidir.
Ayrıca R'deki dhyper veya phyper işlevlerini kullanarak bir çözüm bulmaya çalıştım (başka bir yazıda gördüklerimi kullanarak): A = genomdaki tüm genler (15.000) B = RNA-Seq ile zenginleştirilmiş genler (3.000) C = ChIP -çip zenginleştirilmiş genler (400) İşte R girişi / çıkışı (önceki yığın değiş tokuş direğinden uyarlanmıştır):
> totalpop <- 15000
> sample1 <- 3000
> sample2 <- 400
> dhyper(0:2, sample1, totalpop-sample1, sample2)
[1] 4.431784e-40 4.584209e-38 2.364018e-36
> phyper(-1:2, sample1, totalpop-sample1, sample2)
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36
Bu sayıları nasıl yorumlayacağından emin değilim. 2.36e-36'nın tek başına şans eseri B ve C arasında tam bir örtüşme olasılığı olduğuna inanıyorum. Ancak bu bir anlam ifade etmiyor, çünkü bu olasılık 1: 5'e çok daha yakın. 15.000 genle başlarsam, 3.000 zenginleştirilir. Benzer şekilde, 400 ChIP-çip geni ile başlarsam, bu veri setindeki 1: 5 zenginleşme şansı nedeniyle bunların 80'i sadece RNA-Seq ile zenginleştirilmelidir.
B ve C örtüşmesi için hipergeometrik dağılıma göre p değerini hesaplamanın doğru yolu nedir?