DNA sekanslaması için negatif binom dağılımının çerçevelenmesi


16

Negatif binom dağılımı biyoenformatikte sayım verileri için (özellikle belirli bir deneyden belirli bir genomun belirli bir bölgesinde okunan sıralı okuma sayısı) popüler bir model haline gelmiştir. Açıklamalar değişiklik gösterir:

  • Bazıları bunu Poisson dağılımı gibi çalışan ancak ek bir parametreye sahip, gerçek dağılımı modellemek için daha fazla özgürlüğe izin veren ve ortalamaya eşit olmayan bir varyansla açıklayan bir şey olarak açıklar.
  • Bazıları bunu Poisson dağılımlarının ağırlıklı bir karışımı olarak açıklar (Poisson parametresinde bir gama karıştırma dağılımı ile)

Belirli bir sayıda başarısızlık görmeden önce Bernoulli çalışmalarının başarılarının sayısını modelleme olarak bu rasyonelleri negatif bir binom dağılımının geleneksel tanımıyla karelemenin bir yolu var mı? Ya da sadece Poisson dağılımlarının bir gama karıştırma dağılımına sahip ağırlıklı bir karışımının negatif binom ile aynı olasılık kütle fonksiyonuna sahip olmasının mutlu bir tesadüf olduğunu düşünmeli miyim?


2
Aynı zamanda, Poisson dağıtılmış logaritmik rasgele değişken sayısını topladığınız bileşik Poisson dağılımıdır.
Douglas Zare

Yanıtlar:


8

IMOH, gerçekten negatif binom dağılımının kolaylık sağlamak için kullanıldığını düşünüyorum.

RNA Seq'de, sonsuz sayıda kopyada aynı genin sonsuz sayıda ölçümünü alırsanız, gerçek dağılımın lognormal olacağına dair ortak bir varsayım vardır. Bu dağılım daha sonra bir Poisson işlemi (bir sayıyla) ile örneklenir, böylece kopyalar arasında gen başına gerçek dağılım okumaları bir Poisson-Lognormal dağılımı olur.

Ancak EdgeR ve DESeq gibi kullandığımız paketlerde bu dağıtım negatif bir binom dağılımı olarak modellenmiştir. Bunun nedeni, onu yazanların Poisson Lognormal dağılımını bilmedikleri için değil.

Çünkü Poisson Lognormal dağılımı, çalışmak için korkunç bir şeydir, çünkü uyumları vb. Yapmak için sayısal entegrasyon gerektirir, bu yüzden gerçekten kullanmaya çalıştığınızda bazen performans gerçekten kötüdür.

Negatif bir binom dağılımının kapalı bir formu vardır, bu nedenle çalışmak çok daha kolaydır ve gama dağılımı (temeldeki dağıtım), bazen normal ve bazen de kuyruğa sahip olması nedeniyle lognormal bir dağılıma çok benzemektedir.

Ancak bu örnekte (varsayalım) teorik olarak doğru olamaz çünkü teorik olarak doğru dağılım Poisson lognormalidir ve iki dağılım birbirinin makul tahminleridir, fakat eşdeğer değildir.

Ama yine de "yanlış" negatif binom dağılımının daha iyi bir seçim olduğunu düşünüyorum çünkü ampirik olarak daha iyi sonuçlar verecek çünkü entegrasyon yavaş çalışıyor ve uyarlar kötü performans gösterebiliyor, özellikle de uzun kuyruklu dağıtımlarda.


7

rαβ

r

  1. αα+βNB(r,αα+β)

  2. trrΓ(r,1/β).tr=λ/αtrPois(λ).r

Bu, bu dağılımların neden eşit olduğunu açıklar.


2

Sadece sezgi sunabilirim, ancak gama dağılımının kendisi (sürekli) bekleme sürelerini (nadir bir olayın gerçekleşmesi ne kadar sürer) açıklar. Dolayısıyla, ayrık poisson dağılımlarının gama dağıtılmış bir karışımının ayrı bir bekleme süresine (N başarısızlıklarına kadar deneme) neden olması çok şaşırtıcı görünmemektedir. Umarım birinin daha resmi bir cevabı vardır.

Düzenleme: Ben her zaman negatif binom dist haklı. sekanslama için şu şekildedir: Gerçek sekanslama adımı, büyük bir molekül kütüphanesinden (poisson) okuma örneklemesidir. Ancak bu kütüphane PCR ile orijinal örnekten yapılır. Bu, orijinal moleküllerin katlanarak büyütüldüğü anlamına gelir. Ve gama dağılımı, k bağımsız üstel olarak dağıtılmış rasgele değişkenlerin toplamını, yani k numune moleküllerini aynı sayıda PCR döngüsü için yükselttikten sonra kütüphanede kaç molekülün toplamını açıklar.

Dolayısıyla negatif binom modelleri PCR ardından sekanslama yapılır.


Bu mantıklı, ancak bir genomdaki sekans okumalarının ölçülmesi bağlamında, negatif binom dağılımındaki bekleme süresinin neyi temsil ettiğini sezgisel bir açıklaması var mı? Bu durumda bekleme süresi yoktur - sadece sıralama okumalarının sayısını ölçer.
RobertF

Düzenlememe bakın. Bekleme süreleri açısından düşünmenin sıralama ayarına nasıl uyduğunu görmüyorum. Gama poisson karışımının yorumlanması daha kolaydır. Ama sonunda aynı şey.
Felix Schlesinger

2
Tamam - o zaman belki de asıl soru Bernoulli çalışmalarında k başarılarının + r başarısızlıklarının bir gama Poisson karışımını takip etmesinin tesadüfidir? Olumsuz bir binom modelleme k başarıları + r başarısızlıkları, başarı ve başarısızlık denemelerinin birçok olası permütasyonu nedeniyle tam olarak gözlemlenen başarıların ve r gözlemlenen başarısızlıkların bir sonucu olarak tanımlanabilir. ayrı dbns?
RobertF

2

Bunu düşünürken faydalı bulduğum basit bir mekanistik yorum vermeye çalışacağım.

μpμ1-ppN-B(μ1-pp,p)

μ1-ppp1-p=μσ2=μ(1-p)-1

(1-p)-1

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.