Bu ilginç bir soru. Araştırma grubum, halka açık olan biyoinformatik yazılımımızda birkaç yıldır bahsettiğiniz dağılımı kullanmaktadır. Bildiğim kadarıyla, dağılımın bir adı yok ve üzerinde literatür yok. Chandra ve arkadaşlarının (2012) Aksakal tarafından alıntı yaptıkları yazıyla yakından ilgili olsalar da, düşündükleri dağılım için tamsayı değerlerle sınırlı gözüküyor ve pdf için açık bir ifade vermemiş gibi görünüyorlar.r
Size biraz bilgi vermek için NB dağılımı, RNA seq ve ilgili teknolojilerden kaynaklanan gen ekspresyon verilerini modellemek için genomik araştırmalarda çok yoğun bir şekilde kullanılır. Sayım verileri, DNA ya da RNA dizilerinin sayısı, her bir genle eşleştirilebilen biyolojik bir numuneden çıkarılan okundukça ortaya çıkar. Tipik olarak, her bir biyolojik numuneden yaklaşık 25.000 genle eşleştirilen on milyonlarca okuma vardır. Alternatif olarak, okunanların genomik pencerelerle eşlendiği DNA örnekleri olabilir. Biz ve diğerleri, NB glm'lerinin her bir gen için sekansa okunduğu şekilde bir yaklaşımı popüler hale getirdik ve genisis dağılım tahmin edicilerini (dispersiyon ortalamak için ampirik Bayes yöntemleri kullanıldı.ϕ=1/r). Bu yaklaşım, genomik literatürdeki on binlerce dergi makalesinde alıntılanmıştır, böylece ne kadar kullanıldığı hakkında bir fikir edinebilirsiniz.
Benim grup tutar Edger R tasarim paketi. Birkaç yıl önce NB pmf'nin sürekli bir versiyonunu kullanarak tüm paketi kesirli sayılarla çalışacak şekilde revize ettik. NB pmf'deki tüm binom katsayılarını gamma fonksiyonlarının oranlarına dönüştürdük ve onu (karma) bir sürekli pdf olarak kullandık. Bunun motivasyonu, dizi okuma sayımlarının bazen (1) transkriptome veya genom okurlarının belirsiz haritalanması ve / veya (2) teknik etkileri düzeltmek için sayıların normalleştirilmesi nedeniyle kesirli olabilir. Bu nedenle sayımlar bazen gözlenen sayımlardan ziyade beklenen sayımlar veya tahmini sayımlardır. Ve elbette, okuma sayıları pozitif olasılıkla tamamen sıfır olabilir. Yaklaşımımız, hesaplanan çıkarım sonuçlarının sayımlarda sürekli olmasını ve tahmini sayımların tam sayı olduğu durumlarda kesin NB sonuçlarıyla tam olarak eşleşmesini sağlar.
Bildiğim kadarıyla pdf'de normalleşme sabiti için kapalı bir form yok, ne de ortalama veya varyans için kapalı formlar yok. Biri
(Fransen-Robinson sabiti) integrali için kapalı bir form
olmadığı düşünüldüğünde, sürekli integralin integralinin olamayacağı açıktır. NB pdf ya. Bununla birlikte, bana göre, NB için geleneksel ortalama ve varyans formüllerinin sürekli NB için iyi yaklaşımlar olmaya devam etmesi gerektiğini düşünüyorum. Üstelik normalleştirici sabit, parametrelerle yavaşça değişmelidir ve bu nedenle, maksimum olabilirlik hesaplamalarında ihmal edilebilir etkiye sahip olduğu göz ardı edilebilir.
∫∞01Γ(x)dz
Kişi bu hipotezleri sayısal entegrasyonla doğrulayabilir. NB dağılımı, biyoinformatikte Poisson dağılımlarının bir gama karışımı olarak ortaya çıkmaktadır (aşağıdaki Wikipedia negatif binom makalesine veya aşağıdaki McCarthy ve ark.larına bakınız). Sürekli NB dağılımı, Poisson dağılımını sürekli analogu ile pdf
için , örneğin 1 varsayalım yoğunluk bütünleştirir sağlamak için normalleştirme sabit olduğu . Poisson dağılımı, negatif olmayan tamsayılarda yukarıdaki pdf'e eşit ve ile eşittir. x≥0a(λ)
f(x;λ)=a(λ)e−λλxΓ(x+1)
x≥0a(λ)λ = 10 bir ( 10 ) = 1 / 0,999875 - 1 / 2 ∞λ=10λ=10Poisson ortalaması ve varyansı 10'a eşittir. Nümerik entegrasyon, ve sürekli dağılımın ortalama ve varyansının, 10 ila yaklaşık 4 önemli rakama eşit olduğunu gösterir. Bu yüzden normalleştirme sabiti neredeyse 1'dir ve ortalama ve varyans, ayrı Poisson dağılımındakilerle neredeyse tamamen aynıdır. Biz süreklilik düzeltmesi eklerseniz yaklaşım gelen entegre daha da iyileştirilmiştir için süreklilik düzeltmesi ile 0'dan herşey 6'ya kadar (normalleştirme sabiti 1 ve anlar ayrık Poisson katılıyorum) doğru olduğundan yerine rakamlar.
a(10)=1/0.999875−1/2∞
EdgeR paketimizde, sıfır kütle olduğu gerçeği için herhangi bir ayarlama yapmamıza gerek yoktur, çünkü her zaman koşullu log olabilirlikleriyle veya log olabilirlik farklarıyla çalışırız ve tüm delta fonksiyonları hesaplamaları iptal eder. Bu, karışık olasılık dağılımına sahip glms için tipik BTW'dir. Alternatif olarak, dağılımın sıfırda kütlesiz olmadığını ancak sıfır yerine -1 / 2'den başlayan desteğe sahip olduğunu düşünebiliriz. Her iki teorik bakış açısı pratikte aynı hesaplamalara yol açar.
Sürekli NB dağıtımını aktif olarak kullanmamıza rağmen, bunun hakkında açıkça hiçbir şey yayınlamadık. Aşağıda belirtilen makaleler NB'nin genomik verilere olan yaklaşımını açıklar ancak sürekli NB dağılımını açıkça tartışmazlar.
Özetle, okuduğunuz makalenin NB pdf'nin sürekli bir versiyonundan makul sonuçlar elde etmesine şaşırmadım, çünkü bu da bizim deneyimimiz. Temel gereksinim, araçların ve varyansların doğru bir şekilde modellenmesi ve tamsayı olsun olmasın, NB dağılımının yaptığı kuadratik ortalama-varyans ilişkisinin aynı biçimini göstermesi durumunda verilerin iyi olması gerektiğidir.
Referanslar
Robinson, M. ve Smyth, GK (2008). Negatif binom dağılımının küçük örnek tahmini, SAGE verisine uygulamaları ile . Biyoistatistik 9, 321-332.
Robinson, MD ve Smyth, GK (2007). Etiket bolluğundaki farklılıkları değerlendirmek için ılımlı istatistiksel testler . Biyoinformatik 23, 2881-2887.
McCarthy, DJ, Chen, Y, Smyth, GK (2012). Biyolojik çeşitlilik açısından çok faktörlü RNA-Seq deneylerinin diferansiyel ekspresyon analizi . Nükleik Asitler Araştırması 40, 4288-4297.
Chen, Y, Lun, ATL ve Smyth, GK (2014). EdgeR kullanarak karmaşık RNA-sekans deneylerinin diferansiyel ekspresyon analizi. In: Yeni Nesil Dizi Verilerinin İstatistiksel Analizi, Somnath Datta ve Daniel S Nettleton (eds), Springer, New York, sayfa 51-74. Ön baskı
Lun, ATL, Chen, Y ve Smyth, GK (2016). DE-licious: kenar-r'da benzerlik yöntemleri kullanarak RNA-seq deneylerinin diferansiyel ekspresyon analizleri için bir reçete. Moleküler Biyolojide Yöntemler 1418, 391-416. Ön baskı
Chen Y, Lun ATL ve Smyth, GK (2016). Okurlardan genlere ve yollara: Rsubread ve edgeR yarı olabilirlik boru hattını kullanarak RNA-Seq deneylerinin diferansiyel ekspresyon analizi . F1000Arama 5, 1438.