Negatif binom dağılımının sürekli genellemesi


24

Negatif binom (NB) dağılımı , negatif olmayan tamsayılarda tanımlanır ve olasılık kütle fonksiyonuAynı formülle tanımlanan negatif olmayan gerçekler üzerinde sürekli bir dağılım düşünmek mantıklı mıdır (yerine k \ in \ mathbb N_0 yerine x \ in \ mathbb R _ {\ ge 0} )? Binom katsayısı, herhangi bir gerçek k için iyi tanımlanmış (k + 1) \ cdot \ ldots \ cdot (k + r-1) ürünü olarak yeniden yazılabilir . Öyleyse bir PDF'ye sahip oluruz f (x; r, p) \ propto \ prod_ {i = 1} ^ {r-1} (x + i) \ cdot p ^ {x} (1-p) ^ {r} . Daha genel olarak, tamsayı olmayan değerler için izin Gama fonksiyonları ile binom katsayısı yerine r :

f(k;r,p)=(k+r1k)pk(1p)r.
kN0xR0(k+1)(k+r1)k
f(x;r,p)i=1r1(x+i)px(1p)r.
r
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

Geçerli bir dağıtım mı? Bir adı var mı? Herhangi bir kullanımı var mı? Belki bir bileşik veya karışım mı? Ortalama ve varyans (ve PDF'deki orantı sabiti) için kapalı formüller var mı?

(Şu anda NB karışım modeli kullanan (sabit r=2 ) bir kağıt üzerinde çalışıyorum ve EM ile uyuyor. Ancak, bazı normalizasyondan sonra tam sayılar, yani tam sayılar değil. Yine de, yazarlar hesaplamak için standart NB formülünü kullanıyorlar. olasılığı ve çok makul sonuçlar elde etmek, bu yüzden her şey yolunda gibi görünüyor. Çok şaşırtıcı buldum. Bu sorunun NB GLM ile ilgili olmadığını unutmayın .)


1
Bu Gammas'ın ölçek parametresi - \ log p ile bir karışımı olmaz mıydı logp? Polinomu \ Pi_ {i = 1} ^ {r-1} (x + i) polinomunu genişletirseniz, Πi=1r1(x+i)sadece i=2raixi1 , sonra p ^ x ile çarpmanız gerekir. \ exp \ {x \ log p \}px ile aynıdır , burada a_i polinomdaki x ^ {i-1} katsayısı ve \ log p <0 elbette, bu yüzden bir Gamma dağılımlarının ağırlıklı ortalaması, yani bir karışım. exp{xlogp}aixi1logp<0
jbowman

... yukarıdaki toplamda i = 1 olmalı i=1, aslında.
jbowman

2
Yana parametrelere bağlı olmaktadır, bu orantı olarak absorbe edilebilir bir sabittir. Ayrıca, aynı zamanda bir sabit o kutunun yok sayılmak. Yazma için , bir yoğunluğa orantılı yaklaşık soranBu, bir ölçek faktörü, ise bir şekil parametresi olarak tanımlar. İçin entegre açıkça Gama dağılımlarının bir karışımı. Yine de, tamsayılarla sınırlandırmanın bir anlamı yoktur .( x + r - 1(1p)r1/Γ(r)pk=e-kρρ=-log(p)0f(x;r,ρ)=Γ(x+r)(x+r1x)=Γ(x+r)/(Γ(r)Γ(x+1))1/Γ(r)pk=ekρρ=log(p)0ρ r r r
f(x;r,ρ)=Γ(x+r)Γ(x+1)eρx.
ρr rr
whuber

1
@whuber Doğru. Aslında pozitif değerler üzerinde sürekli olan ve sıfırda bir nokta kütlesine sahip bir dağılım kullanıyorum. Bunun doğru yaklaşım olduğuna inanıyorum. Ancak, sıfırda sıfır olma olasılığı olmayan ve bu nedenle kesin olarak sıfırlarla başa çıkmak için görünmesine izin verecek sürekli bir NB genellemesi kullanmam önerildi. Dolayısıyla benim sorum.
amip diyor Reinstate Monica,

2
O öneride bazı karışıklıklar olabilir düşünüyorum: Bir conflate görünen olasılık olasılık ile (bir nokta kütle vardır veya NB dağılımı sıfır neler olduğu) yoğunluk ne değer olan ( olur. Sıfır olmayan bir yoğunluk, tam sıfırlarla başa çıkmanıza izin vermez, çünkü hala değerinden herhangi birinin ortaya çıkması için sıfır şansı tahmin ediyor ! 0f(0,θ)0
whuber

Yanıtlar:


21

Bu ilginç bir soru. Araştırma grubum, halka açık olan biyoinformatik yazılımımızda birkaç yıldır bahsettiğiniz dağılımı kullanmaktadır. Bildiğim kadarıyla, dağılımın bir adı yok ve üzerinde literatür yok. Chandra ve arkadaşlarının (2012) Aksakal tarafından alıntı yaptıkları yazıyla yakından ilgili olsalar da, düşündükleri dağılım için tamsayı değerlerle sınırlı gözüküyor ve pdf için açık bir ifade vermemiş gibi görünüyorlar.r

Size biraz bilgi vermek için NB dağılımı, RNA seq ve ilgili teknolojilerden kaynaklanan gen ekspresyon verilerini modellemek için genomik araştırmalarda çok yoğun bir şekilde kullanılır. Sayım verileri, DNA ya da RNA dizilerinin sayısı, her bir genle eşleştirilebilen biyolojik bir numuneden çıkarılan okundukça ortaya çıkar. Tipik olarak, her bir biyolojik numuneden yaklaşık 25.000 genle eşleştirilen on milyonlarca okuma vardır. Alternatif olarak, okunanların genomik pencerelerle eşlendiği DNA örnekleri olabilir. Biz ve diğerleri, NB glm'lerinin her bir gen için sekansa okunduğu şekilde bir yaklaşımı popüler hale getirdik ve genisis dağılım tahmin edicilerini (dispersiyon ortalamak için ampirik Bayes yöntemleri kullanıldı.ϕ=1/r). Bu yaklaşım, genomik literatürdeki on binlerce dergi makalesinde alıntılanmıştır, böylece ne kadar kullanıldığı hakkında bir fikir edinebilirsiniz.

Benim grup tutar Edger R tasarim paketi. Birkaç yıl önce NB pmf'nin sürekli bir versiyonunu kullanarak tüm paketi kesirli sayılarla çalışacak şekilde revize ettik. NB pmf'deki tüm binom katsayılarını gamma fonksiyonlarının oranlarına dönüştürdük ve onu (karma) bir sürekli pdf olarak kullandık. Bunun motivasyonu, dizi okuma sayımlarının bazen (1) transkriptome veya genom okurlarının belirsiz haritalanması ve / veya (2) teknik etkileri düzeltmek için sayıların normalleştirilmesi nedeniyle kesirli olabilir. Bu nedenle sayımlar bazen gözlenen sayımlardan ziyade beklenen sayımlar veya tahmini sayımlardır. Ve elbette, okuma sayıları pozitif olasılıkla tamamen sıfır olabilir. Yaklaşımımız, hesaplanan çıkarım sonuçlarının sayımlarda sürekli olmasını ve tahmini sayımların tam sayı olduğu durumlarda kesin NB sonuçlarıyla tam olarak eşleşmesini sağlar.

Bildiğim kadarıyla pdf'de normalleşme sabiti için kapalı bir form yok, ne de ortalama veya varyans için kapalı formlar yok. Biri (Fransen-Robinson sabiti) integrali için kapalı bir form olmadığı düşünüldüğünde, sürekli integralin integralinin olamayacağı açıktır. NB pdf ya. Bununla birlikte, bana göre, NB için geleneksel ortalama ve varyans formüllerinin sürekli NB için iyi yaklaşımlar olmaya devam etmesi gerektiğini düşünüyorum. Üstelik normalleştirici sabit, parametrelerle yavaşça değişmelidir ve bu nedenle, maksimum olabilirlik hesaplamalarında ihmal edilebilir etkiye sahip olduğu göz ardı edilebilir.

01Γ(x)dz

Kişi bu hipotezleri sayısal entegrasyonla doğrulayabilir. NB dağılımı, biyoinformatikte Poisson dağılımlarının bir gama karışımı olarak ortaya çıkmaktadır (aşağıdaki Wikipedia negatif binom makalesine veya aşağıdaki McCarthy ve ark.larına bakınız). Sürekli NB dağılımı, Poisson dağılımını sürekli analogu ile pdf için , örneğin 1 varsayalım yoğunluk bütünleştirir sağlamak için normalleştirme sabit olduğu . Poisson dağılımı, negatif olmayan tamsayılarda yukarıdaki pdf'e eşit ve ile eşittir. x0a(λ)

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ = 10 bir ( 10 ) = 1 / 0,999875 - 1 / 2 λ=10λ=10Poisson ortalaması ve varyansı 10'a eşittir. Nümerik entegrasyon, ve sürekli dağılımın ortalama ve varyansının, 10 ila yaklaşık 4 önemli rakama eşit olduğunu gösterir. Bu yüzden normalleştirme sabiti neredeyse 1'dir ve ortalama ve varyans, ayrı Poisson dağılımındakilerle neredeyse tamamen aynıdır. Biz süreklilik düzeltmesi eklerseniz yaklaşım gelen entegre daha da iyileştirilmiştir için süreklilik düzeltmesi ile 0'dan herşey 6'ya kadar (normalleştirme sabiti 1 ve anlar ayrık Poisson katılıyorum) doğru olduğundan yerine rakamlar.a(10)=1/0.9998751/2

EdgeR paketimizde, sıfır kütle olduğu gerçeği için herhangi bir ayarlama yapmamıza gerek yoktur, çünkü her zaman koşullu log olabilirlikleriyle veya log olabilirlik farklarıyla çalışırız ve tüm delta fonksiyonları hesaplamaları iptal eder. Bu, karışık olasılık dağılımına sahip glms için tipik BTW'dir. Alternatif olarak, dağılımın sıfırda kütlesiz olmadığını ancak sıfır yerine -1 / 2'den başlayan desteğe sahip olduğunu düşünebiliriz. Her iki teorik bakış açısı pratikte aynı hesaplamalara yol açar.

Sürekli NB dağıtımını aktif olarak kullanmamıza rağmen, bunun hakkında açıkça hiçbir şey yayınlamadık. Aşağıda belirtilen makaleler NB'nin genomik verilere olan yaklaşımını açıklar ancak sürekli NB dağılımını açıkça tartışmazlar.

Özetle, okuduğunuz makalenin NB pdf'nin sürekli bir versiyonundan makul sonuçlar elde etmesine şaşırmadım, çünkü bu da bizim deneyimimiz. Temel gereksinim, araçların ve varyansların doğru bir şekilde modellenmesi ve tamsayı olsun olmasın, NB dağılımının yaptığı kuadratik ortalama-varyans ilişkisinin aynı biçimini göstermesi durumunda verilerin iyi olması gerektiğidir.

Referanslar

Robinson, M. ve Smyth, GK (2008). Negatif binom dağılımının küçük örnek tahmini, SAGE verisine uygulamaları ile . Biyoistatistik 9, 321-332.

Robinson, MD ve Smyth, GK (2007). Etiket bolluğundaki farklılıkları değerlendirmek için ılımlı istatistiksel testler . Biyoinformatik 23, 2881-2887.

McCarthy, DJ, Chen, Y, Smyth, GK (2012). Biyolojik çeşitlilik açısından çok faktörlü RNA-Seq deneylerinin diferansiyel ekspresyon analizi . Nükleik Asitler Araştırması 40, 4288-4297.

Chen, Y, Lun, ATL ve Smyth, GK (2014). EdgeR kullanarak karmaşık RNA-sekans deneylerinin diferansiyel ekspresyon analizi. In: Yeni Nesil Dizi Verilerinin İstatistiksel Analizi, Somnath Datta ve Daniel S Nettleton (eds), Springer, New York, sayfa 51-74. Ön baskı

Lun, ATL, Chen, Y ve Smyth, GK (2016). DE-licious: kenar-r'da benzerlik yöntemleri kullanarak RNA-seq deneylerinin diferansiyel ekspresyon analizleri için bir reçete. Moleküler Biyolojide Yöntemler 1418, 391-416. Ön baskı

Chen Y, Lun ATL ve Smyth, GK (2016). Okurlardan genlere ve yollara: Rsubread ve edgeR yarı olabilirlik boru hattını kullanarak RNA-Seq deneylerinin diferansiyel ekspresyon analizi . F1000Arama 5, 1438.


Bu son derece yararlı, @ Gordon; zaman ayırdığınız için çok teşekkürler. Ben de RNA-seq verileriyle çalışıyorum, bu yüzden bu açıdan bir cevap özellikle değerli (şimdi soruya [biyoinformatik] etiketi ekledim). Çalışmanız farklı ifadelerle ilgilidir, oysaki çalışmam kümelemeyle ilgili (okuduğum makale Harris ve ark. CA1 interneurons; biorxiv ). Her neyse, size birkaç küçük soru / açıklama sormama izin verin. [devam]
amip Reinstate Monica,

(1) Sürekli NB'nin sürekli Poissons'un gama karışımı olduğunu söylediniz. Onu biraz daha genişletebilir misiniz, belki biraz daha açık gösterebilir misiniz? Bunun genel izleyici için faydalı olacağını düşünüyorum. Bununla ilgili olarak, benim sorumdaki yorumlarda iki kişi sürekli NB'nin Gammer karışımı ölçek parametresi karışımı olması gerektiğini ancak sadece tamsayısı için yazdığını yazdı . Her iki görüş de doğru mu? (2) Sıfırdaki delta fonksiyonunun GLM'ler için önemli olmadığını söylediniz. Aynı zamanda, sıfır şişirilmiş dağılımlı GLM'ler hakkında geniş literatür var. Bu nasıl bir araya geliyor? rlog(p)r
amip diyor Reinstate Monica

(3) Pratik çalışmanızda, de dahil olmak üzere tüm parametreleri tahmin etmek için ML kullanıyor musunuz ya da önceden belirli bir değere (belki de tüm genler için paylaşılan aynı değere) sabitliyor musunuz? Bunun daha kolay olması gerektiğini tahmin ediyorum. (Örneğin, NB'nin kendisi üstel dağılım ailesidir, ancak yalnızca sabit ile ).r rrrr
Amip, Reinstate Monica,

1
@amoeba Biorxiv ref için teşekkürler. (1) NB'nin bir Poissons karışımı olarak türetilmesi oldukça iyi bilinmektedir ve bildiri belgelerinde örneğin McCarthy ve ark. Sürekli NB'nin türetilmesi, sadece Poisson yerine sürekli Poisson kullanılmasıyla devam eder. Bunu cevabıma mı eklemeliyim? Uzun sürerdi. Sürekli NB'nin faydalı bir şekilde gama karışımı olarak nasıl temsil edildiğini anlamıyorum. (2) Hayır, sıfır enflasyon farklı bir ek komplikasyondur. İşimizdeki bu komplikasyondan kaçınıyoruz.
Gordon Smyth

1
@ amoeba (3) Tüm parametreleri tahmin ediyoruz. Hata oranı kontrolü elde etmek için genewise dağılımlarını tahmin etmek çok önemlidir ve örnek boyutları genellikle küçük olduğu ve verilerin boyutu çok büyük olduğu için bu özel bir dikkatle yapılmalıdır. Genler arasında ağırlıklı olabilirlik deneysel bir Bayes prosedürü ile bağlantılı her bir gen içinde düzeltilmiş profil olasılığını (REML düşünün) içeren karmaşık bir prosedür kullanıyoruz. Genewise NB glms daha sonra sabit dispersiyonlar ile ML tarafından yerleştirilir. Son olarak, katsayılar yarı olabilirlik F testleri kullanılarak test edilmiştir.
Gordon Smyth

19

Bu makaleye bakın: Chandra, Nimai Kumar ve Dilip Roy. Negatif binom dağılımının sürekli bir versiyonu. Statistica 72, hayır. 1 (2012): 81 .

Makalede, negatif binomial'ın güvenilirlik analizine girmesinden bu yana doğal bir yaklaşım olan hayatta kalma fonksiyonu olarak tanımlanmaktadır:

q=e-λ,λ0,p+q=1RN,r>0

Sr(x)={qxfor r=1k=0r1(x+k1k)pkqxfor r=2,3,
burada ve .q=eλ,λ0,p+q=1rN,r>0

Teşekkürler! Bu makaleye bir göz atacağım. (Oy kullanmayan ben değildim.)
Amip,

@ amoeba, aşağı oylama konusunda endişelenmiyorum, internet :)
Aksakal

3
(Bu cevabın indirilmemesi garip ...) +1
whuber

Bu referansa sahip olmak güzel, ama ideal olarak burada daha ayrıntılı bir tartışma görmek istiyorum. Bu hayatta kalma fonksiyonu benim sorumla PDF ile aynı dağılımı mı tanımlamaktadır? (Bu arada, yazarların tamsayı olmayan değerleri için binom katsayılarını kullanması biraz garip buluyorum .) Yukarıdaki birkaç yorum, bunun bir gama dağılımının karışımı olduğunu göstermektedir. kağıt); Bu gammaların parametreleri nelerdir, karışım ağırlıkları nelerdir? Ortalama sürüm ve varyans için NB formülleri sürekli versiyon için geçerli midir? x
amip diyor Reinstate Monica

@amoeba, kağıt maalesef onlar NB gibi değiliz, anlar vardır
Aksakal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.