Belirli bir baz çifti dizisi bulma olasılığı


10

Olasılık hakkında düşünmek her zaman sayımda ne kadar kötü olduğumu fark etmemi sağlıyor ...

Bir dizi göz önünde temel harfleri , her biri eşit olasılıkla görünmesi. Bu sekansın, uzunluğunda ilgilenilen belirli bir baz çift sekansı içermesi olasılığı nedir ?nr nA,T,C, and Grn

Var farklı (eşit olasılıkla) dizilimlerden. Tam dizinin başlangıcında ilgilenilen diziyle başlayın; dizi mümkündür. farklı konumlarda ilgi başlayabiliriz . Dolayısıyla cevabım .4 n - r n + 1 - r ( n + 1 - r ) / 4 r4n4nrn+1r(n+1r)/4r

Bu olasılık artıyor , bu bana mantıklı geliyor. Ancak olduğunda bu olasılık 1'i aşar . Ama bu olamaz. Olasılık sınırda 1'e yaklaşmalıdır (bana öyle geliyor), ama aşmamalıdır.n > 4 r + r - 1nn>4r+r1

Bir şeyi iki kere saydığımı varsayıyorum. Neyi kaçırıyorum? Teşekkürler.

(FYI, ödev değil, sınavlara hazırlanırken sadece bir oyuncak örneği. Moleküler biyolog arkadaşımın sorduğu bir soru.)


Olasılık aksiyomlarını ihlal edeceğinden, bu bir
taneyi geçmemelidir

Yanıtlar:


5

Bu sorunun ile küçük bir versiyonunu düşünelim . Beş harflik bir dizinin hedefini içermesi ihtimali nedir ? Bu kolaydır: Tüm dizilerin tanesi bu dizeyle başlar, başka bir onunla biter ve hiçbir dizi bu dizeyle başlar ve bitmez. Bu nedenle şans .A C G T 4 - 4 4 - 4 2 × 4 - 4n=5ACGT44442×44

Öte yandan, şansı nedir? Bir kez daha, dizilerin tanesi bu dizeyle başlar, bu dizeyle aynı oran sona erer ve tüm dizilerin tanesi her ikisini de yapar . Bu nedenle, İçerme-Dışlama İlkesine göre, yanıt .4 - 4 4 - 5 2 × 4 - 4 - 4 - 5AAAA44452×4445

Genel olarak, cevap alt dizenin yapısına bağlıdır. Daha açık olmak gerekirse, için bir dize (soldan sağa, örneğin) , ilk görene kadar tüm karakterleri . Bundan sonra, üç olasılık vardır: Bir sonraki karakter için bir maç , sonraki için olmayan bir maç ama bir değil (geri bekleme-for-kızgınlık gibi içindedir böylece , devlete) ya da bir sonraki maç bir , ancak bir , sizi sadece testere bir durumuna sokuyor . Bunun aksine, için bir arama . önekini gördüğünüzü varsayalımbir Cı- Cı- A A A A bir Cı- T bir Cı- G, bir Cı- T bir Cı- G, Cı- A bir Cı- T ... bir Cı- T birACGTACCAAAAACTACGACTAC. Sonraki karakter ise eşleşir . Eşleşme olmadığında, (i) bir sizi ilk bekletme durumuna sokar , (ii) bir bir izliyor mu ve (iii) bir zaten gördüğünüz anlamına gelir ve zaten bir maçın yarısındasınız (ve ikinci arıyorsunuz ). İlgili "yapı" açıkça hedefin hedefin önekiyle eşleşen alt dize desenlerinden oluşur. Bu yüzden şans hedef dizeye bağlıdır.GCAACTACTA

Bir dizi madeni parada bir kafa ve kuyruk desenine vurmak için alınan bir cevapta savunduğum FSA diyagramları , bu fenomeni anlamaya yardımcı olabilir.


3

Kaba bir yaklaşım . Sekansınızın belirli bir yerde meydana gelmeme olasılığını alırsınız, değil olan konum sayısının gücüne (yanlış bağımsızlık varsayarak) koyarsınız ve bu, gerçekleşmeyen bir yaklaşımdır. bu yüzden bunu çıkarmanız gerekir . , n - r + 1 , n - r, 11(11/4r)nr+1nr+1nr1

Kesin bir hesaplama, aradığınız kesin desene bağlı olacaktır. daha büyük olasılıkla meydana getirmemektir .A T C G TAAAAAATCGT


Belki de sadece benim, ama denklemin nasıl inşa edildiğini anlamak açısından biraz daha açık görünüyor. 1(1(1/4)r)n(r1)

@JoeRocc - Bunun kişisel olduğundan şüpheleniyorum. Bir kitabın sayfa sayfa okuduysanız, sayfa veya sayfa okudunuz mu? 400 400 - 300 + 1 = 101 , 400 - ( 300 - 1 ) = 101300400400300+1=101400(3001)=101
Henry

Endişeye gerek yok, sadece problemin sezgisiyle gidiyordum. Sezgisel olarak bir denklem , o zaman birisine açıklamaya çalışırken, bunu sadeleştirmek yerine bu şekilde bırakmak en iyisi olduğunu düşünüyorum. (bu kesinlikle dikkate alındığında daha sezgisel olabilir). a - b + c - 1 + d(a(b(c1+d)))ab+c1+d

2

Hedef sıralamanızın birkaç katını içeren dizileri iki kez sayıyorsunuz, örneğin hem A konumunda hem de B! = A konumunda. Bu yüzden hatalı olasılık aşabilir 1


Çok iyi yapılmış ! +1
Michael R. Chernick

1

Sorunun bir Markov zinciri temsilini kullanarak belirli bir alt sekansın kesin olasılığını elde etmek mümkündür. Zincirin nasıl yapılacağına dair ayrıntılar, ilgili özel diziye bağlıdır, ancak bunun nasıl yapılacağı ile ilgili birkaç örnek vereceğim.


Markov zinciri üzerinden kesin olasılık: Sekanstaki sonuçların değiştirilebilir olduğu A,T,C,G sonuçlarının ayrı bir sekansını düşünün ve k uzunluğunun bazı alt dizileriyle ilgilendiğimizi varsayalım . Herhangi bir belirli değeri için n , izin W ilgi substring oluşur olay ve izin geçen bu olay çıktıları ilk olarak ilgi substring karakterler (ancak hiçbir bundan daha fazla). Bu olayları, olası ilgi durumlarını aşağıdaki bölümlere vermek için kullanıyoruz :Haaa<kk+1

State 0W¯H0,   State 1W¯H1,   State 2W¯H2,   State 3W¯H3,   State k1W¯Hk1,State kW.  

dizisinin değiştirilebilir olduğu varsayıldığından, kendi olasılıklarına bağlı olarak bağımsız sonuçlarımız vardır . İlgilenme işleminiz, ile ve ilgili belirli alt dizeye bağlı bir olasılık matrisine göre geçiş yapan ayrık zamanlı Markov zincirleri olarak temsil edilebilir . Geçiş matrisi her zaman birθA+θT+θC+θG=1State 0n=0(k+1)×(k+1)yukarıdaki durumları kullanarak geçiş olasılığını temsil eden matris. İlgilenilen alt dizeye ulaşılmadıysa, her geçiş size alt dizeye bir adım daha yaklaşabilir veya sizi belirli alt dizeye bağlı olan önceki bir duruma geri döndürebilir. Alt dize ulaşıldığında, bu, ilgili olayın meydana geldiğini temsil eden zincirin emici bir halidir.

Örneğin, ilgilenilen alt dize ise , geçiş matrisi:AAAAAA

P=[1θAθA000001θA0θA00001θA00θA0001θA000θA001θA0000θA01θA00000θA0000001.]

Aksine, ilgilenilen alt dize ise , geçiş matrisi şöyledir:ACTAGC

P=[1θAθA00001θAθCθAθC00001θAθTθA0θT0001θA000θA001θAθCθGθAθC00θG01θAθCθA0000θC0000001.]

Yukarıda görülebileceği gibi, geçiş matrisinin oluşturulması belirli alt dizeye dikkat gerektirir. Yanlış bir sonuç, ilgili dize alt dizesine bağlı olarak dizede önceki bir duruma geri döndürür. Geçiş matrisi oluşturulduktan sonra, belirli bir değeri için zincirde alt sahip olma olasılığı . (Bu olasılık tüm için sıfırdır .)nP(W|n)={Pn}0,kn<k


Bunu R'de programlamak:R Markov zinciri için geçiş matrisini ve güçlerini bir dizi istenen sayıda denemeye kadar üreten bir işlev oluşturarak bunu bir işlev olarak programlayabilirsiniz . Daha sonra ilgilenilen değeri için uygun geçiş olasılığını okuyabilirsiniz . İşte bunu yapmak için bazı kod örneği:n

#Create function to give n-step transition matrix for n = 1...N
#We will use the example of the substring of interest "AAAAAA"

#a is the probability of A
#t is the probability of T
#c is the probability of C
#g is the probability of G
#N is the last value of n
PROB <- function(N,a,t,c,g) { TOT <- a+t+c+g;
                              a <- a/TOT; 
                              t <- t/TOT; 
                              c <- c/TOT; 
                              g <- g/TOT; 

                              P <- matrix(c(1-a, a, 0, 0, 0, 0, 0,
                                            1-a, 0, a, 0, 0, 0, 0,
                                            1-a, 0, 0, a, 0, 0, 0,
                                            1-a, 0, 0, 0, a, 0, 0,
                                            1-a, 0, 0, 0, 0, a, 0,
                                            1-a, 0, 0, 0, 0, 0, a,
                                              0, 0, 0, 0, 0, 0, 1),
                                          nrow = 7, ncol = 7, 
                                          byrow = TRUE);
                              PPP <- array(0, dim = c(7,7,N));
                              PPP[,,1] <- P;
                              for (n in 2:N) { PPP[,,n] <- PPP[,,n-1] %*% P; } 
                              PPP }

#Calculate probability for N = 100 for equiprobable outcomes
N <- 100;
a <- 1/4;
t <- 1/4;
c <- 1/4;
g <- 1/4;
PROB(N,a,t,c,g)[1,7,N];

[1] 0.01732435

Bu hesaplamada da görebileceğiniz gibi, alt dize alma olasılığı içinde equiprobable sonuçlarla fırlatır olduğunu . Bu, belirli bir alt dizeyi ve belirli sayıda denemeyi kullanan sadece bir örnektir, ancak ilgilenilen diğer alt dizilere göre olasılıklar elde etmek için değiştirilebilir.AAAAAAn=1000.01732435

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.