Gen çoğaltma seviyesine göre zenginleştirme analizi

11

Biyolojik Arkaplan

Zamanla, bazı bitki türleri tüm genomlarını çoğaltarak her genin ek bir kopyasını kazanma eğilimindedir. Bu düzeneğin dengesizliği nedeniyle, bu genlerin çoğu silinir ve genom tekrar çoğaltılmaya hazır olarak yeniden düzenlenir ve stabilize edilir. Bu çoğaltma olayları, türleşme ve istila olaylarıyla ilişkilidir ve teori, çoğaltmanın bitkilerin yeni ortamlarına daha hızlı uyum sağlamasına yardımcı olmasıdır.

Çiçekli bitki cinsi Lupinus, tespit edilen en hızlı türleşme olaylarından birinde Andes'i işgal etti ve dahası, genomunda en yakın ilişkili cins olan Baptisia'dan daha fazla kopyaya sahip gibi görünüyor.

Ve şimdi matematiksel problem:

Bir Lupinus ve Baptisia üyesinin genomları dizildi ve her bir türde yaklaşık 25.000 gen ham veri sağladı. Bilinen işlevi olan genlerin bir veritabanına karşı sorgulayarak, şimdi genin hangi işlevleri yerine getirebileceğine dair "en iyi tahminde" var - bu nedenle, örneğin, Gene1298 "fruktoz metabolizması, tuz stres yanıtı, soğuk stres yanıtı" ile ilişkili olabilir. Baptisia ve Lupinus arasında bir çoğaltma olayı olup olmadığını, gen kaybının rastgele gerçekleşip gerçekleşmediğini veya belirli işlevleri yerine getiren genlerin tutulma veya silinme olasılığının daha yüksek olup olmadığını bilmek istiyorum.

Aşağıda gösterilen gibi bir tablo çıktı bir komut dosyası var. L *, fonksiyonla ilişkili tüm Lupinus genlerinin sayısıdır. L 1+, en az bir kopya kopyanın bulunduğu fonksiyonla ilişkili lupinus genlerinin sayısıdır. L 1+, sıralama işlemi nedeniyle L 2 + 'dan çok daha güvenilir bir grup olmasına rağmen L 2+, L 3+ vb.

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

Yapmak istediğim, her gen fonksiyonu için, sadece Lupinus ve Baptisia'da şans eseri beklenenden daha fazla veya daha az gen olup olmadığını ve Lupinus'un Baptisia'dan gözlemlenen ile beklenen oran arasında farklılık gösterip göstermediğini test etmektir.

Şimdiye kadar sahip olduğum en iyi şey

Farklı türler üzerinde yapılan önceki çalışmalar, her bir satırda bir acil durum testi yapmak için Fisher'in Tam Testi ve çoklu örnekleme için FDR düzeltmesi ile Zenginleştirme Analizini kullanmıştır.

Bunu geliştirmek güzel olurdu; Bunun en iyi yolu gibi geldiğinden emin değilim.

Glen_b, verileri analiz etmek için bir GLM kullanılmasını önerdi; JMP8'de ilginç olan GLM'lerle oynadım, ancak onları gerçekten anlamadığımı kabul edeceğim.

Bununla birlikte, şimdi R'yi kullanmaya çalışıyorum dedi.

Bunu ne için kullanıyorum?

Bunun aslında üniversitede yaptığım kısa bir araştırma projesinin parçası olması gerekiyordu, ancak şimdi muazzam bir genom ek açıklama projesine dönüştü. Neden? Çünkü biyoinformatik iyidir. Bir dizi A, T, C ve G'yi alıp milyonlarca yıl önce meydana gelen olaylar hakkında bilgi çıkarmak için kullanmak inanılmaz.

Söylemeye gerek yok, kendi çalışmalarım olarak herhangi bir nazikçe cevap vermeye çalışmayacağım. Sunulan çalışmada burada önerilen bir yöntemi kullanırsam makaleye bir bildirim eklemekten memnuniyet duyarım.

— TDN169
kaynak

1

Diğer sorunuza daha önceki cevabımda bahsettiğim soruna dikkat edin - başka önemli değişkenler olduğunda sadece bir değişkene karşı test etme hakkında (Simpson'ın Paradoksundaki wikipedia makalesine işaret ettim) - Fisher'ın kesin testi bu sorunu çözmez.

— Glen_b-Monica'yı

Biyoinformatik olan serin !! Siteye Hoşgeldiniz!

— Kyle.

Geri döneceğim ve yakında daha kapsamlı cevaplar vereceğim, ancak R'deki uygun işlevler loglin, loglm (R ile birlikte gelen, ancak varsayılan olarak yüklenmeyen MASS paketinde) ve glm olacak. Bu modellerin anlaşılması çoklu regresyon ve ANOVA anlamanın benzerlik çok olacak - dağılımlar, normal olmadığını istisnalar dışında, ve günlükleri-of-the araçlarının modelleri lineer ne olduğunu.

— Glen_b -Reinstate Monica

1

Fisher'in testinin (veya benzer bir şeyin) buradaki en doğal yaklaşım olabileceğini kabul etsem de, buna ne dersiniz:

Her benzersiz gen için, L ve B'deki kopya sayısı arasındaki farkı belirlersiniz
Genleri bu farkla sıralayın. Şimdi türler arasında en fazla farkı gösteren genler listenizde en üstte olacak.
Sıralı gen listesine bir gen seti zenginleştirme testi uygulayın. Örneğin, benim paket tmod'umdan gen setlerinizi tanımlamanız gereken modifiye bir Fisher yöntemi kullanabilirsiniz (oldukça basit olmalıdır). Fisher'in yönteminin Fisher testi ile ilişkili olmadığını unutmayın .

(Yazarlar tarafından Cerno lakaplı modifiye Fisher testi ilk niteleyen bu bağlamda) alır herhangi bazı yararlı kategorilerde onları Gruba can sürece, girdi olarak genlerin sıralı liste.

Bu yaklaşımın avantajı, bir p değerinden ayrı olarak, zenginleştirmenin etki boyutunu kolayca hesaplayabilmeniz ve görselleştirebilmenizdir (örneğin, sıralı genler listesi üzerinde bir ROC eğrisi olarak). Bu, gözlemlediğiniz şeyin çalıştığınız biyoloji için gerçekten ne kadar önemli olduğunu size daha iyi bir fikir verir.

— Ocak
kaynak

0

Dediğiniz gibi, iki ayrı soru soruyorsunuz.

Soru 1 "belirli bir gen fonksiyonu için L * / L1 + oranı B * / B1 + 'dan farklıdır"

bu en iyi, daha önce bulduğunuz gibi satır boyunca verileri kullanarak Fisher'ın kesin testiyle cevaplanabilir.

Soru 2 "oran: tek bir kopyanın olduğu genler / birden fazla kopyanın olduğu genler, gen fonksiyonları arasında farklı mı?"

Bunun en iyi Fisher'in kesin testi ile de yanıtlanabileceğini düşünüyorum. Gen fonksiyonu 1 için L * / L1 + oranının gen fonksiyonu 2 için L * / L1 + 'ya karşı test edersiniz. Daha sonra gen fonksiyonu 1 Vs gen fonksiyonu 3, vb.

Bu soru kümelerinin hiçbiri, yalnızca şans eseri beklenenden daha hızlı tutulup tutulmadığı / silinmediği, yalnızca birbirlerinden farklı oranlarda silinip silinmediği / tutulmadığı konusuna gelmez. Bunların şans eserinden farklı bir hızda silinip silinmediklerini / korunup korunmadıklarını bilmek için, sadece şans eseri etkilenen birçok DNA bölgesi için tek kopya / çoklu kopya oranını bilmeniz gerekir. Bu bölgeleri bulabilirseniz, işlev "Yok" olan bir "İşlev grubu" ile sonuçlanırsınız. Daha sonra bunu 2. soruda tarif ettiğim gibi diğer gen fonksiyon gruplarınızla karşılaştırırsınız.

— Phil A
kaynak