Biyolojik Arkaplan
Zamanla, bazı bitki türleri tüm genomlarını çoğaltarak her genin ek bir kopyasını kazanma eğilimindedir. Bu düzeneğin dengesizliği nedeniyle, bu genlerin çoğu silinir ve genom tekrar çoğaltılmaya hazır olarak yeniden düzenlenir ve stabilize edilir. Bu çoğaltma olayları, türleşme ve istila olaylarıyla ilişkilidir ve teori, çoğaltmanın bitkilerin yeni ortamlarına daha hızlı uyum sağlamasına yardımcı olmasıdır.
Çiçekli bitki cinsi Lupinus, tespit edilen en hızlı türleşme olaylarından birinde Andes'i işgal etti ve dahası, genomunda en yakın ilişkili cins olan Baptisia'dan daha fazla kopyaya sahip gibi görünüyor.
Ve şimdi matematiksel problem:
Bir Lupinus ve Baptisia üyesinin genomları dizildi ve her bir türde yaklaşık 25.000 gen ham veri sağladı. Bilinen işlevi olan genlerin bir veritabanına karşı sorgulayarak, şimdi genin hangi işlevleri yerine getirebileceğine dair "en iyi tahminde" var - bu nedenle, örneğin, Gene1298 "fruktoz metabolizması, tuz stres yanıtı, soğuk stres yanıtı" ile ilişkili olabilir. Baptisia ve Lupinus arasında bir çoğaltma olayı olup olmadığını, gen kaybının rastgele gerçekleşip gerçekleşmediğini veya belirli işlevleri yerine getiren genlerin tutulma veya silinme olasılığının daha yüksek olup olmadığını bilmek istiyorum.
Aşağıda gösterilen gibi bir tablo çıktı bir komut dosyası var. L *, fonksiyonla ilişkili tüm Lupinus genlerinin sayısıdır. L 1+, en az bir kopya kopyanın bulunduğu fonksiyonla ilişkili lupinus genlerinin sayısıdır. L 1+, sıralama işlemi nedeniyle L 2 + 'dan çok daha güvenilir bir grup olmasına rağmen L 2+, L 3+ vb.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Yapmak istediğim, her gen fonksiyonu için, sadece Lupinus ve Baptisia'da şans eseri beklenenden daha fazla veya daha az gen olup olmadığını ve Lupinus'un Baptisia'dan gözlemlenen ile beklenen oran arasında farklılık gösterip göstermediğini test etmektir.
Şimdiye kadar sahip olduğum en iyi şey
Farklı türler üzerinde yapılan önceki çalışmalar, her bir satırda bir acil durum testi yapmak için Fisher'in Tam Testi ve çoklu örnekleme için FDR düzeltmesi ile Zenginleştirme Analizini kullanmıştır.
Bunu geliştirmek güzel olurdu; Bunun en iyi yolu gibi geldiğinden emin değilim.
Glen_b, verileri analiz etmek için bir GLM kullanılmasını önerdi; JMP8'de ilginç olan GLM'lerle oynadım, ancak onları gerçekten anlamadığımı kabul edeceğim.
Bununla birlikte, şimdi R'yi kullanmaya çalışıyorum dedi.
Bunu ne için kullanıyorum?
Bunun aslında üniversitede yaptığım kısa bir araştırma projesinin parçası olması gerekiyordu, ancak şimdi muazzam bir genom ek açıklama projesine dönüştü. Neden? Çünkü biyoinformatik iyidir. Bir dizi A, T, C ve G'yi alıp milyonlarca yıl önce meydana gelen olaylar hakkında bilgi çıkarmak için kullanmak inanılmaz.
Söylemeye gerek yok, kendi çalışmalarım olarak herhangi bir nazikçe cevap vermeye çalışmayacağım. Sunulan çalışmada burada önerilen bir yöntemi kullanırsam makaleye bir bildirim eklemekten memnuniyet duyarım.