Gelen genom bağlantı çalışmaları (GWAS):
- Temel bileşenler nelerdir?
- Neden kullanılıyorlar?
- Nasıl hesaplanıyorlar?
- PCA kullanılmadan genom çapında bir ilişki çalışması yapılabilir mi?
Gelen genom bağlantı çalışmaları (GWAS):
Yanıtlar:
Bu özel bağlamda, PCA esas olarak, incelenmekte olan SNP'lerde (veya sadece SNP vakasına aşina olduğum halde diğer DNA belirteçlerinde) aleller dağılımındaki popülasyona özgü varyasyonları açıklamak için kullanılır. Bu tür "nüfus altyapısı" temel olarak genetik olarak uzak soylarda (örn. Japon ve siyah-afrika veya avrupa-amerikan) küçük alellerin değişen frekanslarının bir sonucu olarak ortaya çıkar. Genel fikir Nüfus Yapısı ve Özanalizde Patterson ve ark. ( PLoS Genetics 2006, 2 (12)) veya Lancet'in genetik epidemiyoloji konusundaki özel sayısı (2005, 366; makalelerin çoğu web üzerinde bulunabilir, Cordell & Clayton, Genetic Association Studies ile başlamaktadır. ).
Ana eksenlerin inşası, gözlemlenen genotiplerin (AA, AB, BB; B'nin her durumda minör alel olduğu) ölçeklendirilmiş matrisine (SNP'ler tarafından bireyler) uygulanan PCA'ya klasik yaklaşımdan kaynaklanmaktadır. popülasyon kaymasını hesaba katmak için ek bir normalizasyon uygulanabilir. Her şey, minör alelin frekansının ({0,1,2} cinsinden değer alarak) sayısal olarak kabul edilebileceğini varsayar, yani bir katkı modeli (ayrıca alelik dozaj olarak da adlandırılır) veya anlamlı olabilecek herhangi bir eşdeğer olan altında çalışırız. . Ardışık dikey PC'ler maksimum varyansı açıklayacağından, bu, küçük alel frekans düzeyinde farklılık gösteren birey gruplarını vurgulamanın bir yolunu sunar. Bunun için kullanılan yazılım Eigenstrat olarak bilinir . Ayrıcaegscore()
işlevi GenABEL alınmalıdır . GenABEL.org ). Nüfus altyapısını tespit etmek için başka yöntemlerin, özellikle model tabanlı küme rekonstrüksiyonunun önerildiğini belirtmek gerekir (sondaki referanslara bakın). Hapmap projesine ve Bioconductor projesinden gelen mevcut eğiticiye göz atarak daha fazla bilgi bulabilirsiniz . (Vince J Carey veya David Clayton'un Google'daki güzel eğiticilerini arayın). R paketi (ayrıca bkz.
Kümelenme alt popülasyonlarının yanı sıra, bu yaklaşım iki durumda ortaya çıkabilecek aykırı değerleri tespit etmek için de kullanılabilir (AFAIK): (a) genotipleme hataları ve (b) homojen bir popülasyonla çalışırken (veya kendi kendine bildirilen etnik köken verildiği varsayılırsa) ), beklenmeyen genotip sergileyen bireyler. Bu durumda genellikle yapılan, PCA'yı yinelemeli bir şekilde uygulamak ve puanları aşağıda olan bireyleri kaldırmaktırİlk 20 ana eksenden en az birinde SD; bu, bir anlamda numuneyi "beyazlatmak" anlamına gelir. Genotip mesafesinin böyle bir ölçüsünün (PCA yerine Çok Boyutlu Ölçekleme kullanılırken de geçerlidir) akrabaların veya kardeşlerin tespit edilmesine izin vereceğini unutmayın. Plink yazılım bölümüne bakın ilave yöntemler sağlar Nüfus tabakalaşma on-line yardım.
Özanalizin bireyler düzeyinde bir yapının ortaya çıkmasına izin verdiğini göz önünde bulundurarak, bu bilgiyi belirli bir fenotipte (veya hastalık veya vaka kontrolü gibi ikili bir kritere göre tanımlanabilecek herhangi bir dağılımda) gözlemlenen varyasyonları açıklamaya çalışırken kullanabiliriz. durum). Özellikle, analizimizi bu bilgisayarlarla (yani, bireylerin faktör skorları), genom çapında ilişki çalışmalarında tabakalaşma için düzeltmelerde gösterildiği gibi Price et al. ( Nature Genetics 2006, 38 (8)) ve daha sonra yapılan çalışmalar (Avrupa'daki genetik çeşitliliğin eksenlerini gösteren güzel bir resim vardı. Genler ayna coğrafyasında ; Nature 2008; Şekil 1A aşağıda gösterilmiştir). Başka bir çözümün tabakalı bir analiz (bir GLM'ye etnik köken ekleyerek ) yapmak olduğunu unutmayın - bu, örneğin snpMatrix paketinde kolayca bulunabilir .
Referanslar