Genom çapında birliktelik çalışmalarında temel bileşenler nelerdir?


20

Gelen genom bağlantı çalışmaları (GWAS):

  1. Temel bileşenler nelerdir?
  2. Neden kullanılıyorlar?
  3. Nasıl hesaplanıyorlar?
  4. PCA kullanılmadan genom çapında bir ilişki çalışması yapılabilir mi?

1
Bu soruları sormadan önce, bu siteyi "PCA" için mi aradınız veya "PCA" etiketini mi keşfettiniz? Sorularınızın çoğu zaten orada yanıtlanmıştır.
whuber

1
@whuber Bence OP, PCA'nın belirli bir sonucu (sürekli fenotip veya vaka / kontrol çalışmaları) ve DNA markörlerini (SNP) modellerken popülasyon tabakalaşmasını hesaba katmanın ve ayarlamanın bir yolu olarak aradığını düşünüyorum. Burada bir referans verdim: stats.stackexchange.com/questions/1708/variation-in-pca-weights/… .
chl

1
GWAS kesinlikle ana bileşenler olmadan yapılabilir. Nüfus tabakalaşması olmadığında, tek ihtiyacınız olan binlerce testi veya binlerce ki kare testi. t
onestop

@onestop (+1) Kendi cevabımda bile düşünmediğim 2. soruyu cevapladığınızı düşüneceğim.
chl

@onestop, ya sadece cinsiyete / ırka göre tabakalaşırsa? Cevabınızı biraz açıklayabilir misiniz lütfen?
suprvisr

Yanıtlar:


27

Bu özel bağlamda, PCA esas olarak, incelenmekte olan SNP'lerde (veya sadece SNP vakasına aşina olduğum halde diğer DNA belirteçlerinde) aleller dağılımındaki popülasyona özgü varyasyonları açıklamak için kullanılır. Bu tür "nüfus altyapısı" temel olarak genetik olarak uzak soylarda (örn. Japon ve siyah-afrika veya avrupa-amerikan) küçük alellerin değişen frekanslarının bir sonucu olarak ortaya çıkar. Genel fikir Nüfus Yapısı ve Özanalizde Patterson ve ark. ( PLoS Genetics 2006, 2 (12)) veya Lancet'in genetik epidemiyoloji konusundaki özel sayısı (2005, 366; makalelerin çoğu web üzerinde bulunabilir, Cordell & Clayton, Genetic Association Studies ile başlamaktadır. ).

Ana eksenlerin inşası, gözlemlenen genotiplerin (AA, AB, BB; B'nin her durumda minör alel olduğu) ölçeklendirilmiş matrisine (SNP'ler tarafından bireyler) uygulanan PCA'ya klasik yaklaşımdan kaynaklanmaktadır. popülasyon kaymasını hesaba katmak için ek bir normalizasyon uygulanabilir. Her şey, minör alelin frekansının ({0,1,2} cinsinden değer alarak) sayısal olarak kabul edilebileceğini varsayar, yani bir katkı modeli (ayrıca alelik dozaj olarak da adlandırılır) veya anlamlı olabilecek herhangi bir eşdeğer olan altında çalışırız. . Ardışık dikey PC'ler maksimum varyansı açıklayacağından, bu, küçük alel frekans düzeyinde farklılık gösteren birey gruplarını vurgulamanın bir yolunu sunar. Bunun için kullanılan yazılım Eigenstrat olarak bilinir . Ayrıcaegscore()işlevi GenABEL alınmalıdır . GenABEL.org ). Nüfus altyapısını tespit etmek için başka yöntemlerin, özellikle model tabanlı küme rekonstrüksiyonunun önerildiğini belirtmek gerekir (sondaki referanslara bakın). Hapmap projesine ve Bioconductor projesinden gelen mevcut eğiticiye göz atarak daha fazla bilgi bulabilirsiniz . (Vince J Carey veya David Clayton'un Google'daki güzel eğiticilerini arayın). R paketi (ayrıca bkz.

Kümelenme alt popülasyonlarının yanı sıra, bu yaklaşım iki durumda ortaya çıkabilecek aykırı değerleri tespit etmek için de kullanılabilir (AFAIK): (a) genotipleme hataları ve (b) homojen bir popülasyonla çalışırken (veya kendi kendine bildirilen etnik köken verildiği varsayılırsa) ), beklenmeyen genotip sergileyen bireyler. Bu durumda genellikle yapılan, PCA'yı yinelemeli bir şekilde uygulamak ve puanları aşağıda olan bireyleri kaldırmaktır±6İlk 20 ana eksenden en az birinde SD; bu, bir anlamda numuneyi "beyazlatmak" anlamına gelir. Genotip mesafesinin böyle bir ölçüsünün (PCA yerine Çok Boyutlu Ölçekleme kullanılırken de geçerlidir) akrabaların veya kardeşlerin tespit edilmesine izin vereceğini unutmayın. Plink yazılım bölümüne bakın ilave yöntemler sağlar Nüfus tabakalaşma on-line yardım.

Özanalizin bireyler düzeyinde bir yapının ortaya çıkmasına izin verdiğini göz önünde bulundurarak, bu bilgiyi belirli bir fenotipte (veya hastalık veya vaka kontrolü gibi ikili bir kritere göre tanımlanabilecek herhangi bir dağılımda) gözlemlenen varyasyonları açıklamaya çalışırken kullanabiliriz. durum). Özellikle, analizimizi bu bilgisayarlarla (yani, bireylerin faktör skorları), genom çapında ilişki çalışmalarında tabakalaşma için düzeltmelerde gösterildiği gibi Price et al. ( Nature Genetics 2006, 38 (8)) ve daha sonra yapılan çalışmalar (Avrupa'daki genetik çeşitliliğin eksenlerini gösteren güzel bir resim vardı. Genler ayna coğrafyasında ; Nature 2008; Şekil 1A aşağıda gösterilmiştir). Başka bir çözümün tabakalı bir analiz (bir GLM'ye etnik köken ekleyerek ) yapmak olduğunu unutmayın - bu, örneğin snpMatrix paketinde kolayca bulunabilir .

genler avrupa'daki coğrafyayı yansıtıyor

Referanslar

  1. Daniel Falush, Matthew Stephens ve Jonathan K Pritchard (2003). Multilocus genotip verileri kullanarak popülasyon yapısının çıkarılması: bağlantılı lokuslar ve ilişkili alel frekansları .Genetik , 164 (4): 1567-1587.
  2. B Devlin ve K Roeder (1999). İlişkilendirme çalışmaları için genomik kontrol .Biyometri , 55 (4): 997-1004.
  3. JK Pritchard, M Stephens ve P Donnelly (2000). Multilocus genotip verileri kullanarak popülasyon yapısının çıkarılması .Genetik , 155 (2): 945-959.
  4. Gang Zheng, Boris Freidlin, Zhaohai Li ve Joseph L Gastwirth (2005). Çeşitli genetik modeller altında ilişki çalışmaları için genomik kontrol . Biyometri , 61 (1): 186–92.
  5. Chao Tian, ​​Peter K. Gregersen ve Michael F. Seldin1 (2008). Soyun muhasebesi: nüfus altyapısı ve genom çapında ilişki çalışmaları . İnsan Moleküler Genetiği , 17 (R2): R143-R150.
  6. Kai Yu, Genom Geneli Birlik Çalışmalarında Nüfus Altyapısı ve Kontrol Seçimi .
  7. Alkes L. Price, Noah A. Zaitlen, David Reich ve Nick Patterson (2010). Genom çapında birliktelik çalışmalarında popülasyon tabakalaşmasına yeni yaklaşımlar , Nature Reviews Genetics
  8. Chao Tian ve diğ. (2009). Avrupa Nüfusu Genetik Altyapısı: Çeşitli Avrupa Etnik Gruplarını Ayırt Etmek İçin Ataların Bilgilendirici İşaretlerinin Daha Fazla Tanımı , Moleküler Tıp, 15 (11-12): 371-383.

Çok teşekkür ederim. O halde doğal olarak daha fazla soru geliyor: 1) PCA'yı görmezden gelir ve GWAS örneğimi yalnızca GENDER / RACE / AGE tarafından katmanlaştırır ve PCA'yı yoksayarsam ne olur? İlişkilendirme analizimi ve sonucunu nasıl yansıtacak? 2) Aslında PCA kullanmak istersem, en az doğru PCA'ya sahip olmak için kaç tane SNPS genotiplemem gerekir? 200 yeterli mi? Tüm kromozomlar üzerinde eşit olarak dağılmaları gerekiyor mu? 3) PCA'da hangi SNP'ler kullanılır? Bu önceden tanımlanmış küme mi yoksa herhangi bir set mi?
suprvisr

@suprvisr Orada cevap verebilir veya yanıtımı güncelleyebilirim, ancak yeni bir soru sormak ("PCA ile uyumlaşmaya karşı katmanlaşmanın artıları ve eksileri" fikri) ve buna bağlantı vermek daha iyi olduğunu düşünüyorum. gerekli bağlantıları açıkça yapabilir.
chl

@AndyFrost, şu referanslı rakamlara sahip olabileceğini önerdi: goo.gl/jNXx0x ve başvurabileceğiniz resim goo.gl/TcK3g8'de olabilir .
gung - Monica'yı eski

@chl Bununla ne demek istediğinizi açıklar mısınız? "Bu durumda genellikle yapılanlar, PCA'yı yinelemeli bir şekilde uygulamak ve ilk 20 anaparadan en az birinde skorları ± 6 ± 6 SD'nin altında olan bireyleri kaldırmaktır. eksenler". Buradaki yazımın
MAPK
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.