Özellik seçimi için medyan cila kullanımı


9

Son zamanlarda okuduğum bir makalede veri analizi bölümünde şu bitle karşılaştım:

Veri tablosu daha sonra dokulara ve hücre çizgilerine ayrıldı ve iki alt tablo, tek bir tablo haline getirilmeden önce ayrı olarak medyanla parlatıldı (satırlar ve sütunlar, medyan 0 olacak şekilde tekrar tekrar ayarlandı). Sonunda, test edilen örneklerin en az üçünde bu örnek setinde ekspresyonu medyandan en az 4 kat değişen genlerin alt kümesini seçtik

Burada akıl yürütmeyi gerçekten takip etmediğimi söylemeliyim. Aşağıdaki iki soruyu yanıtlamama yardım edip edemeyeceğinizi merak ediyordum:

  1. Veri kümelerindeki medyanı ayarlamak neden arzu edilir / yararlıdır? Farklı tip numuneler için neden ayrı ayrı yapılmalıdır?

  2. Bu deneysel verileri nasıl değiştirmez? Bu, büyük bir veri kümesinden bir dizi gen / değişken seçmenin bilinen bir yolu mu yoksa daha ziyade geçici mi?

Teşekkürler,


Ne tür verilere baktığınızı / ayrıntılarını inceleyebilir misiniz? Sanırım alıntıladığınız şeylere göre - bana göre - yargılama çok ad hoc görünüyor.
suncoolsu

@ suncoolsu: Eğer kavram hakkında bilginiz varsa, mikrodizi verisidir. Değilse, belki şöyle özetleyebilirim; hangi genlerin, çalışılan örneklerde ne ölçüde ifade edildiğini gösterir. İşte daha iyi bir açıklama: en.wikipedia.org/wiki/Gene_expression_profiling
posdef

@ suncoolsu Neredeyse kesinlikle Gen İfade Analizi verileri.
kriegar

Tamam - emin değilim, yeni nesil sıralama da popüler hale geliyor.
suncoolsu

Yanıtlar:


10

Tukey Median Polish, algoritma mikrodizilerin RMA normalizasyonunda kullanılır . Bildiğiniz gibi, mikrodizi verileri oldukça gürültülüdür, bu nedenle tüm problar ve mikrodiziler için gözlemleri dikkate alarak prob yoğunluklarını tahmin etmenin daha sağlam bir yoluna ihtiyaç duyarlar. Bu, diziler arasındaki probların yoğunluklarını normalleştirmek için kullanılan tipik bir modeldir.

Yij=μi+αj+ϵij
i=1,,Ij=1,,J

Burada , dizisindeki probu için dönüştürülmüş PM yoğunluğudur . arka plan gürültüsüdür ve normal doğrusal regresyondaki gürültüye karşılık geldiği varsayılabilir. Ancak, ilgili bir dağıtım varsayımı kısıtlayıcı olabilir, bu nedenle ve için tahminleri almak üzere Tukey Medyan Lehçe kullanırız . Bu, diziler arasında normalleşmenin sağlam bir yoludur, çünkü sinyali, probdan kaynaklanan yoğunluğu, dizi efektinden ayırmak istiyoruz, . dizi efekti için normalleştirerek sinyali elde edebilirizYijlogithjthϵijϵμi^αj^ααj^tüm diziler için. Böylece, sadece prob efektleri artı bazı rastgele gürültü ile bırakılır.

Daha önce sözünü ettiğim bağlantı, farklı olarak ifade edilen genleri veya "ilginç" genleri prob etkisine göre sıralayarak tahmin etmek için Tukey medyan cila kullanır. Ancak, kağıt oldukça eskidir ve muhtemelen o zaman insanlar hala mikrodizi verilerinin nasıl analiz edileceğini bulmaya çalışıyordu. Efron'un parametrik olmayan ampirik Bayesian yöntemleri makalesi 2001'de geldi, ancak muhtemelen yaygın olarak kullanılmamış olabilir.

Bununla birlikte, şimdi mikrodiziler hakkında çok fazla şey anlıyoruz (istatistiksel olarak) ve istatistiksel analizlerinden oldukça eminiz.

Mikroarray verileri oldukça gürültülüdür ve RMA (Median Polish kullanan) en popüler normalleştirme yöntemlerinden biridir, basitliği nedeniyle olabilir. Diğer popüler ve sofistike yöntemler şunlardır: GCRMA, VSN. Faiz dizi etkisi değil prob etkisi olduğu için normalleştirmek önemlidir .

Beklediğiniz gibi, analiz genler arasında bilgi borçlanmasından yararlanan bazı yöntemlerden faydalanmış olabilir. Bunlar, Bayes veya ampirik Bayes yöntemlerini içerebilir. Okuduğunuz kağıt eski olabilir ve bu teknikler o zamana kadar çıkmamıştı.

İkinci noktanızla ilgili olarak, evet muhtemelen deneysel verileri değiştiriyorlar. Ancak, bence, bu değişiklik daha iyi bir amaç için, bu nedenle haklı. Nedeni

a) Mikroarray verileri oldukça gürültülüdür. İlgi prob etkisi olduğunda, verileri RMA, GCRMA, VSN, vb. İle normalleştirmek gereklidir ve verilerdeki herhangi bir özel yapıdan faydalanmak iyi olabilir. Ama ikinci kısmı yapmaktan kaçınırdım. Bunun nedeni, yapıyı önceden bilmiyorsak, çok fazla varsayım dayatmamak daha iyidir.

b) Mikrodizi deneylerinin çoğu, doğası gereği keşifçidir, yani araştırmacılar, daha ileri analizler veya deneyler için birkaç "ilginç" gen grubunu daraltmaya çalışmaktadır. Bu genler güçlü bir sinyale sahipse, normalizasyonlar gibi modifikasyonların nihai sonuçları (büyük ölçüde) etkilememesi gerekir.

Bu nedenle, değişiklikler gerekçelendirilebilir. Ama şunu belirtmeliyim ki, normalleşmeleri aşmak yanlış sonuçlara yol açabilir.


+1 Bu benim denememden çok daha iyi bir cevap. Teşekkürler.
kriegar

@posdef. Makalenin istatistiksel analizinde yer alan bir istatistikçi olup olmadığını merak ediyorum.
suncoolsu

kapsamlı cevabınız için teşekkürler. Bunun bir ön işleme adımı olması, makalede iyi açıklanmamış (veya sadece iyi bilindiği varsayılmıştır). Bununla ilgili olarak, makale 2000'de (Doğa'da) yayınlanmıştır, bu yüzden yazıya dahil değilse, en azından bazı istatistikçilere yöntemlerine baktıklarını varsayıyorum. Ama tabii ki sadece spekülasyon yapabilirim .. :)
posdef

@posdef. Tamam, birçok soruya cevap verir. 2000, insanların hala mikrodizi verilerinin nasıl analiz edileceğini buldukları zamandı. FDR o zamanlar fantezi değildi :-)
suncoolsu

4

Sen sayfalarında 4. ve 5. bazı ipuçları bulabilir bu

Bu model, bayağı hesaplanması için bir yöntem olup değerlerini hesaplanarak , ve eğer ki tablo halinde , her satırın ve her sütunun ortancası 0'dır.

yi,j=m+ai+bj+ei,j
maibjei,j

Daha geleneksel bir yaklaşım için değerleri hesaplamak için miktarları , ve ortalama (veya toplam) her bir sıranın ve artıkların her sütun 0 olacak şekilde yapılmıştır.maibj

Ortanca kullanmanın avantajı az sayıda aykırı değerlere sağlamlıktır; dezavantajı, aykırı değerler yoksa potansiyel olarak yararlı bilgileri atmanızdır.


cevap ve referans bağlantısı için teşekkürler. Ancak bu modelin eldeki probleme nasıl uygulandığını göremiyorum. veri karşılaştırma ekspresyon değerleri olduğu göz önüne alındığında (okuma bolluk) nasıl tek bir tanımlayabilir , ve ?? aibjei,j
posdef

Bunun yerine gibi bir bolluk modeli veya o zaman esasen aynı şeyi yapabilirsiniz, böylece her satırın ve artıklar tablosunun her bir sütununun medyanı 0'a eşit olur.ni,j=niqj+ei,jlog(ni,j)=log(n)+log(pi)+log(qj)+ei,j
Henry

@Henry Hiçbir "aykırı değer" olmadığında (ve yine de "aykırı değer" ile tam olarak ne demek istiyorsun) medyan cila ile hangi bilgiler "atılır"? Sonuçta, verileri tam olarak medyan cilasının çıktısını oluşturan grand medyan, satır ve sütun medyanları ve artıklar aracılığıyla yeniden yapılandırabilirsiniz . Kalıntıların atıldığını kastediyorsanız, bu anlamda hangi anlamda "cila" (OLS'ye eşdeğer) farklıdır?
whuber

@whuber: Her iki durumda da artıklar tutulur. Ortalama cila, gözlemlerin merkezden ne kadar uzakta olduğunu (bir anlamda, artıkların ağırlıklarını dengeler) dikkate alırken, medyan cila sadece merkezin üstünde veya altında olup olmadığına bakar (bir anlamda, kalıntı sayısı). Bu yüzden medyan merkez olarak kullanıldığında ağırlık bilgisi kullanılmaz; önemli ağırlıkların / artıkların bazıları o kadar şüpheli olduğunda, merkezin sonucuna güvenilemeyeceği, ancak eğer değilse, bilginin kullanılmamasını gerektirdiği zaman bu iyi olabilir.
Henry

@Henry Tüm orijinal verileri lehçeden kurtarabilirseniz, "bilgi" nasıl kullanılmaz "? BTW, medyan cila tarif ettiğiniz gibi davranmaz: kalıntıları , verilerin sıralamasında değil, değerler arasındaki farklardır .
whuber

3

Görünüşe göre bazı gen diferansiyel ekspresyon analizi olan bir makale okuyorsunuz. Mikroarray çipleri ile ilgili bazı araştırmalar yaptıktan sonra, medyan cila kullanımı hakkında ne kadar az bilgim olduğunu (umarım doğru) paylaşabilirim.

Mikroarray ön işlemenin özetleme aşamasında medyan cilası kullanmak, sadece mükemmel eşleme prob çipleri (en azından RMA için) ile aykırı değerlerden kurtulmanın standart bir yoludur.

Mikroarray verileri için medyan cila, satırlarınız ve sütunlarınız olarak yonga efekti ve prob efektine sahip olduğunuz yerdir:

x cips üzerindeki her prob seti (aynı probun n sayısından oluşur) için:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

burada iv yoğunluk değerleridir

Prob yoğunluklarının değişkenliği nedeniyle, mikrodizi verilerinin hemen hemen tüm analizi, özetlemeden önce bir tür arka plan düzeltmesi ve normalleştirme kullanılarak önceden işlenir.

medyan lehçe ve diğer yöntemlerin kullanımı hakkında konuşan bioC posta listesi iş parçacıklarına bazı bağlantılar:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

Dokulardan ve hücre çizgilerinden elde edilen veriler genellikle ayrı ayrı analiz edilir çünkü hücreler kültürlendiğinde ekspresyon profilleri toplanan doku örneklerinden önemli ölçüde değişir. Daha fazla kâğıda sahip olmadan numunelerin ayrı ayrı işlenip işlenmediğini söylemek zor.

Analiz hattındaki normalizasyon, arka plan düzeltmesi ve özetleme adımlarının tümü deneysel verilerin modifikasyonlarıdır, ancak işlenmemiş durumunda, çip etkileri, toplu efektler, işleme efektleri analiz için herhangi bir sinyali gölgede bırakacaktır. Bu mikrodizi deneyleri, sonuçları doğrulamak için takip deneylerine (qPCR, vb.) Aday olan genlerin listelerini oluşturur.

Geçici olarak, bir genin farklı şekilde ifade edilmesi için hangi kat farkının gerekli olduğunu 5 kişiye sorun ve en az 3 farklı cevap bulacaksınız.


Cevabınızdaki güncellemeler için teşekkürler, sanırım şimdi bir fikir edinmeye başladım. Eğer doğru anlarsam, medyan parlatma prob ve çip ile ilgili teknik değişkenliği değerlendirmek için kullanılır? ... deney toplanmadan önce farklı koşullar altında genler için ekspresyon değerlerini tutan 1 matris?
posdef

@posdef anlayışımdan evet. Bir çip üzerindeki her prob seti (aynı sekansın probları) boyunca dağılmış problar vardır. cips bazı sahte görüntüler için plmimagegallery.bmbolstad.com . Tek bir yonga içindeki değişkenliğe ek olarak, yongalar arasında değişkenlik vardır. Teknik değişkenlik nedeniyle, prob seti için tek bir "ifade değeri" elde etmek için ham yoğunluk değerleri üzerinde algoritmalar çalıştırılır. Bu değerlerin matrisi daha sonra genlerin farklı koşullar altında farklı şekilde ifade edilip edilmediğini belirlemek için uygundur.
kriegar
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.