Temelde tamsayıların uzun bir listesi (birkaç milyon değer) olan bazı genomik kapsama verilerini inceliyorum, her biri genomdaki bu pozisyonun ne kadar iyi (veya "derin") olduğunu söylüyor.
Bu verilerde "vadileri", yani çevrelerinden önemli ölçüde "daha düşük" bölgeleri aramak istiyorum.
Aradığım vadilerin büyüklüğünün 50 baz ile birkaç bin arasında değişebileceğini unutmayın.
Bu vadileri bulmak için ne tür paradigmalar kullanmanızı önerirsiniz?
GÜNCELLEME
Veriler için bazı grafik örnekler:
GÜNCELLEME 2
Vadinin ne olduğunu tanımlamak elbette uğraştığım sorulardan biri. Bunlar benim için bariz olanlar:
ama daha karmaşık durumlar var. Genel olarak, dikkate aldığım 3 kriter vardır: 1. Küresel ortalamaya göre pencerede (ortalama? Maksimum?) Kapsam. 2. Yakın çevresine göre penceredeki (...) kapsama alanı. 3. Pencere ne kadar büyük: Kısa bir açıklık için çok düşük kapsama alanı görüyorsam ilginçtir, uzun bir açıklık için çok düşük kapsama alanı görürsem de ilginçtir, kısa bir açıklık için hafifçe düşük kapsama alanı görürsem gerçekten ilginç değildir , ama uzun bir açıklık için hafif düşük kapsama alanı görürsem - bu .. Yani, bu, sapın uzunluğunun ve kapsama alanının bir kombinasyonudur. Ne kadar uzun olursa, kapsama alanının o kadar yüksek olmasına izin veriyorum ve hala bir vadi olarak görüyorum.
Teşekkürler,
Dave