İstatistikler ve Büyük Veri genetics

6

Makine öğrenmesinde çapraz doğrulama yapılırken “son” model için özellik seçimi

Özellik seçimi ve makine öğrenmesi konusunda kafam biraz karıştı ve bana yardım edip edemeyeceğinizi merak ediyordum. İki gruba ayrılan ve 1000’lik özelliklere sahip bir mikro dizi veri setine sahibim. Amacım, teorik olarak bu örnekleri en iyi şekilde sınıflandırmak için diğer veri setlerine uygulayabileceğim bir imzayla az sayıda gen (özelliklerim) (10-20) …

76 machine-learning classification cross-validation feature-selection genetics

6

1300 yılında doğmuş belirli bir kişiden gelme ihtimalim ne kadar?

Başka bir deyişle, aşağıdakilere dayanarak, p nedir? Bunu, antropoloji veya sosyal bilimler yerine bir matematik problemi yapmak ve problemi basitleştirmek için, eşlerin asla eşler arasında eşleşme olasılığı olmadığını, kardeşlerin ve ilk kuzenlerin asla eşleşmediğini ve eşlerin daima aynı şeyden seçildiğini varsayalım. nesil. n1n1n_1 - ilk nüfus ggg - sayı nesiller. …

26 probability stochastic-processes genetics

4

Testlerin bağıntılı olduğu çoklu testler için p değerlerinin düzeltilmesi (genetik)

Pek çok testten p değerlerine sahibim ve çoklu test için düzeltmelerden sonra gerçekten önemli bir şeyin olup olmadığını bilmek istiyorum. Komplikasyon: Testlerim bağımsız değil. Düşündüğüm yöntem (Fisher'in Ürün Metodunun bir çeşidi, Zaykin ve diğerleri, Genet Epidemiol , 2002), p değerleri arasındaki korelasyona ihtiyaç duyuyor. Bu korelasyonu tahmin etmek için şu …

24 correlation multiple-comparisons statistical-significance genetics

4

Uç durumlarda hassaslık ve geri çağırma için doğru değerler nelerdir?

Hassasiyet şu şekilde tanımlanır: p = true positives / (true positives + false positives) Gibi, bu doğru mu true positivesve false positiveshassas 1 yaklaşır yaklaşım 0? Hatırlama için aynı soru: r = true positives / (true positives + false negatives) Şu anda bu değerleri hesaplamam gereken bir istatistiksel test uyguluyorum …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

1

Genom çapında birliktelik çalışmalarında temel bileşenler nelerdir?

Gelen genom bağlantı çalışmaları (GWAS): Temel bileşenler nelerdir? Neden kullanılıyorlar? Nasıl hesaplanıyorlar? PCA kullanılmadan genom çapında bir ilişki çalışması yapılabilir mi?

20 pca genetics gwas

1

Kantil normalizasyonu nasıl çalışır?

Mikrodizilerin kullanıldığı gen ekspresyon çalışmalarında, yoğunluk verilerinin normalleştirilmesi gerekir, böylece şiddetler bireyler arasında, genler arasında karşılaştırılabilir. Kavramsal ve algoritmik olarak, "kantil normalleşme" nasıl çalışır ve bunu istatistikçi olmayan bir kişiye nasıl açıklarsınız?

15 genetics normalization microarray

2

Bir RNA sekansı ve bir ChIP çip veri seti arasındaki gen listesi çakışmasının olasılığının hesaplanması

Umarım bu forumlardaki biri gen ekspresyon çalışmalarındaki bu temel problemde bana yardımcı olabilir. Deneysel ve kontrol dokusunun derin dizilimini yaptım. Daha sonra kontrol üzerindeki deney numunesinde genlerin kat zenginleştirme değerlerini elde ettim. Referans genomun ~ 15.000 geni vardır. İlgilenen numunemde 15.000 genin 3.000'i kontrole kıyasla belirli bir kesimin üzerinde zenginleştirildi. …

13 r genetics bioinformatics microarray biostatistics

2

Gen çoğaltma seviyesine göre zenginleştirme analizi

Biyolojik Arkaplan Zamanla, bazı bitki türleri tüm genomlarını çoğaltarak her genin ek bir kopyasını kazanma eğilimindedir. Bu düzeneğin dengesizliği nedeniyle, bu genlerin çoğu silinir ve genom tekrar çoğaltılmaya hazır olarak yeniden düzenlenir ve stabilize edilir. Bu çoğaltma olayları, türleşme ve istila olaylarıyla ilişkilidir ve teori, çoğaltmanın bitkilerin yeni ortamlarına daha …

11 generalized-linear-model contingency-tables fishers-exact genetics bioinformatics

1

Hayatta kalma analizi için güç analizi

Bir gen imzasının daha düşük tekrarlama riski olan bireyleri tanımlayacağını varsayarsam, bu popülasyonun% 20'sindeki olay oranını 0,5 (tehlike oranı 0,5) azaltır ve retrospektif bir kohort çalışmasından örnekler kullanmayı planlıyorum. iki hipotez grubundaki eşit olmayan sayılar için örnek boyutunun ayarlanması gerekir mi? Örneğin Collett, D: Tıbbi Araştırmalarda Hayatta Kalma Verilerini Modelleme, …

11 survival power-analysis genetics

3

Neden bir genetik birliktelik çalışmasında yaş karesi eş değişken olarak kullanılır?

Neden bir genetik birliktelik çalışmasında yaş ve yaş karesi eş değişken olarak kullanılır? Önemli bir eş değişken olarak tanımlandıysa yaş kullanımını anlayabilirim, ancak yaş karesi kullanımı konusunda kayıp yaşıyorum.

11 multiple-regression polynomial predictor bioinformatics genetics

2

Yumuşak eşikleme ile Kement cezalandırması

Şimdiye kadar yüksek boyutlu veri kümeleriyle cezalandırılmış çok değişkenli analizde anladığımı özetlemeye çalışıyorum ve hala yumuşak eşikleme ile Kement (veya ) doğru bir tanımını elde mücadele ediyorum .L1L1L_1 Daha kesin olarak, genomik veriler ( tek nükleotid polimorfizmleri dahil olmak üzere 2 bloklu veri yapısını analiz etmek için seyrek PLS regresyonunu …

11 multivariate-analysis lasso feature-selection genetics

3

PCA üzerinden Mahalanobis mesafesi

Benim bir n×pn×pn\times p matris, nerede ppp gen sayısı ve nnnhasta sayısıdır. Bu tür verilerle çalışan herkes şunu bilir:ppp her zamankinden daha büyük nnn. Özellik seçimini kullanarak aldımppp ancak daha makul bir sayıya ppp hala daha büyük nnn. Hastaların genetik profillerine dayanarak benzerliklerini hesaplamak istiyorum; Öklid mesafesini kullanabilirim, ancak Mahalanobis …

10 correlation pca genetics covariance distance-functions

1

Oran Oranlarının Standart Hatası nasıl hesaplanır?

Genom çapında ilişki çalışmalarından iki veri setim var. Mevcut tek bilgi ilk veri seti için olasılık oranı ve p değeridir. İkinci veri seti için, Oran Oranı, p değeri ve alel frekansları (AFD = hastalık, AFC = kontroller) var (örn: 0.321). Bu verilerin bir meta-analiz yapmaya çalışıyorum ama bunu gerçekleştirmek için …

10 meta-analysis genetics

1

Çocuklar bir GWAS veri setinin PCA projeksiyonunda ebeveynlerini bir araya getirmeyi nasıl başarırlar?

10.000 boyutlu bir alanda 20 rastgele nokta alın. N-( 0 , 1 )N-(0,1)\mathcal N(0,1). Onları 10 çifte ("çiftler") ayırın ve veri kümesine her çiftin ("bir çocuk") ortalamasını ekleyin. Sonra elde edilen 30 noktada PCA yapın ve PC1'e PC2'yi çizin. Dikkat çekici bir şey olur: her "aile" birbirine yakın noktalardan oluşan …

9 pca python high-dimensional genetics gwas

4

Meta-analizde toplanan tek oranlar için güven aralıkları nasıl hesaplanır?

Genom çapında ilişki çalışmalarından iki veri setim var. Mevcut tek bilgi, her genotipli SNP için tek oranlar ve bunların güven aralıklarıdır (% 95). Bu iki olasılık oranını karşılaştıran bir orman grafiği oluşturmak istiyorum, ancak özet efektleri görselleştirmek için birleşik güven aralıklarını hesaplamanın yolunu bulamıyorum. PLINK programını sabit efektler kullanarak meta-analiz …

9 confidence-interval meta-analysis genetics odds-ratio

«genetics» etiketlenmiş sorular