İstatistikler ve Büyük Veri

İstatistik, makine öğrenmesi, veri analizi, veri madenciliği ve veri görselleştirmesi ile ilgilenen kişiler için soru cevap


1
Özellik seçimi ve Metilasyon verilerinde glmnet bulunan model (p >> N)
İlgili özellikleri seçmek ve doğrusal bir regresyon modeli oluşturmak için GLM ve Elastic Net'i kullanmak isterim (yani, hem öngörme hem de anlama, bu nedenle göreceli olarak az sayıda parametreyle bırakılmak daha iyi olur). Çıkış süreklidir. Bu var başına genler 50 olguda. Paket hakkında okuyordum , ancak uygulanacak adımlar konusunda% 100 …

2
Saf Bayes ve multinomial saf Bayes arasındaki fark
Daha önce Naive Bayes sınıflandırıcı ile çalıştım . Son zamanlarda Multinomial Naive Bayes hakkında okudum . Ayrıca Posterior Olasılık = (Önceki * Olabilirlik) / (Kanıt) . Naive Bayes ve Multinomial Naive Bayes arasında bulduğum tek önemli fark (bu sınıflandırıcıları programlarken) Multinominal Naif Bayes olasılık olarak hesaplar bir kelime / jeton …

4
Kaydedilen hatalardaki bir ani artışı algoritmik olarak tanımlamanın basit yolu
Erken bir uyarı sistemine ihtiyacımız var. Yük altında performans sorunları olduğu bilinen bir sunucuyla uğraşıyorum. Hatalar bir zaman damgasıyla birlikte bir veritabanına kaydedilir. Sunucu yükünü azaltmak için atılabilecek bazı manuel müdahale adımları vardır, ancak yalnızca sorundan haberi varsa ... Hataların oluştuğu bir dizi zaman göz önüne alındığında, hatalardaki bir ani …

1
İstatistiksel bir model ile bir olasılık modeli arasındaki farklar?
Uygulamalı olasılık, hesaplama olasılığı dahil, olasılıkta önemli bir daldır. İstatistikler verilerle başa çıkmak için modeller oluşturmak için olasılık teorisi kullandığından, benim anladığım kadarıyla istatistiksel model ile olasılık modeli arasındaki temel farkın ne olduğunu merak ediyorum. Olasılık modelinin gerçek verilere ihtiyacı yok mu? Teşekkürler.

3
Lojistik regresyonda basit tahminlerin odds oranlarına yorumlanması
Lojistik regresyon kullanmaya biraz yeni geldim ve biraz da aynı olacağını düşündüğüm aşağıdaki değerleri yorumlamam arasındaki tutarsızlıkla karıştırdım: üstelleştirilmiş beta değerleri Beta değerleri kullanılarak sonucun tahmini olasılığı. Beslenme ve sigortanın hem ikili hem de servetin sürekli olduğu, kullandığım modelin basitleştirilmiş bir versiyonu: Under.Nutrition ~ insurance + wealth (Gerçek) modelim, sigorta …

3
Poisson dağılımının normal dağılımdan farkı nedir?
Aşağıdaki gibi Poisson dağılımına sahip bir vektör oluşturdum: x = rpois(1000,10) Kullanarak bir histogram yaparsam hist(x), dağıtım bilinen bir çan şeklindeki normal dağılıma benziyor. Bununla birlikte, Kolmogorov-Smirnoff testi kullanılarak ks.test(x, 'pnorm',10,3)yapılan bir test , dağılımın çok küçük bir pdeğere bağlı olarak normal dağılımdan önemli ölçüde farklı olduğunu söylüyor . Öyleyse …

2
R cinsinden Geçiş Matrisini (Markov) hesaplayın
Markov Zincirinin geçiş matrisini bir dizi gözlemden hesaplamak için R'de (yerleşik bir işlev) bir yol var mı? Örneğin, aşağıdaki gibi bir veri seti almak ve birinci mertebe geçiş matrisini hesaplamak? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))
29 r  markov-process 

1
Korelasyonlu matrisin SVD'si ilave olmalı, fakat görünmüyor
Sadece , Gen İfade Verilerinden İlişkili Biclusters Bulma adlı aşağıdaki makalede yapılan bir talebi kopyalamaya çalışıyorum : Önerme 4. Eğer . o zaman biz var:XIJ=RICTJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} ben. Eğer ek model ile mükemmel bir bicluster ise, sütunlar üzerinde korelasyon ile mükemmel bir bicluster; ii. Eğer ilave model ile mükemmel bir bicluster ise, …

3
İki veya daha fazla regresyon modelindeki eğimleri karşılaştırmak için hangi testi kullanabilirim?
İki değişkenin cevabını bir tahminciye cevap olarak test etmek istiyorum. İşte minimal bir çoğaltılabilir örnek. library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, …

6
Shapiro-Wilk testinin yorumlanması
İstatistikler konusunda oldukça yeniyim ve yardımınıza ihtiyacım var. Aşağıdaki gibi küçük bir örnek var: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 Shapiro-Wilk testini R kullanarak yaptım. shapiro.test(precisionH4U$H4U) ve şu sonucu aldım: W = 0.9502, p-value = 0.6921 Şimdi, anlamlılık seviyesini p 'de 0,05 değerinden daha yüksek olduğunu …


3
İyi bir Gibbs örnekleme dersi ve referansları
Gibbs Sampling'in nasıl çalıştığını öğrenmek istiyorum ve ara ödev için iyi bir temel arıyorum. Bilgisayar bilimi geçmişim ve temel istatistik bilgim var. Etrafında iyi bir şeyler okuyan var mı? nereden öğrendin? Teşekkürler
29 references  gibbs 


2
Bir ARIMAX modelinin düzenlenmesi veya cezalandırılmasıyla takılması (örneğin, kement, elastik ağ veya sırt regresyonuyla)
Kullandığım auto.arima () işlevi tahmini kovaryatların çeşitli ARMAX modellerini uyması için paketin. Bununla birlikte, sıklıkla seçim yapabileceğim çok sayıda değişkenim var ve bunlar genellikle bir alt kümesiyle çalışan son bir modelle sonuçlanır. Değişken seçim için geçici teknikleri sevmiyorum, çünkü ben insanım ve önyargılıyım, ancak zaman aşımına uğrayan zaman serileri zor …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.