İstatistikler ve Büyük Veri

2

SVM ve Rastgele Orman için normalleştirme yapmak şart mı?

Benim özelliklerin 'her boyutu farklı değerlere sahip. Bu veri setini normalleştirmek için gerekli olup olmadığını bilmek istiyorum.

29 machine-learning svm random-forest normalization

1

Özellik seçimi ve Metilasyon verilerinde glmnet bulunan model (p >> N)

İlgili özellikleri seçmek ve doğrusal bir regresyon modeli oluşturmak için GLM ve Elastic Net'i kullanmak isterim (yani, hem öngörme hem de anlama, bu nedenle göreceli olarak az sayıda parametreyle bırakılmak daha iyi olur). Çıkış süreklidir. Bu var başına genler 50 olguda. Paket hakkında okuyordum , ancak uygulanacak adımlar konusunda% 100 …

29 r regularization glmnet elastic-net underdetermined

2

Saf Bayes ve multinomial saf Bayes arasındaki fark

Daha önce Naive Bayes sınıflandırıcı ile çalıştım . Son zamanlarda Multinomial Naive Bayes hakkında okudum . Ayrıca Posterior Olasılık = (Önceki * Olabilirlik) / (Kanıt) . Naive Bayes ve Multinomial Naive Bayes arasında bulduğum tek önemli fark (bu sınıflandırıcıları programlarken) Multinominal Naif Bayes olasılık olarak hesaplar bir kelime / jeton …

29 bayesian classification text-mining naive-bayes

4

Kaydedilen hatalardaki bir ani artışı algoritmik olarak tanımlamanın basit yolu

Erken bir uyarı sistemine ihtiyacımız var. Yük altında performans sorunları olduğu bilinen bir sunucuyla uğraşıyorum. Hatalar bir zaman damgasıyla birlikte bir veritabanına kaydedilir. Sunucu yükünü azaltmak için atılabilecek bazı manuel müdahale adımları vardır, ancak yalnızca sorundan haberi varsa ... Hataların oluştuğu bir dizi zaman göz önüne alındığında, hatalardaki bir ani …

29 time-series real-time

1

İstatistiksel bir model ile bir olasılık modeli arasındaki farklar?

Uygulamalı olasılık, hesaplama olasılığı dahil, olasılıkta önemli bir daldır. İstatistikler verilerle başa çıkmak için modeller oluşturmak için olasılık teorisi kullandığından, benim anladığım kadarıyla istatistiksel model ile olasılık modeli arasındaki temel farkın ne olduğunu merak ediyorum. Olasılık modelinin gerçek verilere ihtiyacı yok mu? Teşekkürler.

29 probability mathematical-statistics

3

Lojistik regresyonda basit tahminlerin odds oranlarına yorumlanması

Lojistik regresyon kullanmaya biraz yeni geldim ve biraz da aynı olacağını düşündüğüm aşağıdaki değerleri yorumlamam arasındaki tutarsızlıkla karıştırdım: üstelleştirilmiş beta değerleri Beta değerleri kullanılarak sonucun tahmini olasılığı. Beslenme ve sigortanın hem ikili hem de servetin sürekli olduğu, kullandığım modelin basitleştirilmiş bir versiyonu: Under.Nutrition ~ insurance + wealth (Gerçek) modelim, sigorta …

29 regression logistic interpretation prediction odds-ratio

3

Poisson dağılımının normal dağılımdan farkı nedir?

Aşağıdaki gibi Poisson dağılımına sahip bir vektör oluşturdum: x = rpois(1000,10) Kullanarak bir histogram yaparsam hist(x), dağıtım bilinen bir çan şeklindeki normal dağılıma benziyor. Bununla birlikte, Kolmogorov-Smirnoff testi kullanılarak ks.test(x, 'pnorm',10,3)yapılan bir test , dağılımın çok küçük bir pdeğere bağlı olarak normal dağılımdan önemli ölçüde farklı olduğunu söylüyor . Öyleyse …

29 distributions histogram normal-distribution poisson-distribution

2

R cinsinden Geçiş Matrisini (Markov) hesaplayın

Markov Zincirinin geçiş matrisini bir dizi gözlemden hesaplamak için R'de (yerleşik bir işlev) bir yol var mı? Örneğin, aşağıdaki gibi bir veri seti almak ve birinci mertebe geçiş matrisini hesaplamak? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))

29 r markov-process

1

Korelasyonlu matrisin SVD'si ilave olmalı, fakat görünmüyor

Sadece , Gen İfade Verilerinden İlişkili Biclusters Bulma adlı aşağıdaki makalede yapılan bir talebi kopyalamaya çalışıyorum : Önerme 4. Eğer . o zaman biz var:XIJ=RICTJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} ben. Eğer ek model ile mükemmel bir bicluster ise, sütunlar üzerinde korelasyon ile mükemmel bir bicluster; ii. Eğer ilave model ile mükemmel bir bicluster ise, …

29 correlation multivariate-analysis svd

3

İki veya daha fazla regresyon modelindeki eğimleri karşılaştırmak için hangi testi kullanabilirim?

İki değişkenin cevabını bir tahminciye cevap olarak test etmek istiyorum. İşte minimal bir çoğaltılabilir örnek. library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, …

29 r data-visualization multivariate-analysis hypothesis-testing

6

Shapiro-Wilk testinin yorumlanması

İstatistikler konusunda oldukça yeniyim ve yardımınıza ihtiyacım var. Aşağıdaki gibi küçük bir örnek var: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 Shapiro-Wilk testini R kullanarak yaptım. shapiro.test(precisionH4U$H4U) ve şu sonucu aldım: W = 0.9502, p-value = 0.6921 Şimdi, anlamlılık seviyesini p 'de 0,05 değerinden daha yüksek olduğunu …

29 r distributions interpretation goodness-of-fit normality-assumption

1

İkili veriler üzerinde temel bileşen analizi veya faktör analizi yapmak

Çok sayıda Evet / Hayır yanıtı içeren bir veri kümem var. Bu tür veriler için ana bileşenleri (PCA) veya başka bir veri azaltma analizini (faktör analizi gibi) kullanabilir miyim ? Lütfen bunu SPSS kullanarak nasıl yapacağımı bildir.

29 spss categorical-data pca factor-analysis binary-data

3

İyi bir Gibbs örnekleme dersi ve referansları

Gibbs Sampling'in nasıl çalıştığını öğrenmek istiyorum ve ara ödev için iyi bir temel arıyorum. Bilgisayar bilimi geçmişim ve temel istatistik bilgim var. Etrafında iyi bir şeyler okuyan var mı? nereden öğrendin? Teşekkürler

29 references gibbs

4

Konu modellemesi yapmak için R paketleri / LDA: sadece `topicmodels 've` lda` [kapalı]

Bana öyle geliyor ki Latent Dirichlet Allocation'ı yalnızca iki R paketi yapabiliyor : Birincisi, ldaJonathan Chang tarafından yazılmış; Diğeri topicmodelsBettina Grün ve Kurt Hornik tarafından yazılmıştır. Bu iki paket arasındaki performans, uygulama detayları ve genişletilebilirlik açısından farklar nelerdir?

29 r bayesian text-mining topic-models latent-dirichlet-alloc

2

Bir ARIMAX modelinin düzenlenmesi veya cezalandırılmasıyla takılması (örneğin, kement, elastik ağ veya sırt regresyonuyla)

Kullandığım auto.arima () işlevi tahmini kovaryatların çeşitli ARMAX modellerini uyması için paketin. Bununla birlikte, sıklıkla seçim yapabileceğim çok sayıda değişkenim var ve bunlar genellikle bir alt kümesiyle çalışan son bir modelle sonuçlanır. Değişken seçim için geçici teknikleri sevmiyorum, çünkü ben insanım ve önyargılıyım, ancak zaman aşımına uğrayan zaman serileri zor …

29 r time-series lasso regularization elastic-net