İstatistikler ve Büyük Veri r

1

GAM'larda tensör ürün etkileşimlerinin ardındaki sezgi (R'de MGCV paketi)

Genelleştirilmiş katkı modelleri, örneğin . fonksiyonlar düzgündür ve tahmin edilir. Genellikle penaltılaşmış spline'lar. MGCV bunu yapan bir R paketidir ve yazar (Simon Wood) paketi hakkında R örnekleri ile bir kitap yazar. Ruppert ve ark. (2003) aynı şeyin basit versiyonları hakkında çok daha erişilebilir bir kitap yazmaktadır. y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha …

30 r nonparametric interaction splines intuition

6

Çizgi grafikte çok fazla çizgi var, daha iyi bir çözüm var mı?

Zaman içinde, kullanıcıların (bu durumda, "beğenmeler") eylemlerinin sayısını grafik çizmeye çalışıyorum. Dolayısıyla, y eksenim olarak "işlem sayısı" var, x eksenim zaman (hafta) ve her satır bir kullanıcıyı temsil ediyor. Benim sorunum bu verilere yaklaşık 100 kullanıcı grubu için bakmak istiyorum. Bir çizgi grafiği hızla 100 çizgi ile karışık bir karışıklık …

30 r data-visualization

2

Temel bileşen analizinde biplotların yorumlanması

Bu güzel derse rastladım: R Kullanarak İstatistiksel Analiz El Kitabı. Bölüm 13. Temel Bileşen Analizi: PCA'nın R dilinde nasıl yapıldığına dair Olimpik Heptatlon . Şekil 13.3'ün yorumunu anlamıyorum: Bu yüzden ilk özvektöre karşı ikinci özvektöre komplo yapıyorum. Bu ne anlama geliyor? Birinci özvektöre karşılık gelen özdeğerin, veri kümesindeki değişimin% 60'ını …

30 r pca data-visualization interpretation biplot

3

Bir zaman serisinin durağan ya da durağan olmadığını nasıl bilebilirim?

Ben R kullanıyorum, ben Google'da arama öğrendik kpss.test(), PP.test()ve adf.test()zaman serilerinin durağanlık hakkında bilmek için kullanılır. Ama sonuçlarını yorumlayabilen bir istatistikçi değilim. > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > kpss.test(b$V1) KPSS Test for Level Stationarity data: b$V1 …

30 r time-series stationarity augmented-dickey-fuller kpss-test

3

R, metin sınıflandırma görevlerine ne kadar iyi ölçeklenir? [kapalı]

R ile hız kazanmaya çalışıyorum. Sonunda metin sınıflandırma yapmak için R kütüphanelerini kullanmak istiyorum. Metin sınıflandırma söz konusu olduğunda, insanların R'nin ölçeklenebilirliği ile ilgili deneyimlerinin neler olduğunu merak ediyordum. Büyük boyutlu verilerle karşılaşmam muhtemel (~ 300k boyutları). Özellikle sınıflandırma algoritmaları olarak SVM ve Random Forest kullanmaya bakıyorum. R kütüphaneleri sorun …

30 r machine-learning svm text-mining random-forest

1

Merkezleme PCA'da nasıl bir fark yaratır (SVD ve öz ayrıştırma için)?

PCA için verilerinizi merkezleme (veya anlamdan çıkarma) ne fark eder? Matematiği kolaylaştırdığını ya da ilk bilgisayarın değişkenlerin araçlarına hâkim olmasını engellediğini duydum, ancak henüz kavramı tam olarak kavrayamadığımı hissediyorum. Örneğin, buradaki en üstteki cevap Verileri merkezlemek regresyon ve PCA'daki engellemeden nasıl kurtulur? Merkezlenmenin ilk PCA'yı nokta bulutunun ana ekseni yerine …

30 r pca svd eigenvalues centering

3

Hangi değişken enflasyon faktörü kullanmalıyım: veya ?

vifR paketindeki işlevi kullanarak varyans enflasyon faktörlerini yorumlamaya çalışıyorum car. İşlev hem genelleştirilmiş bir hem de . Göre yardım dosyası , ikinci değerdirVIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} Güven elipsoidinin boyutunu ayarlamak için, işlev ayrıca GVIF ^ [1 / (2 * df)] değerini de basar, burada df terimi ile ilişkili serbestlik dereceleridir. Bu açıklamanın anlamını …

30 r multicollinearity vif

5

GBM'de etkileşim derinliği ne demektir?

R'de gbm'deki etkileşim derinliği parametresi ile ilgili bir sorum vardı. Bu, özür dilediğim noob bir soru olabilir, ancak bir ağaçtaki terminal düğümlerinin sayısını belirttiğine inandığım parametre, temel olarak X-yolunu gösterir. öngörücüler arasındaki etkileşim? Sadece bunun nasıl çalıştığını anlamaya çalışıyorum. Ek olarak, bu iki faktör değişkeninin tek bir faktörde birleştirilmesi haricinde, …

30 r machine-learning boosting gbm

4

McNemar'ın testi ile ki-kare testi arasındaki fark nedir ve bunların ne zaman kullanılacağını nasıl bildiniz?

Farklı kaynaklar üzerinde okumaya çalıştım, ancak benim durumumda hangi testin uygun olacağı konusunda hala net değilim. Veri setim hakkında sorduğum üç farklı soru var: Denekler, X'ten kaynaklanan enfeksiyonlar için farklı zamanlarda test edilir. X sonrası için pozitif oranlarının X öncesi için pozitif oranı ile ilişkili olup olmadığını bilmek istiyorum: After …

30 r chi-squared mcnemar-test

2

Arsa Yorumlanması (glm.model)

Birisi bana 'takılanlara karşı kalan artıklar', 'normal q-q', 'ölçek yeri' ve 'kaldıraçlara karşı kaldıraç' alanlarını nasıl yorumlayabileceğimi söyleyebilir mi? Binom bir GLM takıyorum, tasarruf ediyorum ve sonra çiziyorum.

30 r logistic data-visualization generalized-linear-model qq-plot

5

Makine öğrenmesinde hiyerarşik / iç içe geçmiş verilerle nasıl baş edilir

Sorunumu bir örnekle açıklayacağım. Bazı nitelikler verilen bir bireyin gelirini tahmin etmek istediğinizi varsayalım: {Yaş, Cinsiyet, Ülke, Bölge, Şehir}. Bunun gibi bir eğitim veri setine sahipsiniz train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Lojistik regresyondan elde edilen değerler için standart hatalar nasıl hesaplanır?

Bir lojistik regresyon modelinden bir takılan değer tahmin ettiğinizde standart hatalar nasıl hesaplanır? I anlamına monte değerleri (Fishers bilgi matrisi içerir) olup katsayıları için. Sadece sayıların nasıl alınacağını öğrendim R(örneğin, burada r- help'de veya burada Stack Overflow'ta), ancak formülü bulamıyorum. pred <- predict(y.glm, newdata= something, se.fit=TRUE) Çevrimiçi kaynak sağlayabilirseniz (tercihen …

29 r regression logistic mathematical-statistics references

1

Özellik seçimi ve Metilasyon verilerinde glmnet bulunan model (p >> N)

İlgili özellikleri seçmek ve doğrusal bir regresyon modeli oluşturmak için GLM ve Elastic Net'i kullanmak isterim (yani, hem öngörme hem de anlama, bu nedenle göreceli olarak az sayıda parametreyle bırakılmak daha iyi olur). Çıkış süreklidir. Bu var başına genler 50 olguda. Paket hakkında okuyordum , ancak uygulanacak adımlar konusunda% 100 …

29 r regularization glmnet elastic-net underdetermined

2

R cinsinden Geçiş Matrisini (Markov) hesaplayın

Markov Zincirinin geçiş matrisini bir dizi gözlemden hesaplamak için R'de (yerleşik bir işlev) bir yol var mı? Örneğin, aşağıdaki gibi bir veri seti almak ve birinci mertebe geçiş matrisini hesaplamak? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))

29 r markov-process

3

İki veya daha fazla regresyon modelindeki eğimleri karşılaştırmak için hangi testi kullanabilirim?

İki değişkenin cevabını bir tahminciye cevap olarak test etmek istiyorum. İşte minimal bir çoğaltılabilir örnek. library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, …

29 r data-visualization multivariate-analysis hypothesis-testing

«r» etiketlenmiş sorular