İstatistikler ve Büyük Veri modeling

1

Katsayılar yolu - sırt, kement ve elastik ağ regresyonunun karşılaştırılması

Sırt, kement ve elastik ağ ile seçilen modelleri karşılaştırmak istiyorum. Aşağıdaki Şekil 3 yöntemi de kullanarak katsayı yollarını göstermektedir: sırt (Şekil A, alfa = 0), kement (Şekil B; alfa = 1) ve elastik ağ (Şekil C; alfa = 0.5). En uygun çözüm, çapraz doğrulamaya dayalı olarak seçilen seçilen lambda değerine …

13 r multiple-regression modeling regularization

1

Genelleştirilmiş katkı modelleri (GAM'lar), etkileşimler ve ortak değişkenler

Tahmin için bir dizi araç araştırıyorum ve Genelleştirilmiş Katkı Modellerinin (GAM) bu amaç için en yüksek potansiyele sahip olduğunu gördüm. OYUNLAR harika! Karmaşık modellerin çok kısa bir şekilde belirlenmesine izin verirler. Bununla birlikte, aynı özlük bana, özellikle de GAM'ların etkileşim terimlerini ve ortak değişkenleri nasıl algıladıkları konusunda bazı karışıklıklara neden …

12 r modeling gam mgcv

5

Çok sayıda veri noktasındaki değerlerin gösterimi nasıl yapılır?

Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Bağımlı değişkenin bir "kesilmesi" olduğunda modelleme

Kullandığım terminolojilerden herhangi biri yanlışsa önceden özür dileriz. Herhangi bir düzeltmeyi memnuniyetle karşılarım. "Kesim" olarak tanımladığım şey farklı bir isme sahipse, bana bildirin ve soruyu güncelleyebilirim. İlgilendiğim durum şu: bağımsız değişkenleriniz var ve tek bağımlı değişken . Bunu belirsiz bırakacağım, ancak bu değişkenler için iyi bir regresyon modeli almanın nispeten …

12 regression modeling survival censoring

1

Bir Gizli Markov Modelinde “en iyi” modeli seçme kriterleri

Verilerdeki gizli durumların sayısını tahmin etmek için bir Gizli Markov Modeli (HMM) sığdırmaya çalıştığım bir zaman serisi veri var. Bunu yapmak için sahte kodum şudur: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } Şimdi, her zamanki …

12 r aic hidden-markov-model bic spss manova time-series r lme4-nlme regression modeling negative-binomial bayesian bugs state-space-models hypothesis-testing data-transformation factor-analysis sem

1

R - serbestlik derecesinde PROC Mixed ve lme / lmer arasındaki farklar

Not: önceki sorumun yasal nedenlerle silinmesi gerektiğinden, bu soru bir gönderidir. Fonksiyonlu SAS PROC MIXED karşılaştırarak birlikte lmegelen nlmeR paketin, bazı çok kafa farklılıklar tökezledi. Daha spesifik olarak, farklı testlerdeki özgürlük dereceleri ve arasında farklılık gösterir PROC MIXEDve lmenedenini merak ettim. Aşağıdaki veri kümesinden başlayın (R kodu aşağıda verilmiştir): ind: …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

Sayım verilerinin varyansının parametrik modellenmesi

Bazı verileri modellemek istiyorum, ancak ne tür bir model kullanabileceğimden emin değilim. Sayım verilerim var ve verilerin ortalaması ve varyansı için parametrik tahminler verecek bir model istiyorum. Yani, çeşitli tahmin faktörlerim var ve bunlardan herhangi birinin varyansı etkileyip etkilemediğini belirlemek istiyorum (sadece grup ortalamasını değil). Poisson regresyonunun işe yaramayacağını biliyorum, …

12 variance modeling count-data overdispersion gamlss

1

Fisher Kesin Testi ve Hipergeometrik Dağılım

Balıkçı testini daha iyi anlamak istedim, bu yüzden f ve m erkek ve kadına karşılık gelen ve n ve y "soda tüketimine" karşılık gelen aşağıdaki oyuncak örneğini tasarladım: > soda_gender f m n 0 5 y 5 0 Açıkçası, bu büyük bir basitleştirme, ama bağlamın önüne geçmesini istemedim. Burada sadece …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

1

en küçük kareler yerine genelleştirilmiş doğrusal model ve doğrusal olmayan en küçük kareler kullanılarak üstel bir fonksiyonun yerleştirilmesi

Üstel bozulmayı temsil eden bir veri kümesi var. Bu verilere üstel bir işlevi sığdırmak istiyorum . Ben tepki değişkeni dönüştürme ve daha sonra bir satır sığdırmak için en az kareler kullanarak günlük denedim; bir kayıt bağlantı fonksiyonu ve cevap değişkeni etrafında bir gama dağılımı ile genelleştirilmiş bir doğrusal modelin kullanılması; …

12 modeling generalized-linear-model least-squares nonlinear-regression curve-fitting

4

Kütük Doğrusal Modeller

Birisi Log Logear Modelleri'ni neden çok yalın terimlerle kullandığımızı açıklayabilir mi? Mühendislik geçmişinden geliyorum ve bu gerçekten benim için zor bir konu, yani istatistikler. Bir cevap için minnettar olacağım.

12 modeling log-linear

1

Bir model aramayı ne zaman bırakmalıyım?

Enerji ve hava stokları arasında bir model arıyorum. Avrupa ülkeleri arasında satın alınan MWatt'ın fiyatı ve hava durumu (Grib dosyaları) üzerinde çok fazla değer var. 5 yıllık bir sürede (2011-2015) her saat. Fiyat / gün Bu bir yıl boyunca günlüktür. Bunu 5 yılda saat başı var. Hava örneği Bir saat …

11 time-series forecasting predictive-models modeling large-data

5

Ev Vuruşlarında Vuruşun Regresyonunu Ölçmek

Beysbolu takip eden herkes muhtemelen Toronto'nun Jose Bautista'nın MVP tipi performansını hiç duymamıştı. Önceki dört yıl içinde, sezon başına yaklaşık 15 ev atışını vurdu. Geçtiğimiz yıl, beyzbol tarihinde sadece 12 oyuncu tarafından geride bırakılan 54 sayısını vurdu. 2010 yılında kendisine 2,4 milyon ödeme yapıldı ve takıma 2011 için 10,5 milyon …

11 r regression modeling

10

Model oluşturma öngörüsünün yanı sıra nedenler?

Joshua Epstein "Neden Model?" 16 nedeni veren http://www.santafe.edu/media/workingpapers/08-09-040.pdf adresinden edinilebilir : Açıklayın (tahminden çok farklı) Rehber veri toplama Çekirdek dinamikleri aydınlatın Dinamik analojiler önerin Yeni soruları keşfedin Bilimsel bir zihin alışkanlığını teşvik edin Makul aralıklarla ilişkili (braket) sonuçlar Çekirdek belirsizliklerin aydınlatılması. Gerçek zamanlıya yakın kriz seçenekleri sunun Ödünç verme / …

11 modeling

1

R / mgcv: te () ve ti () tensör ürünleri neden farklı yüzeyler üretir?

mgcvİçin paket Rtensör ürün etkileşimleri uydurma için iki işlevi vardır: te()ve ti(). İkisi arasındaki temel işbölümünü anlıyorum (doğrusal olmayan bir etkileşime uymak ve bu etkileşimi ana etkilere ve etkileşime ayırmak). Anlamadığım şey neden te(x1, x2)ve ti(x1) + ti(x2) + ti(x1, x2)(biraz) farklı sonuçlar üretebilir. MWE (uyarlanmıştır ?ti): require(mgcv) test1 <- …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

7

Model yapımında sosyal ayrımcılığı önleme

Amazon'da yeni işe alım skandalından esinlenerek sorularım var, burada işe alım süreçlerinde kadınlara karşı ayrımcılık yapmakla suçlanıyorlar. Daha fazla bilgi burada : Amazon.com Inc'in makine öğrenimi uzmanları büyük bir sorunu ortaya çıkardı: yeni işe alım motorları kadınları sevmedi. Ekip, 2014 yılından bu yana en iyi yetenek arayışını mekanize etmek için …

10 predictive-models modeling model

«modeling» etiketlenmiş sorular