İstatistikler ve Büyük Veri aggregation

4

Uç durumlarda hassaslık ve geri çağırma için doğru değerler nelerdir?

Hassasiyet şu şekilde tanımlanır: p = true positives / (true positives + false positives) Gibi, bu doğru mu true positivesve false positiveshassas 1 yaklaşır yaklaşım 0? Hatırlama için aynı soru: r = true positives / (true positives + false negatives) Şu anda bu değerleri hesaplamam gereken bir istatistiksel test uyguluyorum …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

3

Bir haftalık dakika verilerine göre saatlik yollarla nasıl toplanır?

Günlük grafikte birden çok veri sütunu için saatlik araçları nasıl elde edersiniz ve aynı grafikte on iki "Ana Bilgisayar" için sonuçları nasıl gösterirsiniz? Yani, 24 saatlik bir sürenin neye benzediğini, bir haftalık veri için grafik olarak göstermek istiyorum. Nihai amaç, örneklemeden önce ve sonra bu verilerin iki kümesini karşılaştırmak olacaktır. …

15 r time-series aggregation

6

Bir tanımlayıcıya göre gruplandırılmış bir veri çerçevesinin ilk satırını almanın hızlı yolları [kapalı]

Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu , Çapraz Doğrulanmış için konuyla ilgili olacak şekilde güncelleyin . 2 yıl önce kapalı . Bazen, kişi başına birden fazla gözlem olduğunda yaş ve cinsiyet alırken, bir tanımlayıcı tarafından gruplandırılmış bir veri kümesinin …

14 r dataset aggregation plyr

1

Kement için LARS ve koordinat inişi

L1 düzenli lineer regresyonu takmak için koordinat inişine karşı LARS [1] kullanmanın avantajları ve dezavantajları nelerdir? Ben esas olarak performans yönleriyle ilgileniyorum (sorunlarım Nyüzbinlerce ve p<20'de olma eğilimindedir ). Ancak, diğer görüşler de takdir edilecektir. edit: Soruyu gönderdiğimden beri, chl, Friedman ve arkadaşları tarafından koordinat inişinin diğer yöntemlerden önemli ölçüde …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

Normal dağılımların birleşiminden miktarlar

Farklı yaşlardaki çocuklar için antropometrik boyutların (omuz açıklığı gibi) dağılımı hakkında bilgi sahibim. Her yaş ve boyut için, standart sapma var. (Ayrıca sekiz adet kuantum var, ama onlardan istediğimi alabileceğimi sanmıyorum.) Her boyut için, uzunluk dağılımının belirli miktarlarını tahmin etmek istiyorum. Boyutların her birinin normal olarak dağıtıldığını varsayarsam, bunu araçlarla …

13 normal-distribution quantiles gaussian-mixture aggregation

1

Bir zaman serisinde bir analiz birimini (toplama düzeyi) nasıl seçersiniz?

Bir zaman dizisini zamanın herhangi bir kesinlik düzeyinde ölçebilirseniz ve çalışmanın amacı X ve Y arasındaki bir ilişkiyi tanımlamaksa, bir başkasına göre belirli bir toplama düzeyini seçmek için ampirik bir gerekçe var mı, yoksa teori ve / veya pratik sınırlamalara dayanarak seçim yapılabilir mi? Bu ana soruya üç alt sorum …

13 time-series aggregation disaggregation

2

Toplama altında hangi istatistikler korunur?

Çok fazla gürültüye sahip uzun, yüksek çözünürlüklü bir zaman serimiz varsa, neler olduğunu daha iyi anlamak ve bazılarını etkili bir şekilde kaldırmak için verileri daha düşük bir çözünürlüğe (örneğin günlük / aylık değerler) toplamak genellikle mantıklıdır. gürültü. Daha sonra bir de dahil olmak üzere toplu veri bazı istatistikleri geçerli en …

12 time-series aggregation

2

Her topluluk için ayrı regresyonlar yapmalı mıyım yoksa topluluk, toplu bir modelde kontrol eden bir değişken olabilir mi?

DV olarak sürekli varlık endeksi değişkenli bir OLS modeli çalıştırıyorum. Verilerim, birbirine yakın coğrafi yakınlıkta üç benzer topluluktan toplanıyor. Buna rağmen, toplumu kontrol eden bir değişken olarak kullanmanın önemli olduğunu düşündüm. Anlaşıldığı üzere, topluluk% 1 düzeyinde anlamlıdır (t-skoru -4.52). Topluluk, 3 farklı topluluktan 1'i için 1,2,3 olarak kodlanan nominal / …

11 regression categorical-data stata multiple-regression aggregation

6

R'deki bir data.frame içindeki tüm benzersiz faktör kombinasyonları için özet istatistikler nasıl bulunur? [kapalı]

Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Sorunuzu güncelleyin o yüzden -konu üzerinde Çapraz doğrulanmış için. 2 yıl önce kapalı . Ben data.frame faktörlerin her benzersiz kombinasyonu için bir data.frame bir değişkenin bir özetini hesaplamak istiyorum. Bunu yapmak için plyr kullanmalı …

11 r categorical-data aggregation plyr

1

Rasgele Orman Olasılık Tahminine karşı çoğunluk oyu

Scikit öğrenmesi , neden olduğu hakkında bir açıklama yapmadan model toplama tekniği için çoğunluk oyu yerine olasılıksal öngörü kullanıyor gibi görünmektedir (1.9.2.1. Rastgele Ormanlar). Nedeninin açık bir açıklaması var mı? Ayrıca Rastgele Orman torbalaması için kullanılabilecek çeşitli model toplama teknikleri için iyi bir makale veya inceleme makalesi var mı? Teşekkürler!

10 random-forest python scikit-learn aggregation bagging

2

Veriler için ROC eğrisini hesapla

Bu yüzden, Hamming Distance kullanarak biyometrik özellikteki bir kişinin kimliğini doğrulamaya çalıştığım 16 denemem var. Eşik değer 3,5'e ayarlandı. Verilerim aşağıda ve yalnızca deneme 1 Gerçek Olumludur: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

«aggregation» etiketlenmiş sorular