«aggregation» etiketlenmiş sorular

Potansiyel olarak homojen olmayan veri gruplarının "bir araya toplanması" anlamına gelir.

4
Uç durumlarda hassaslık ve geri çağırma için doğru değerler nelerdir?
Hassasiyet şu şekilde tanımlanır: p = true positives / (true positives + false positives) Gibi, bu doğru mu true positivesve false positiveshassas 1 yaklaşır yaklaşım 0? Hatırlama için aynı soru: r = true positives / (true positives + false negatives) Şu anda bu değerleri hesaplamam gereken bir istatistiksel test uyguluyorum …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
Bir haftalık dakika verilerine göre saatlik yollarla nasıl toplanır?
Günlük grafikte birden çok veri sütunu için saatlik araçları nasıl elde edersiniz ve aynı grafikte on iki "Ana Bilgisayar" için sonuçları nasıl gösterirsiniz? Yani, 24 saatlik bir sürenin neye benzediğini, bir haftalık veri için grafik olarak göstermek istiyorum. Nihai amaç, örneklemeden önce ve sonra bu verilerin iki kümesini karşılaştırmak olacaktır. …

6
Bir tanımlayıcıya göre gruplandırılmış bir veri çerçevesinin ilk satırını almanın hızlı yolları [kapalı]
Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu , Çapraz Doğrulanmış için konuyla ilgili olacak şekilde güncelleyin . 2 yıl önce kapalı . Bazen, kişi başına birden fazla gözlem olduğunda yaş ve cinsiyet alırken, bir tanımlayıcı tarafından gruplandırılmış bir veri kümesinin …
14 r  dataset  aggregation  plyr 

1
Kement için LARS ve koordinat inişi
L1 düzenli lineer regresyonu takmak için koordinat inişine karşı LARS [1] kullanmanın avantajları ve dezavantajları nelerdir? Ben esas olarak performans yönleriyle ilgileniyorum (sorunlarım Nyüzbinlerce ve p<20'de olma eğilimindedir ). Ancak, diğer görüşler de takdir edilecektir. edit: Soruyu gönderdiğimden beri, chl, Friedman ve arkadaşları tarafından koordinat inişinin diğer yöntemlerden önemli ölçüde …

1
Normal dağılımların birleşiminden miktarlar
Farklı yaşlardaki çocuklar için antropometrik boyutların (omuz açıklığı gibi) dağılımı hakkında bilgi sahibim. Her yaş ve boyut için, standart sapma var. (Ayrıca sekiz adet kuantum var, ama onlardan istediğimi alabileceğimi sanmıyorum.) Her boyut için, uzunluk dağılımının belirli miktarlarını tahmin etmek istiyorum. Boyutların her birinin normal olarak dağıtıldığını varsayarsam, bunu araçlarla …


2
Toplama altında hangi istatistikler korunur?
Çok fazla gürültüye sahip uzun, yüksek çözünürlüklü bir zaman serimiz varsa, neler olduğunu daha iyi anlamak ve bazılarını etkili bir şekilde kaldırmak için verileri daha düşük bir çözünürlüğe (örneğin günlük / aylık değerler) toplamak genellikle mantıklıdır. gürültü. Daha sonra bir de dahil olmak üzere toplu veri bazı istatistikleri geçerli en …

2
Her topluluk için ayrı regresyonlar yapmalı mıyım yoksa topluluk, toplu bir modelde kontrol eden bir değişken olabilir mi?
DV olarak sürekli varlık endeksi değişkenli bir OLS modeli çalıştırıyorum. Verilerim, birbirine yakın coğrafi yakınlıkta üç benzer topluluktan toplanıyor. Buna rağmen, toplumu kontrol eden bir değişken olarak kullanmanın önemli olduğunu düşündüm. Anlaşıldığı üzere, topluluk% 1 düzeyinde anlamlıdır (t-skoru -4.52). Topluluk, 3 farklı topluluktan 1'i için 1,2,3 olarak kodlanan nominal / …

6
R'deki bir data.frame içindeki tüm benzersiz faktör kombinasyonları için özet istatistikler nasıl bulunur? [kapalı]
Kapalı. Bu soru konu dışı . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Sorunuzu güncelleyin o yüzden -konu üzerinde Çapraz doğrulanmış için. 2 yıl önce kapalı . Ben data.frame faktörlerin her benzersiz kombinasyonu için bir data.frame bir değişkenin bir özetini hesaplamak istiyorum. Bunu yapmak için plyr kullanmalı …

1
Rasgele Orman Olasılık Tahminine karşı çoğunluk oyu
Scikit öğrenmesi , neden olduğu hakkında bir açıklama yapmadan model toplama tekniği için çoğunluk oyu yerine olasılıksal öngörü kullanıyor gibi görünmektedir (1.9.2.1. Rastgele Ormanlar). Nedeninin açık bir açıklaması var mı? Ayrıca Rastgele Orman torbalaması için kullanılabilecek çeşitli model toplama teknikleri için iyi bir makale veya inceleme makalesi var mı? Teşekkürler!

2
Veriler için ROC eğrisini hesapla
Bu yüzden, Hamming Distance kullanarak biyometrik özellikteki bir kişinin kimliğini doğrulamaya çalıştığım 16 denemem var. Eşik değer 3,5'e ayarlandı. Verilerim aşağıda ve yalnızca deneme 1 Gerçek Olumludur: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.