«resampling» etiketlenmiş sorular

Yeniden örnekleme bir örnekten numune alıyor. Yaygın kullanım alanları jackknifing (alt örnek alma, örneğin 1 hariç tüm değerler) ve bootstrapping (değiştirme ile örnekleme). Bu teknikler, analitik olarak türetilmesi zor veya imkansız olduğunda örnekleme dağılımının sağlam bir tahminini sağlayabilir.

5
Çok sayıda veri noktasındaki değerlerin gösterimi nasıl yapılır?
Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Önyükleme bu sürekli veriler için uygun mu?
Ben tam bir acemiyim :) Yaklaşık 745.000 kişilik bir nüfustan 10.000 örnek büyüklüğünde bir çalışma yapıyorum. Her örnek bir "yüzde benzerliği" temsil eder. Numunelerin büyük çoğunluğu% 97-98 civarındadır, ancak birkaçı% 60 ile% 90 arasındadır, yani dağılım ciddi şekilde çarpıktır. Sonuçların yaklaşık% 0.6'sı% 0'dır, ancak bunlar numuneden ayrı olarak işlenecektir. Tüm …

1
Önyükleme yöntemi. Rastgele alt örnekleme yerine neden “yedekli” örneklemelisiniz?
Bootstrap yöntemi son yıllarda büyük bir difüzyon gördü, ben de çok kullanıyorum, özellikle arkasındaki mantık oldukça sezgisel. Ama bu anlamadığım bir şey. Efron neden tek gözlemleri rasgele dahil ederek veya hariç tutarak basitçe alt örnekleme yerine yenisiyle yeniden örnekleme yapmayı seçti? Rastgele alt örneklemenin çok iyi bir kaliteye sahip olduğunu …

1
Gini katsayısı ve hata sınırları
Her zaman noktasında N = 14 sayımı olan bir veri serisi var ve her zaman noktasında Gini katsayısını ve bu tahmin için standart bir hatayı hesaplamak istiyorum. Jackknife varyansını, yani hesaplayarak ilerlediğim her zaman noktasında sadece N = 14 sayım olduğundan Tomson Ogwang ' denklem 7'den ' Gini indeksini ve …

4
Yeniden örneklenen veri kümelerindeki hipotez testleri null değerini çok sık reddediyor?
tl; dr: null altında oluşturulan bir veri kümesi ile başlayarak, vakaları değiştirerek yeniden örnekledim ve her yeniden örneklenen veri kümesi üzerinde bir hipotez testi gerçekleştirdim. Bu hipotez testleri boş değeri% 5'ten fazla reddeder. Aşağıda, çok basit bir simülasyonda, ile veri kümeleri oluşturuyorum X∼N(0,1)⨿Y∼N(0,1)X∼N(0,1)⨿Y∼N(0,1)X \sim N(0,1) \amalg Y \sim N(0,1)ve her …

2
Küme düzeyinde mi yoksa bireysel düzeyde mi önyükleme yapmalıyım?
Hastanelerde iç içe geçmiş, hastaneler için rastgele bir etki içeren hastalar ile bir hayatta kalma modelim var. Rastgele etki gama dağıtılır ve bu terimin 'alaka düzeyini' kolayca anlaşılan bir ölçekte rapor etmeye çalışıyorum. Medyan Tehlike Oranını (Medyan Oran Oranı gibi) kullanan aşağıdaki referansları buldum ve bunu hesapladım. Bengtsson T, Dribe …

2
Yeniden örnekleme için iyi bir metin mi?
Grup uygulamalı yeniden örnekleme tekniklerine iyi bir giriş metni / kaynağı önerebilir mi? Özellikle, normallik gibi varsayımlar açıkça ihlal edildiğinde grupları karşılaştırmak için klasik parametrik testlere (örn. T testleri, ANOVA, ANCOVA) alternatiflerle ilgileniyorum. Daha iyi bir çözüm yolu olarak kendimi eğitmek istediğim örnek bir sorun türü aşağıdakileri içerebilir: I) 2 …

1
Hangi derin öğrenme modeli, birbirini dışlamayan kategorileri sınıflandırabilir
Örnekler: İş tanımında bir cümle var: "İngiltere'de Java kıdemli mühendisi". Derin bir öğrenme modelini 2 kategori olarak tahmin etmek istiyorum: English ve IT jobs. Geleneksel sınıflandırma modeli kullanırsam, sadece softmaxson katmanda işlevli 1 etiket tahmin edebilir . Bu nedenle, her iki kategoride "Evet" / "Hayır" ı tahmin etmek için 2 …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Bootstrap örneklerinin boyutu
Örnek istatistiğin varyansını tahmin etmenin bir yolu olarak önyüklemeyi öğreniyorum. Temel bir şüphem var. Http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf adresinden alıntı : • Kaç gözlemi tekrar örneklemeliyiz? İyi bir öneri orijinal numune boyutudur. Orijinal örnekteki kadar gözlemi nasıl yeniden örnekleyebiliriz? 100 örnek büyüklüğüm varsa ve ortalamanın varyansını tahmin etmeye çalışıyorum. Toplam 100 numune büyüklüğünden …

1
Kategorik değişkenlerle aşırı örnekleme
Veri setimi kabaca 4000 müşteriyle, gruplardan birinin yaklaşık% 15 oranında olduğu iki gruba ayırmak için aşırı örnekleme ve yetersiz örnekleme kombinasyonu yapmak istiyorum. SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) ve ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), ancak bunların her ikisi de mevcut gözlemleri ve örneğin kNN'yi kullanarak yeni sentetik örnekler oluşturur. Ancak, müşterilerle …

1
Önyükleme yeniden örnekleme, bir veri kümesinin varyansı için bir güven aralığını hesaplamak için kullanılabilir mi?
Bir veri kümesinden birçok kez yeniden örnekleme yapar ve her seferinde ortalama hesaplarsanız, bu yolların normal bir dağılımı (CLT tarafından) takip edeceğini biliyorum. Böylece, veri kümesinin olasılık dağılımı hakkında herhangi bir varsayımda bulunmadan veri kümesinin ortalaması üzerinde bir güven aralığı hesaplayabilirsiniz. Varyans için benzer bir şey yapıp yapamayacağınızı merak ediyordum. …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.