«multiple-imputation» etiketlenmiş sorular

Çoklu isnat, verilerin çok değişkenli özelliklerini korumayı amaçlayan bir dizi stokastik ispat rutini anlamına gelir.

5
Makine öğrenmesinde hiyerarşik / iç içe geçmiş verilerle nasıl baş edilir
Sorunumu bir örnekle açıklayacağım. Bazı nitelikler verilen bir bireyin gelirini tahmin etmek istediğinizi varsayalım: {Yaş, Cinsiyet, Ülke, Bölge, Şehir}. Bunun gibi bir eğitim veri setine sahipsiniz train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
R: Veri setinde NaN bulunmamasına rağmen “yabancı işlev çağrısı” na NaN / Inf atma Rastgele Orman [kapalı]
Bir veri kümesi üzerinde çapraz doğrulanmış rasgele bir orman çalıştırmak için şapka kullanıyorum. Y değişkeni bir faktördür. Veri setimde hiç NaN, Inf veya NA yok. Ancak rastgele orman çalıştırırken, alıyorum Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use …

4
Çoklu değerlendirme ve model seçimi
Tahmin etmek istediğiniz priori lineer bir modeliniz olduğunda çoklu değerlendirme oldukça basittir . Bununla birlikte, bazı model seçimleri yapmak istediğinizde işler biraz daha zor görünmektedir (örneğin, daha büyük bir aday değişken kümesinden "en iyi" tahmin değişkenleri kümesini bulun - özellikle R'yi kullanarak LASSO ve fraksiyonel polinomları düşünüyorum). Bir fikir, modeli …

2
Sonuç değişkenleri için çoklu gösterim
Tarımsal denemeler hakkında bir veri setim var. Yanıt değişkenim bir yanıt oranıdır: log (tedavi / kontrol). Ben fark arabuluculuk ile ilgileniyorum, bu yüzden RE meta-regresyonlar (ağırlıksız, çünkü etkisi boyutu tahminlerin varyans ile ilgisiz olduğu açık görünüyor) çalıştırıyorum. Her çalışma tahıl verimi, biyokütle verimi veya her ikisini rapor eder. Sadece biyokütle …


1
Çoklu impütasyondan sonra havuzlama kalibrasyon grafikleri
Çoklu impütasyondan sonra kalibrasyon grafiklerini / istatistiklerini birleştirme konusunda tavsiye istiyorum. Gelecekteki bir olayı tahmin etmek için istatistiksel modeller geliştirme ortamında (örneğin, hastaneden taburculuk sonrası hayatta kalmayı veya olayları tahmin etmek için hastane kayıtlarından elde edilen verileri kullanma), bazı çok fazla eksik bilginin olduğu hayal edilebilir. Birden fazla itimat, bu …

2
verileri etkileyen veya kapalı verileri bulmak için komşu bilgileri kullanma (R'de)
En yakın komşuların en iyi yordayıcılar olduğu varsayımıyla veri kümem var. Görselleştirilmiş iki yönlü eğimin mükemmel bir örneği Birkaç değerin eksik olduğu bir vakamız olduğunu varsayalım, komşulara ve eğilime göre kolayca tahmin edebiliriz. R'de karşılık gelen veri matrisi (egzersiz için kukla örnek): miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, …

5
Eksik değerler için birden çok gösterim
Belirli kısıtlamalar altında veri kümemdeki eksik değerleri değiştirmek için gösterim kullanmak istiyorum. Örneğin, isnat edilen değişkenin x1diğer iki değişkenimin toplamından daha büyük veya eşit olmasını isterim, diyelim x2ve x3. Ben de istiyorum x3biri tarafından izafi edilecek 0veya >= 14ve istediğim x2biri tarafından izafi edilecek 0veya >= 16. Bu kısıtlamaları SPSS'de …

5
Çok sayıda veri noktasındaki değerlerin gösterimi nasıl yapılır?
Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
Önyüklenmiş p-değerlerini çarpma ile çarpan veri kümelerinde nasıl bir araya getirebilirim?
Ben çarpma impute (MI) verilerinden tahmini için p-değeri bootstrap istiyorum , ama bana p-değerleri MI kümeleri arasında nasıl birleştirileceği net değil.θθ\theta MI veri kümeleri için, tahminlerin toplam varyansına ulaşmak için standart yaklaşım Rubin'in kurallarını kullanır. MI veri kümelerinin havuzlanması için buraya bakınız . Toplam varyansın karekökü standart bir hata tahmini …

2
Birden çok engellenmiş veri kümesinde yapılan testlerde havuzlanmış p değerleri nasıl elde edilir?
Amelia'yı R'de kullanarak, birden fazla gizli veri kümesi elde ettim. Bundan sonra, SPSS'de tekrarlanan bir ölçüm testi yaptım. Şimdi, test sonuçlarını havuzlamak istiyorum. Rubin kurallarını (R'deki herhangi bir çoklu imputasyon paketi aracılığıyla uygulanır) havuz araçlarını ve standart hataları havuzlamak için kullanabileceğimi biliyorum, ancak p-değerlerini nasıl havuzlayabilirim? Mümkün mü? R'de bunu …

2
Boylamsal bir çalışmada, takipte kaybedilen bireyler için Y zamanında ölçülen Y sonucunu ima etmeli miyim?
Bir örneklemde 2 kez tekrarlanan önlemlerim var. 1. sırada 18k, 2. sırada 13k (5000 kişi kaybetti) vardır. Zaman 1'de ölçülen bir X tahmincisi kümesinde (2. zamanda ölçülen (ve sonuç 1'de ölçülemez)) bir gerileme elde etmek istiyorum. Tüm değişkenlerin bazı eksik verileri vardır. Çoğu nispeten rastgele görünüyor veya eksiklik gözlemlenen verilerle …

2
R MICE veri ithalatı için çalışma süresi nasıl geliştirilir
Kısacası sorum: R MICE'ın çalışma süresini iyileştirmek için yöntemler var mı? (Oldukça rasgele) eksik veri içeren bir veri kümesi (30 değişken, 1.3 milyon satır) ile çalışıyorum. 30 değişkenin yaklaşık 15'inde gözlemlerin yaklaşık% 8'i NA içerir. Eksik verileri engellemek için, MICE paketinin bir parçası olan MICE işlevini çalıştırıyorum . Yöntem = …

1
Neden bu çoklu impütasyon düşük kalite?
Aşağıdaki R kodunu düşünün: > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 Gördüğünüz gibi, verileri kabaca tasarladım c = 2*b = 4*a. Bu nedenle, …

1
Belirleyici değişkeni eksik olan çoklu regresyon
Bize ve şeklinde bir dizi veri verildiğini varsayalım . Biz tahmin görevi verilmiştir değerlerine dayalı . İki regresyon tahmin ediyoruz, burada: ( y,x1,x2, ⋯ ,xn)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n})( y,x1,x2, ⋯ ,xn - 1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})yyyxxxyy=f1(x1, ⋯ ,xn - 1,xn)=f2(x1,⋯ ,xn -1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} …
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.