«data-imputation» etiketlenmiş sorular

Eksik verileri "doldurmak" için kullanılan genel bir yöntem sınıfını ifade eder. Bunu yapmak için kullanılan yöntemler tipik olarak enterpolasyon (http://en.wikipedia.org/wiki/Interpolation) ile ilgilidir ve verilerin neden eksik olduğuna dair varsayımlar gerektirir (örneğin, "rastgele eksik")

3
Bir örnek: ikili sonuç için glmnet kullanarak LASSO regresyonu
Ben kullanımı ile serpmek başlıyorum glmnetile LASSO Regresyon ilgi benim sonuç dikotom olduğunu. Aşağıda küçük bir sahte veri çerçevesi oluşturdum: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R caret ve NA'lar
Parametre ayarlama kabiliyeti ve homojen arayüzü için şapkayı çok tercih ederim, ancak uygulanan "çıplak" model NA'lara izin verse bile her zaman tam veri setleri gerektirdiğini gözlemledim (NA'sız). Bu çok zahmetlidir, bunun için ilk başta gerekli olmayan çalışma yöntemlerini uygulamalısınız. Biri imparatorluğu nasıl ortadan kaldırabilir ve hala caret avantajlarını kullanabilir?

4
PCA için eksik değerlerin tahmini
prcomp()Fonksiyonu, R'de bir PCA (temel bileşen analizi) gerçekleştirmek için kullandım. Ancak, bu fonksiyonda na.actionparametrenin çalışmadığı bir hata var . Stackoverflow konusunda yardım istedim ; iki kullanıcı, NAdeğerlerle baş etmek için iki farklı yöntem sundu . Bununla birlikte, her iki çözümde de sorun, bir NAdeğer olduğunda, bu sıranın PCA analizinde düşmemesi …

3
Birden çok imputation kullanılırken karma efekt modelinin bir varyans bileşeni için güven aralıkları nasıl birleştirilir
Çoklu impütasyonun (MI) mantığı, eksik değerleri bir kez değil birkaç kez (tipik olarak M = 5) katlanarak M tamamlanmış veri kümelerine neden olur. Daha sonra M tamamlanmış veri kümeleri, M tahminlerinin ve standart hatalarının, "genel" tahmin ve standart hatasını elde etmek için Rubin formülleri kullanılarak birleştirildiği tam veri yöntemleriyle analiz …

5
5'li Likert ölçeğine 6. yanıt seçeneği (“Bilmiyorum”) eklendi. Veri kayboldu mu?
Bir anketten veri kurtarma konusunda biraz yardıma ihtiyacım var. Meslektaşlarımdan biri bir anket uyguladı, ancak yanlışlıkla 5 puanlık Likert ölçeğini kullanmak yerine (kesinlikle katılıyorum), ölçeğe 6. bir cevap ekledi. Ve konuyu daha da kötüleştirmek için 6. yanıt seçeneği… “Bilmiyorum”. Sorun şu ya da bu noktada “Bilmiyorum” u seçen katılımcıların büyük …

2
Zaman serilerinde eksik veriler nasıl doldurulur?
2 yıl boyunca her 10 dakikada bir kaydedilen çok sayıda kirlilik verisine sahibim, ancak verilerde bir takım boşluklar var (bazıları aynı anda birkaç hafta süren). Veriler oldukça mevsimsel gibi görünüyor ve gün boyunca değerlerin çok fazla değişmediği ve veri noktalarının daha düşük olduğu geceye göre büyük bir varyasyon var. Ben …

1
Çoklu impütasyondan sonra havuzlama kalibrasyon grafikleri
Çoklu impütasyondan sonra kalibrasyon grafiklerini / istatistiklerini birleştirme konusunda tavsiye istiyorum. Gelecekteki bir olayı tahmin etmek için istatistiksel modeller geliştirme ortamında (örneğin, hastaneden taburculuk sonrası hayatta kalmayı veya olayları tahmin etmek için hastane kayıtlarından elde edilen verileri kullanma), bazı çok fazla eksik bilginin olduğu hayal edilebilir. Birden fazla itimat, bu …

3
Makine öğreniminde veri eksikliği problemini çözme yöntemleri
Makine öğrenme algoritmalarını kullanarak tahminlerde bulunmak istediğimiz herhangi bir veritabanı, bazı özellikler için eksik değerler bulacaktır. Bu sorunu ele almak, eksik değerlere sahip satırları karakteristiklerin ortalama değerleriyle dolana kadar hariç tutmak için birkaç yaklaşım vardır. Temelde bağımlı değişken (Y) eksik değerleri olan sütunların her biri ancak tablonun satırları ile olacak …

5
KNN imputation R paketleri
Bir KNN dürtü paketi arıyorum. Ben imputation paketi bakıyordum ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) ama nedense KNN impute işlevi (açıklamadaki örneği takip ederken bile) sadece görünüyor sıfır değerleri impute etmek için (aşağıdaki gibi). Etrafa bakıyordum ama henüz bir şey bulamıyorum ve bu yüzden iyi KNN imputasyon paketleri için başka önerileri olup olmadığını …

2
verileri etkileyen veya kapalı verileri bulmak için komşu bilgileri kullanma (R'de)
En yakın komşuların en iyi yordayıcılar olduğu varsayımıyla veri kümem var. Görselleştirilmiş iki yönlü eğimin mükemmel bir örneği Birkaç değerin eksik olduğu bir vakamız olduğunu varsayalım, komşulara ve eğilime göre kolayca tahmin edebiliriz. R'de karşılık gelen veri matrisi (egzersiz için kukla örnek): miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, …

5
Çok sayıda veri noktasındaki değerlerin gösterimi nasıl yapılır?
Çok büyük bir veri setim var ve yaklaşık% 5 rasgele değerler eksik. Bu değişkenler birbiriyle ilişkilidir. Aşağıdaki örnek R veri kümesi sadece yapay korelasyonlu verilere sahip bir oyuncak örneğidir. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
XGBoost, tahmin aşamasında eksik verileri işleyebilir
Son zamanlarda XGBoost algoritmasını gözden geçirdim ve bu algoritmanın eğitim aşamasında eksik verileri (çarpışma gerektirmeden) işleyebildiğini fark ettim. XGboost'un yeni gözlemleri tahmin etmek için kullanıldığında (eksik veri gerektirmeden) eksik veriyi işleyip işleyemeyeceğini veya eksik verileri etkilemek için gerekli olup olmadığını merak ediyordum. Şimdiden teşekkürler.

4
LASSO ile özellik seçimi için veri hazırlamak amacıyla eksik değerlerle nasıl başa çıkılır?
Benim durumum: küçük örneklem büyüklüğü: 116 ikili sonuç değişkeni Açıklayıcı değişkenlerin uzun listesi: 44 açıklayıcı değişkenler başımın tepesinden gelmedi; onların seçimi literatüre dayanıyordu. örnekteki çoğu durum ve değişkenlerin çoğu eksik değerlere sahiptir. Seçilen özellik seçimine yaklaşım: LASSO R'nin glmnet paketi, görünüşe göre veri kümemdeki eksik değerlerin varlığı nedeniyle glmnet rutinini …

3
Regülasyonda birden fazla model oluşturmaya karşı ithamın avantajı nedir?
Birisinin, eksik veri için neden gösterilmesinin, eksik veri içeren vakalar için farklı modeller oluşturmaktan daha iyi olup olmadığına dair bir fikir verebilir mi acaba? Özellikle [genelleştirilmiş] doğrusal modeller söz konusu olduğunda (belki doğrusal olmayan durumlarda bazı şeylerin farklı olduğunu görebilirim) Temel doğrusal modele sahip olduğumuzu varsayalım: Y= β1X1+ β2X2+ β3X3+ …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.