«missing-data» etiketlenmiş sorular

Veriler mevcut olduğunda bilgi eksikliği (boşluklar), yani tam değildir. Bu nedenle, bir analiz veya test gerçekleştirirken bu özelliği dikkate almak önemlidir.

3
Bir örnek: ikili sonuç için glmnet kullanarak LASSO regresyonu
Ben kullanımı ile serpmek başlıyorum glmnetile LASSO Regresyon ilgi benim sonuç dikotom olduğunu. Aşağıda küçük bir sahte veri çerçevesi oluşturdum: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


3
Birden fazla değerlendirmeden sonra eğilim skoru eşleşmesi
Bu makaleye atıfta bulunuyorum : Hayes JR, Groner JI. "Araba koltukları ve emniyet kemeri kullanımının travma kayıt verilerinden kaynaklanan yaralanma ciddiyeti üzerindeki etkisini test etmek için çoklu değerlendirme ve eğilim puanları kullanmak." J Çocuk Cerrahisi. 2008 Mayıs; 43 (5): 924-7. Bu çalışmada, 15 tam veri seti elde etmek için çoklu …


3
R, lm'deki eksik değerleri nasıl ele alır?
Bir B vektörünü bir matris A'daki her bir sütuna karşı germek istiyorum. Bu, eksik veri yoksa önemsizdir, ancak A matrisi eksik değerler içeriyorsa, A'ya karşı regresyonum yalnızca tüm satırları içerecek şekilde sınırlandırılmıştır. değerler var (varsayılan na.omit davranışı). Bu, eksik veri içermeyen sütunlar için hatalı sonuçlar üretir. B matrisi sütununu, A …

3
R: Veri setinde NaN bulunmamasına rağmen “yabancı işlev çağrısı” na NaN / Inf atma Rastgele Orman [kapalı]
Bir veri kümesi üzerinde çapraz doğrulanmış rasgele bir orman çalıştırmak için şapka kullanıyorum. Y değişkeni bir faktördür. Veri setimde hiç NaN, Inf veya NA yok. Ancak rastgele orman çalıştırırken, alıyorum Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use …

3
R caret ve NA'lar
Parametre ayarlama kabiliyeti ve homojen arayüzü için şapkayı çok tercih ederim, ancak uygulanan "çıplak" model NA'lara izin verse bile her zaman tam veri setleri gerektirdiğini gözlemledim (NA'sız). Bu çok zahmetlidir, bunun için ilk başta gerekli olmayan çalışma yöntemlerini uygulamalısınız. Biri imparatorluğu nasıl ortadan kaldırabilir ve hala caret avantajlarını kullanabilir?

5
Eksik verileri işlemek için makine öğrenme algoritmaları
Laboratuvar değerleri de dahil olmak üzere yüksek boyutlu klinik verileri kullanarak öngörücü bir model geliştirmeye çalışıyorum. Veri alanı 5k örnek ve 200 değişken ile seyrek. Buradaki amaç, değişkenleri bir özellik seçim yöntemi (IG, RF vb.) Kullanarak sıralamak ve yordayıcı bir model geliştirmek için üst sıradaki özellikleri kullanmaktır. Özellik seçimi Naif …

2
Beklenti Maksimizasyonu algoritmasının yerel bir optimum olanla birleşmesi neden garanti edilir?
EM algoritmasının birkaç açıklamasını okudum (örneğin, Bishop'un Örüntü Tanıma ve Makine Öğrenmesi'nden ve Roger ve Gerolami Makine Öğrenimi İlk Kursundan). EM'in türetilmesi tamam, anlıyorum. Ayrıca algoritmanın neden bir şeyi kapsadığını da anlıyorum: her adımda sonucu iyileştiririz ve olasılık 1.0 ile sınırlanır, bu nedenle basit bir gerçeği kullanarak (eğer bir fonksiyon …

4
Weibull dağılımı için EM maksimum olabilirlik tahmini
Not: Teknik nedenlerden dolayı kendi başlarına gönderemediğim eski bir öğrenciden bir soru gönderiyorum. Bir örnek verilmişse, , pdf ile bir Weibull dağılımından için faydalı bir değişken gösterimi ve dolayısıyla basit kullanım yerine MLE'sini bulmak için kullanılabilecek bir ilişkili EM (beklenti-maksimizasyon) algoritması sayısal optimizasyon?f k ( x ) = k x …

4
PCA için eksik değerlerin tahmini
prcomp()Fonksiyonu, R'de bir PCA (temel bileşen analizi) gerçekleştirmek için kullandım. Ancak, bu fonksiyonda na.actionparametrenin çalışmadığı bir hata var . Stackoverflow konusunda yardım istedim ; iki kullanıcı, NAdeğerlerle baş etmek için iki farklı yöntem sundu . Bununla birlikte, her iki çözümde de sorun, bir NAdeğer olduğunda, bu sıranın PCA analizinde düşmemesi …


5
Verilerin rastgele eksik olup olmadığını belirlemek için istatistiksel bir yaklaşım
Ben (Python scikit öğrenmek kullanarak) bir ikili sınıflandırma sorununa saldırmak için kullanacağım özellik vektörleri büyük bir set var. Öngörü hakkında düşünmeye başlamadan önce, eksik verilerin 'rastgele eksik' mi yoksa rastgele olmayan eksik mi olduğunu verinin kalan kısımlarından belirlemeye çalışmakla ilgileniyorum. Bu soruya yaklaşmanın mantıklı bir yolu nedir? Daha iyi bir …

2
Çoklu impütasyondan sonra posterior araçları ve güvenilir aralıkları nasıl bir araya getirebilirim?
Bir dizi tamamlanmış veri kümesi elde etmek için çoklu gösterim kullandım. Bir parametre (rastgele etki) için posterior dağılımlar elde etmek için tamamlanmış veri kümelerinin her birinde Bayesian yöntemleri kullandım. Bu parametre için sonuçları nasıl birleştirebilirim / havuzlayabilirim? Daha fazla bağlam: Modelim okullarda kümelenmiş bireysel öğrenciler (öğrenci başına bir gözlem) anlamında …

1
Makine öğrenimi algoritmalarında eksik veriler ile seyrek veriler arasındaki fark
Seyrek veriler ile eksik veriler arasındaki temel farklar nelerdir? Ve makine öğrenmesini nasıl etkiler? Daha spesifik olarak, seyrek veriler ve eksik verilerin sınıflandırma algoritmaları ve regresyon (sayıları tahmin etme) algoritma türleri üzerindeki etkisi. Eksik veri yüzdesinin önemli olduğu ve eksik veri içeren satırları bırakamayacağımız bir durumdan bahsediyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.