Eksik verileri işlemek için makine öğrenme algoritmaları


25

Laboratuvar değerleri de dahil olmak üzere yüksek boyutlu klinik verileri kullanarak öngörücü bir model geliştirmeye çalışıyorum. Veri alanı 5k örnek ve 200 değişken ile seyrek. Buradaki amaç, değişkenleri bir özellik seçim yöntemi (IG, RF vb.) Kullanarak sıralamak ve yordayıcı bir model geliştirmek için üst sıradaki özellikleri kullanmaktır.

Özellik seçimi Naif Bayes yaklaşımıyla iyi gidiyor olsa da, değişken alanımdaki eksik veriler (NA) nedeniyle öngörülü bir model uygulamada bir sorunla karşılaşıyorum. Eksik veri içeren numuneleri dikkatle işleyebilecek herhangi bir makine öğrenme algoritması var mı?


1
Alınan cevapların varlığı bana bu sorunun cevap verilemeyecek kadar geniş olmadığı anlamına geliyor. Açık bırakmak için oy veriyorum.
gung - Reinstate Monica

Yanıtlar:


15

Kullandığınız modele göre değişir. Bazı üretici model kullanıyorsanız, eksik değerlerle () başa çıkmanın ilkeli bir yolu vardır. Örneğin, Naive Bayes veya Gaussian Processes gibi modellerde, eksik değişkenleri birleştirir ve kalan değişkenlerle en iyi seçeneği seçersiniz.

Ayrımcı modeller için bu daha karmaşıktır, çünkü mümkün değildir. Birkaç yaklaşım var. Gharamani ve Ürdün , eksik değerlerin gizli değişkenler gibi ele alındığı ve EM algoritmasının bir türevinin tahmin edilmesinde kullanıldığı ilkeli bir yaklaşımı tanımlar. Benzer bir şekilde, Smola ve ark. açıkça problemi çözen SVM algoritmasının bir değişkenini tanımlar.

Eksik değerlerin, değişkenin ortalama değeriyle değiştirilmesi genellikle tavsiye edilir. Bu, ilk makalede açıklandığı gibi sorunludur. Bazen, eksik değerleri tahmin etmek için değişkenler üzerinde gerileme yapan kağıtlara rastladım, ancak bunun sizin durumunuz için geçerli olup olmadığını söyleyemem.


2
genellikle eksik olan değerlerin değişkenin ortalama değeri ile değiştirilmesi önerilir . Lütfen kaynağa işaret edebilir misiniz?
Sergey Bushmanov

1
@juampa Neden ayrımcı modellere eksik değişkenleri dahil etmenin mümkün olmadığını iddia ediyorsunuz? Bunu her zaman lojistik regresyon için yapıyoruz. Aslında, birden fazla hesaba eşit olduğu gösterilebilir.
AdamO,

1
@SergeyBushmanov Buradaki kargaşanızda ben seninleyim. O edilir değil çoğu zaman bazı durumlarda ve diğer durumlarda anticonservative doğrulama metriklerindeki önyargı yol açtığı için (tek) ortalama ikame yöntemleridir kullanılması önerilir.
AdamO


2

Eksik verilerden kurtulmak için en yakın komşuları kullanarak imparatorluğu deneyin.

Ek olarak, Caret paketi çok çeşitli algoritmalara arayüzleri vardır ve hepsi R de yeni verileri tahmin etmek için kullanılabilecek tahmin yöntemleri ile birlikte gelir. Performans metrikleri, aynı paketi kullanarak k kat çapraz doğrulama kullanılarak da tahmin edilebilir.


2

Sınıflandırma ve regresyon ağaçları gibi öngörücü modeli oluştururken, eksik değeri benzersiz ve farklı bir değer olarak kullanabilen algoritmalar da vardır. xgboost gibi


Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.