Eksik / Eksik Verileri İşleme Teknikleri


12

Sorum, sınıflandırıcı / model eğitimi / uydurma sırasında eksik verilerle başa çıkmak için tekniklere yöneliyor.

Örneğin, birkaç yüz satırlı bir veri kümesinde, her satırın diyelim ki beş boyut ve son öğe olarak bir sınıf etiketi vardır, çoğu veri noktası şöyle görünür:

[0.74, 0.39, 0.14, 0.33, 0.34, 0]

Bazıları şöyle görünebilir:

[0.21, 0.68, 8, 0.82, 0.58, 1]

Dolayısıyla, bu sorunun odak noktası bu tür veri noktalarıdır.

Bu soruyu sormamın ilk nedeni doğrudan önümdeki bir sorundu; Ancak, Sorumı göndermeden önce, cevapları Topluluk'un daha büyük bir kısmı için yararlı olacak şekilde yeniden ifade edersem daha yararlı olabileceğini düşündüm.

Basit bir sezgisel olarak, bu veri işleme tekniklerini, sınıflandırıcıya girmeden önce veya sırasında (yani, teknik sınıflandırıcının içinde olduğu zaman) işleme akışı sırasında ne zaman kullanıldıklarına göre bölelim.

İkincisi için düşünebileceğim en iyi örnek, Karar Ağaçlarında kullanılan akıllı 'üç yollu dallanma' tekniğidir.

Kuşkusuz, eski kategori çok daha büyük. Tüm farkında olduğum teknikler aşağıdaki gruplardan birine giriyor.

Son zamanlarda "eksik veri işleme" üzerine kişisel notlarımı incelerken ben oldukça etkileyici bir teknikler listesi olduğunu fark ettim. Bu notları genel gönül rahatlığı için saklıyorum ve küçük bir meslektaşımın eksik verilerle nasıl başa çıkacağımı sorması durumunda. Gerçek uygulamada, aslında sonuncusu dışında hiçbirini kullanmıyorum.

  1. Öngörme : ortak paydası (inanıyorum) eksik verilerin tahmin / tahmin yerine doğrudan aynı veri kümesi tarafından sağlandığı bir dizi teknik için geniş bir değerlendirme listesi.

  2. Yeniden yapılandırma : otomatik ilişkilendirilebilir bir ağ (yalnızca giriş ve çıkış katmanlarının boyutlarının eşit olduğu bir sinir ağı - başka bir deyişle, çıktı girişle aynı boyuta sahiptir) kullanarak eksik veri noktalarını tahmin edin; buradaki fikir, bu ağı tam veri üzerinde eğitmek, daha sonra eksik kalıpları beslemek ve eksik düğümleri çıkış düğümlerinden okumaktır.

  3. Bootstrapping : (istatistiksel analizde başka bir yerde kullanılması göz önüne alındığında, özetlemem gerekli değil).

  4. Reddetme : Eksik / bozuk unsurları olan veri noktalarını egzersiz setinizden sessizce kaldırın ve hiç var olmamış gibi davranın.


2
Ayrıca, test sırasında karşılaşılan her bir eksik değer modeli için bir sınıflandırıcı eğittiğiniz "azaltılmış model" yaklaşımı da vardır. IE, özniteliğin eksik olduğu yerde x için tahmin yapmak için, tüm öznitelik verilerinden i'th özniteliğini kaldırın ve bu konuda eğitim alın. jmlr.csail.mit.edu/papers/v8/saar-tsechansky07a.html
Yaroslav Bulatov

Imputation tanımınızın modern bağlamda yanlış olduğuna inanıyorum. Yükleme, artık eksik verilerin veri kümesindeki diğer değişkenlere göre modellenmesini içeriyor. Şu anda tercih edilen Imputation yöntemi, her eksik değer için (modele bağlı olarak) birden fazla alternatif oluşturan, tamamlanan her alternatif veri kümesini işleyen ve ardından sonuçlar arasındaki değişkenliği yansıtan cevapları birleştiren Çoklu Imputation'dır. ("Eski günlerde", insanlar benzer bir kaydın değerini veya ortalama, vb.
Wayne

@Wayne, beni bu modernteknikleri tanımlayan bir makaleye yönlendirir misiniz? Teşekkürler
Enzo

R paketinin miceJSS hakkında güzel bir tanıtım makalesi var: jstatsoft.org/article/view/v045i03 . (R'yi kullanmasanız bile tanıtımı yararlı bulmalısınız.) Ve R paketinde pakete Ameliadahil olan güzel bir skeç var. Bu iki paket ayrıntılarında farklılık gösterir, ancak her ikisi de birden çok empoze kullanır.
Wayne

Yanıtlar:


3

Bu cevabı başka bir soruya verdim , ama burada da geçerli olabilir.

" Matrix Tamamlama adında , muhtemelen istediğinizi yapan oldukça yeni bir araştırma alanı var. Emmanuel Candes tarafından bu konferansta gerçekten güzel bir tanıtım var "

Temel olarak, veri kümeniz düşük sıralıysa (veya yaklaşık düşük sıralıysa), yani 100 satırınız varsa, ancak gerçek matrisin 10 (veya yalnızca 10 büyük tekil değer) gibi küçük bir sıralaması varsa, eksik olanı doldurmak için Matris Tamamlama'yı kullanabilirsiniz. veri.


2

Burada biraz alışılmışın dışında olabilirim, ama ne halt. Lütfen dikkat: bu düşünce kendi sınıflandırma felsefemden gelir, yani amacım tam olarak saf tahmin üzerine olduğunda kullanıyorum - açıklama değil, kavramsal tutarlılık, vb. Bu nedenle, burada söylediğim şey nasıl olduğumla çelişiyor regresyon modeli oluşturma yaklaşımı.

Farklı sınıflandırma yaklaşımları eksik verileri işleme yeteneklerine göre değişir ve diğer bazı faktörlere bağlı olarak ^ sadece # 5 deneyebilirim: bu NA'ları boğmayacak bir sınıflandırıcı kullanın. Bu rotaya gitme kararının bir kısmı, modeli uygulayacağınız gelecekteki verilerde benzer bir NA oranının oluşma olasılığını da düşünmeyi içerebilir. Belirli değişkenler için NA'lar kurs için eşit olacaksa, sadece onlarla yuvarlanmak mantıklı olabilir (yani, gerçekte sahip olduğunuzdan daha bilgilendirici veriler varsayan bir öngörücü model oluşturmayın veya ' Gerçekten ne kadar öngörülü olacağı konusunda şaka yapıyorum). Aslında, NA'ların rastgele eksik olduğuna ikna olmazsam, yeni bir değişkeni (veya eğer yeni bir seviyeyi yeniden kodlamaya meyilli olurum).

Eksik veriyi çok iyi almayan bir sınıflandırıcı kullanmak için iyi bir nedenim olsaydı, yaklaşımım # 1 (çoklu impütasyon) olurdu ve çarpık veri kümelerinde benzer şekilde iyi davranan bir sınıflandırma modeli bulmaya çalışırdı.

^ Dahil: öngörücülerinizde ne kadar eksiklik var, sistematik kalıplar olup olmadığı (varsa, daha yakından bakmaya ve analiziniz için çıkarımları düşünmeye değer) ve genel olarak ne kadar veriyle çalışmanız gerekir .


1

Söz konusu verilerden sorumlu olan veri oluşturma süreci hakkında makul bir önseziniz varsa, eksik verileri tahmin etmek için bayes fikirlerini kullanabilirsiniz. Bayes yaklaşımı altında, eksik verilerin rastgele değişkenler olduğunu varsayar ve gözlemlenen verilere bağlı olarak eksik veriler için posterior oluştururlar. Arka araçlar daha sonra eksik verilerin yerine kullanılabilir.

Bayes modellerinin kullanımı, terimin geniş bir duygusu altında itham olarak nitelendirilebilir, ancak listenizde görünmediğinden bahsetmeyi düşündüm.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.