Sorum, sınıflandırıcı / model eğitimi / uydurma sırasında eksik verilerle başa çıkmak için tekniklere yöneliyor.
Örneğin, birkaç yüz satırlı bir veri kümesinde, her satırın diyelim ki beş boyut ve son öğe olarak bir sınıf etiketi vardır, çoğu veri noktası şöyle görünür:
[0.74, 0.39, 0.14, 0.33, 0.34, 0]
Bazıları şöyle görünebilir:
[0.21, 0.68, 8, 0.82, 0.58, 1]
Dolayısıyla, bu sorunun odak noktası bu tür veri noktalarıdır.
Bu soruyu sormamın ilk nedeni doğrudan önümdeki bir sorundu; Ancak, Sorumı göndermeden önce, cevapları Topluluk'un daha büyük bir kısmı için yararlı olacak şekilde yeniden ifade edersem daha yararlı olabileceğini düşündüm.
Basit bir sezgisel olarak, bu veri işleme tekniklerini, sınıflandırıcıya girmeden önce veya sırasında (yani, teknik sınıflandırıcının içinde olduğu zaman) işleme akışı sırasında ne zaman kullanıldıklarına göre bölelim.
İkincisi için düşünebileceğim en iyi örnek, Karar Ağaçlarında kullanılan akıllı 'üç yollu dallanma' tekniğidir.
Kuşkusuz, eski kategori çok daha büyük. Tüm farkında olduğum teknikler aşağıdaki gruplardan birine giriyor.
Son zamanlarda "eksik veri işleme" üzerine kişisel notlarımı incelerken ben oldukça etkileyici bir teknikler listesi olduğunu fark ettim. Bu notları genel gönül rahatlığı için saklıyorum ve küçük bir meslektaşımın eksik verilerle nasıl başa çıkacağımı sorması durumunda. Gerçek uygulamada, aslında sonuncusu dışında hiçbirini kullanmıyorum.
Öngörme : ortak paydası (inanıyorum) eksik verilerin tahmin / tahmin yerine doğrudan aynı veri kümesi tarafından sağlandığı bir dizi teknik için geniş bir değerlendirme listesi.
Yeniden yapılandırma : otomatik ilişkilendirilebilir bir ağ (yalnızca giriş ve çıkış katmanlarının boyutlarının eşit olduğu bir sinir ağı - başka bir deyişle, çıktı girişle aynı boyuta sahiptir) kullanarak eksik veri noktalarını tahmin edin; buradaki fikir, bu ağı tam veri üzerinde eğitmek, daha sonra eksik kalıpları beslemek ve eksik düğümleri çıkış düğümlerinden okumaktır.
Bootstrapping : (istatistiksel analizde başka bir yerde kullanılması göz önüne alındığında, özetlemem gerekli değil).
Reddetme : Eksik / bozuk unsurları olan veri noktalarını egzersiz setinizden sessizce kaldırın ve hiç var olmamış gibi davranın.
modern
teknikleri tanımlayan bir makaleye yönlendirir misiniz? Teşekkürler
mice
JSS hakkında güzel bir tanıtım makalesi var: jstatsoft.org/article/view/v045i03 . (R'yi kullanmasanız bile tanıtımı yararlı bulmalısınız.) Ve R paketinde pakete Amelia
dahil olan güzel bir skeç var. Bu iki paket ayrıntılarında farklılık gösterir, ancak her ikisi de birden çok empoze kullanır.