Otomatik veri temizleme


10

Sık karşılaşılan bir sorun ML'nin verilerin kalitesinin düşük olmasıdır: özellik değerlerindeki hatalar, yanlış sınıflandırılan örnekler vb.

Bu sorunu ele almanın bir yolu verileri manuel olarak gözden geçirmek ve kontrol etmektir, ancak başka teknikler var mı? (Eminim vardır!)

Hangileri daha iyi ve neden?


Google Refine bir göz atmaya değer olabilir.
Dimitriy V. Masterov

Yanıtlar:


6

PCA gibi bir şey aracılığıyla boyut azalması, verilerinizi temsil etmek için kritik olan boyutların sayısı hakkında bir fikir edinmek için yardımcı olacaktır.

Yanlış sınıflandırılmış örnekleri kontrol etmek için, ham verilerinizin önerilen kategorilere ne kadar iyi uyduğuna dair bir fikir edinmek için temel bir k-anlamına gelir verilerinizin kümelenmesi yapabilirsiniz. Otomatik olmasa da, görsel beyniniz kendi içinde güçlü bir sınıflandırıcı olduğundan, bu aşamada görselleştirme yardımcı olacaktır.

Kesin olarak eksik olan veriler açısından, istatistiklerde, bu durumla başa çıkmak için, çarpma, mevcut kümeden veya boşlukları doldurmak için başka bir kümeden veri alma dahil olmak üzere çok sayıda teknik vardır .


3
Veri çizimi olan bir manüel kontrol.
andreister

@andreister Bir e-tabloda nokta nokta kontrolünü manuel kontrol olarak görüyorum, ancak tamam, ne elde ettiğinizi görüyorum.
Şubat'ta jonsca

5

Bilgili bir kişiyi gerçekten döngüden kaldıramaz ve makul sonuçlar elde edemezsiniz. Bu, kişinin her bir öğeye ayrı ayrı bakması gerektiği anlamına gelmez, ancak sonuçta veri özetlerinin / grafiklerinin makul olup olmadığını bilmek için bazı gerçek bilgiler gerekir. (Örneğin: A değişkeni negatif olabilir, B değişkeni A değişkeninden büyük olabilir mi veya kategorik C değişkeni için 4 veya 5 seçenek var mı?)

Verilere bilgili bir insan bakışınız olduğunda, muhtemelen verileri otomatik olarak test etmek için kullanabileceğiniz bir dizi kural oluşturabilirsiniz. Sorun şu ki, düşünmediğiniz başka hatalar ortaya çıkabilir. (Örneğin, veri toplama işleminde A değişkenini C değişkenine çoğaltan bir programlama hatası)


Mükemmel cevap. Ben sadece değişkenleri temizlemek için kullanılan sözdiziminin belgelerin içinde, şeylerin neden değiştiğine dair açıklayıcı pasajlar olmasa da yorumlarla korunmasını sağlamak için ekleyeceğim. :)
Michelle

1

Verilerinizin oldukça iyi olmadığını biliyorsanız, aykırı değerleri de kontrol etmek her zaman iyidir. Çoğu zaman anormallikler vardır.

Çok fazla özelliğiniz varsa, boyutsal azaltma bir zorunluluktur. PCA bunun için oldukça verimlidir.

Eksik verileriniz varsa, gösterim veya enterpolasyon kullanabilirsiniz, ancak ihtiyaçlarınız buna izin veriyorsa, kazanan durum ortak filtreleme kullanmaktır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.