Makine öğrenimi algoritmalarında eksik veriler ile seyrek veriler arasındaki fark


20

Seyrek veriler ile eksik veriler arasındaki temel farklar nelerdir? Ve makine öğrenmesini nasıl etkiler? Daha spesifik olarak, seyrek veriler ve eksik verilerin sınıflandırma algoritmaları ve regresyon (sayıları tahmin etme) algoritma türleri üzerindeki etkisi. Eksik veri yüzdesinin önemli olduğu ve eksik veri içeren satırları bırakamayacağımız bir durumdan bahsediyorum.


4
Seyrek veriler, değerlerin çoğunun sıfır olduğu anlamına gelir, ancak bunların sıfır olduğunu bilirsiniz . Eksik veriler , değerlerin bir kısmının veya çoğunun ne olduğunu bilmediğiniz anlamına gelir .
Anna SdTC

Teşekkürler. Ben de öyle düşünmüştüm ama onaylamak istedim. Ayrıca, söz konusu gibi, genel olarak, bu tür veri kümelerinin makine öğrenme problemlerinde nasıl ele alındığını bilmek ister ..
yorgun ve bıkkın dev

1
Sorunuzun biraz belirsiz olduğunu düşünüyorum. "Makine öğrenimi" çok çeşitli yöntemler ve araçlar içerir, bu nedenle cevap neye sahip olduğunuza veya ne yapmak istediğinize bağlıdır. Burada eksik verileri işlemek için bazı yöntemleri tartışıyorlar: stats.stackexchange.com/questions/103500/…
Anna SdTC

Teşekkürler. Çok çeşitli araçların ve ml algoritma türlerinin farkındayım. Ancak herhangi bir genel yaklaşım olup olmadığını bilmek istedim.
yorgun ve bıkkın dev

Yanıtlar:


16

Anlama kolaylığı için bunu bir örnek kullanarak açıklayacağım. Diyelim ki 12 sensöre sahip bir cihazdan veri topluyorsunuz. Ve 10 gün boyunca veri topladınız.

Topladığınız veriler aşağıdaki gibidir: resim açıklamasını buraya girin

Sensör çıkışlarının çoğu sıfır olduğu için buna seyrek veri denir. Yani bu sensörler düzgün çalışıyor ancak gerçek okuma sıfır. Bu matrisin yüksek boyutlu verileri (12 eksen) olmasına rağmen, daha az bilgi içerdiği söylenebilir.

Diyelim ki cihazınızın 2 sensörü arızalı.
Ardından verileriniz şöyle olacaktır:resim açıklamasını buraya girin

Bu durumda, Sensor1 ve Sensor6'daki verileri kullanamayacağınızı görebilirsiniz. Sonuçları etkilemeden verileri manuel olarak doldurmanız veya denemeyi yeniden yapmanız gerekir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.