Büyük veri kümelerinden öğrenirken yaklaşımlar?


10

Temel olarak, büyük veri kümelerine karşı öğrenmenin iki yaygın yolu vardır (zaman / alan kısıtlamaları ile karşılaştığınızda):

  1. Hile :) - eğitim için sadece bir "yönetilebilir" alt kümesini kullanın. Doğruluk kaybı, azalan getiriler yasası nedeniyle ihmal edilebilir - modelin tahmini performansı, tüm eğitim verileri buna dahil edilmeden çok önce düzleşir.
  2. Paralel hesaplama - sorunu daha küçük parçalara bölün ve her birini ayrı bir makine / işlemci üzerinde çözün. Yine de algoritmanın paralel bir versiyonuna ihtiyacınız var, ancak iyi haber şu ki, birçok yaygın algoritma doğal olarak paraleldir: en yakın komşu, karar ağaçları vb.

Başka yöntemler var mı? Bunların ne zaman kullanılacağına dair bir kural var mı? Her yaklaşımın dezavantajları nelerdir?

Yanıtlar:


10

Stream Madencilik bir cevaptır. Ayrıca denir:


kabul etti, MOA araç kutusu başlamak için iyi bir yer olurdu
tdc

7

Sadece bir altkümeyi kullanmak yerine, mini-toplu öğrenmede olduğu gibi birden çok altkümeyi kullanabilirsiniz (örneğin stokastik gradyanlı iniş). Bu şekilde tüm verilerinizi kullanmaya devam edersiniz.


Aha bu iyi bir nokta - soruyu açıklığa kavuşturdum. Zaman / alan kısıtlamaları ile karşı karşıya kaldığınızda ve mini-batch öğrenmeyi "karşılayamadığınızda" bir senaryo ile ilgileniyorum.
andreister

1

Torbalama veya karıştırma gibi - hiçbir veri israf edilmez, sorun otomatik olarak önemsiz bir şekilde paralel hale gelir ve önemli doğruluk / sağlamlık kazanımları olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.