Temel olarak, büyük veri kümelerine karşı öğrenmenin iki yaygın yolu vardır (zaman / alan kısıtlamaları ile karşılaştığınızda):
- Hile :) - eğitim için sadece bir "yönetilebilir" alt kümesini kullanın. Doğruluk kaybı, azalan getiriler yasası nedeniyle ihmal edilebilir - modelin tahmini performansı, tüm eğitim verileri buna dahil edilmeden çok önce düzleşir.
- Paralel hesaplama - sorunu daha küçük parçalara bölün ve her birini ayrı bir makine / işlemci üzerinde çözün. Yine de algoritmanın paralel bir versiyonuna ihtiyacınız var, ancak iyi haber şu ki, birçok yaygın algoritma doğal olarak paraleldir: en yakın komşu, karar ağaçları vb.
Başka yöntemler var mı? Bunların ne zaman kullanılacağına dair bir kural var mı? Her yaklaşımın dezavantajları nelerdir?