İstisna günlükleri, veritabanı günlükleri olay günlükleri vb. İçeren uygulamamızın sunucu günlüklerini analiz etmek için bu görevi atadım. Makine öğreniminde yeniyim, Spark'ı elastik arama ve Sparks MLlib (veya PredictionIO) ile kullanıyoruz. sonuç, hangi kullanıcının bir sonraki istisnaya neden olma olasılığının daha yüksek olduğunu ve hangi özelliğin (ve uygulamanın optimizasyonunu takip etmek ve iyileştirmek için bir sürü başka şey) tahmin edebilmek için toplanan istisna günlüklerine dayanarak tahmin edebilmek olacaktır.
Ben başarıyla SparkSearch kıvılcım içine veri almak ve DataFrames oluşturmak ve gerekli verileri harita başardık. Bilmek istediğim, uygulamamın Makine Öğrenimi yönüne nasıl yaklaşacağım. Veri önişleme, veri modellerini eğitme ve etiket oluşturma ve sonra tahminler oluşturma hakkında konuşan makaleler ve makalelerden geçtim.
Sorularım
Çıkış yapan günlük verilerinin eğitilecek veri setlerinde kullanılabilecek sayısal vektörlere dönüştürülmesine nasıl yaklaşırım?
Veri setimi eğitmek için hangi algoritmaları kullanıyorum (son birkaç gündür topladığım sınırlı bilgi ile, lineer regresyon uygulayarak düşünüyorum, lütfen hangi uygulamanın en iyi olacağını önerin)
Sadece bu soruna nasıl yaklaşacağınıza dair öneriler arıyorum.
Teşekkür ederim.