Böyle büyük bir veri kümesine sahip olduğunuzda, istatistiksel ve makine öğrenimi modelleme tekniklerinden herhangi biriyle oynayabilirsiniz ve bu oldukça teşvik edilmektedir. Diğerlerinin önerdiği gibi, verilerden birkaç milyon rastgele örnek almanızı ve bununla oynamanızı tavsiye ederim. Bu bir sınıflandırma problemi olduğu için önce basit sınıflandırma tekniklerini takip eder, daha sonra daha karmaşık olanlarla devam ederdim. Lojistik regresyon ile başlamak harika.
Üretken modellerin de denenmesi gerektiğini eklemek istedim . Naive Bayes sınıflandırıcı , en basit olasılıklı sınıflandırıcılardan biridir ve birçok görevde destek vektör makineleri gibi birçok karmaşık yöntemden daha iyi performans gösterir. NB'nin bu basit uygulamasına ve NB'nin lojistik regresyon ile karşılaştırılması için bu linke bakabilirsiniz .
Bir temel model olarak bir Naive bayes (NB) sınıflandırıcısı oluşturabilir ve ardından Destek vektör makineleri (SVM) veya çok katmanlı algılayıcılar (MLP) gibi herhangi bir makine öğrenme tekniğine gidebilir. Burada bir takas, NB'nin hesaplamalı olarak MLP'den daha ucuz olmasıdır, bu nedenle MLP'den daha iyi performans istenmektedir.
Tam sorgunuza geliyorsanız: Derin öğrenme ve gradyan ağacı yükseltme, verilerdeki her türlü ilişkiyi modelleyebilen çok güçlü tekniklerdir. Peki ya sizin durumunuzda basit bir lojistik regresyon ya da NB istenen doğruluğu veriyorsa. Bu nedenle, önce basit teknikleri denemek ve temel performansa sahip olmak her zaman daha iyidir. Sonra bir karmaşık modeller için gidip taban çizgisi ile karşılaştırabilirsiniz.